华南师范大学苏俊光获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南师范大学申请的专利一种无监督增强大模型超长文本集数据对比分析方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120181068B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510116435.0,技术领域涉及:G06F40/211;该发明授权一种无监督增强大模型超长文本集数据对比分析方法及系统是由苏俊光;王穗苹;周诺设计研发完成,并于2025-01-24向国家知识产权局提交的专利申请。
本一种无监督增强大模型超长文本集数据对比分析方法及系统在说明书摘要公布了:本申请公开了一种无监督增强大模型超长文本集数据对比分析方法及系统,可应用于文本数据处理技术领域。本申请通过从外部中文语料库中获取待处理语料数据后,对待处理语料数据进行连续字符组合划分得到语料组合数据,再对每个语料组合数据形成词汇的可能性进行评估得到评估结果后,根据评估结果和语料组合数据对预训练模进行训练,从而使得预训练模型可以充分利用中文语料库资源,进而提高对超长文本的拆分和词性分析准确度,然后将待处理词性筛选结果输入到通过预设应用场景进行参数调节后的预设基准模型中,从而可以利用预设基准模型中的预设检索增强生成机制提高超长文本数据集的数据对比分析的准确度和可靠性,进而满足超长文本的分析需求。
本发明授权一种无监督增强大模型超长文本集数据对比分析方法及系统在权利要求书中公布了:1.一种无监督增强大模型超长文本集数据对比分析方法,其特征在于,所述方法包括: 从外部中文语料库中获取待处理语料数据; 根据预设语料长度范围对所述待处理语料数据进行连续字符组合划分,得到语料组合数据; 分别计算所述语料组合数据的点互信息和左右信息熵;计算所述点互信息和所述左右信息熵之和作为所述语料组合数据形成独立词组的概率值;根据所述概率值生成所述语料组合数据的评估结果; 根据所述评估结果和所述语料组合数据对预训练模型进行训练; 获取待分析超长文本集; 将所述待分析超长文本集输入训练后的预训练模型中进行拆分和词性处理,得到待处理词性筛选结果,包括: 分别对所述待分析超长文本集中的第一超长文本集和第二超长文本集进行预处理,得到所述第一超长文本集对应的第一断句和第一可再分段落、以及所述第二超长文本集对应的第二断句和第二可再分段落; 将所述第一可再分段落和所述第二可再分段落分别输入训练后的预训练模型进行分句处理,得到所述第一可再分段落对应的第三断句以及所述第二可再分段落对应的第四断句; 将所述第一断句和所述第三断句进行合并,得到第一超长文本集对应的第一分句后规范文本集; 将所述第二断句和所述第四断句进行合并,得到第二超长文本集对应的第二分句后规范文本集; 将所述第一分句后规范文本集和所述第二分句后规范文本集分别输入到训练后的预训练模型进行分词处理,得到所述第一分句后规范文本集对应的第一分词文本集以及所述第二分句后规范文本集对应的第二分词文本集; 对所述第一分词文本集和所述第二分词文本集分别进行词频统计,得到所述第一分词文本集对应的第一词典集以及所述第二分词文本集对应的第二词典集; 将所述第一词典集和所述第二词典集分别输入到训练后的预训练模型进行词性筛选,得到所述待处理词性筛选结果; 将所述待处理词性筛选结果输入预设基准模型进行对比分析,输出得到对比分析结果,预设基准模型的参数通过预设应用场景进行调节。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南师范大学,其通讯地址为:510631 广东省广州市天河区中山大道西55号华南师范大学心理学院;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励