北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司;北京网御星云信息技术有限公司刘洋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司;北京网御星云信息技术有限公司申请的专利一种融合局部关键信息和预训练的文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116304051B 。
龙图腾网通过国家知识产权局官网在2025-12-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310286372.4,技术领域涉及:G06F16/35;该发明授权一种融合局部关键信息和预训练的文本分类方法是由刘洋;卞超轶;赵旺;金柯;方太辉;邹亚杰设计研发完成,并于2023-03-22向国家知识产权局提交的专利申请。
本一种融合局部关键信息和预训练的文本分类方法在说明书摘要公布了:本申请提供一种融合局部关键信息和预训练的文本分类方法,包括:选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,利用第二预训练模型从文本中抽取关键词序列,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量,对文本的最终表示向量进行关于任务数据的标注质量的评估,对评估通过后的文本的最终表示向量进行分类。本申请提高了分类效率和准确性。
本发明授权一种融合局部关键信息和预训练的文本分类方法在权利要求书中公布了:1.一种融合局部关键信息和预训练的文本分类方法,其特征在于,包括以下步骤: S1,从能够获得文本的全文总体语义的预训练模型中,选择与任务数据匹配程度最高的预训练模型作为第一预训练模型; 所述任务数据包括文本和标注,所述标注包括文本所属的分类和代表文本关键信息的关键词序列; S2,使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,所述第二预训练模型能够获得基于任务数据的代表文本的全文总体语义的全文表示向量; S3,通过对第二预训练模型进行局部关键信息的抽取学习,利用第二预训练模型从文本中抽取代表局部关键信息的关键词序列; 其中,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别; 从文本中抽取属于同一局部关键类别的词序列作为该局部关键类别的关键词序列,将该局部关键类别中的所有关键词序列作为该局部关键类别的局部关键信息; S4,对文本中的每个词进行词向量训练,得到代表每个词自身语义向量表示的词向量; S5,根据局部关键类别包含的关键词序列中每个词的词向量,通过词向量平均计算获得该局部关键类别中每个关键词序列的平均向量,再对所有关键词序列的平均向量做平均计算,获得该局部关键类别的局部关键信息对应的局部关键向量; S6,对同一局部属性下所有局部关键向量进行向量拼接,获得该局部属性的局部表示向量; S7,将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量; S8,对文本的最终表示向量进行关于任务数据的标注质量的评估; S9,对评估通过后的文本的最终表示向量进行分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京启明星辰信息安全技术有限公司;启明星辰信息技术集团股份有限公司;北京网御星云信息技术有限公司,其通讯地址为:100193 北京市海淀区东北旺西路8号21号楼启明星辰大厦102号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励