南京邮电大学龚乐君获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利基于关键信息掩码与拷贝的生成式文本摘要方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115659172B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211178863.9,技术领域涉及:G06F18/214;该发明授权基于关键信息掩码与拷贝的生成式文本摘要方法是由龚乐君;吕畅;唐翔宇设计研发完成,并于2022-09-26向国家知识产权局提交的专利申请。
本基于关键信息掩码与拷贝的生成式文本摘要方法在说明书摘要公布了:本发明提供一种基于关键信息掩码与拷贝的生成式文本摘要方法,通过获得原始文档的以词为单位的原始文本序列,以获取关键信息集合;获得输入文本序列;构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集;构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,生成文本摘要;通过训练后的生成式文本摘要模型获得输入文档的文本摘要;本发明通过使用基于关键信息的掩码语言模型和BIOK拷贝机制,将使模型获得识别与总结关键信息的能力,能够减少生成文本中的集外词数量,并有效提升文本摘要的生成质量。
本发明授权基于关键信息掩码与拷贝的生成式文本摘要方法在权利要求书中公布了:1.一种基于关键信息掩码与拷贝的生成式文本摘要方法,其特征在于:包括以下步骤, S1、获得原始文档的以词为单位的原始文本序列,使用词性标注技术和信息抽取技术,分别获得名词集合和关键词集合,计算其交集,以获取关键信息集合; S2、由原始文本序列与关键信息集合,获得含关键信息的文本序列,结合给定的目标序列,获得输入文本序列; S3、构建关键信息掩码语言模型,输入文本序列经由关键信息掩码语言模型后,获得掩码矩阵,得到训练集; S4、构建生成式文本摘要模型,包括编码器、解码器和融合关键信息的BIOK拷贝机制,编码器将输入文本转化为对应的向量表示,解码器则是将编码器的第层输出作为解码器的输入,生成词表单元概率分布和重构的拷贝标签序列;采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要; 步骤S4中,采用融合关键信息的BIOK拷贝机制,优化生成文本的词表概率分布,将优化后的词表单元概率分布与集束搜索算法结合,生成文本摘要,具体为, S43、对于输入的文本序列,生成式文本摘要模型的解码器输出当前时刻的词表单元概率分布和拷贝标签; S44、通过拷贝标签,优化生成文本的词表概率分布,获得优化后的词表单元概率分布; S441、若,说明解码器当前时刻的生成单元将拷贝自原始文本序列,则在中去掉所有不在原序列中的单元分布,获得优化后的词表单元概率分布; S442、若,说明解码器当前时刻的生成单元与上一时刻的生成单元都来自于原始文本序列,则在中去掉所有不能与原始文本序列组成连续序列的单元分布,获得优化后的词表单元概率分布; S443、若,说明解码器当前时刻的生成单元将来自关键信息集合,则在中去掉所有不能与关键信息组成连续序列的单元分布,获得优化后的词表单元概率分布; S444、若,说明解码器当前时刻的生成单元将不在原序列中,则不作调整,获得优化后的词表单元概率分布; S45、利用优化后的词表单元概率分布与集束搜索算法结合生成当前时刻的文本序列,得到文本摘要; S5、由步骤S3获得的训练集对步骤S4构建的生成式文本摘要模型进行训练,获得训练后的生成式文本摘要模型,通过训练后的生成式文本摘要模型获得输入文档的文本摘要。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区亚东新城文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。