东北大学魏景琦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉东北大学申请的专利一种基于语义匹配和改进交叉编码模型的文本摘要方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116049383B 。
龙图腾网通过国家知识产权局官网在2026-04-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310077234.5,技术领域涉及:G06F16/34;该发明授权一种基于语义匹配和改进交叉编码模型的文本摘要方法是由魏景琦;姜琳颖设计研发完成,并于2023-02-08向国家知识产权局提交的专利申请。
本一种基于语义匹配和改进交叉编码模型的文本摘要方法在说明书摘要公布了:本发明设计了一种基于语义匹配和改进交叉编码模型的文本摘要方法,属于自然语言处理领域;获取候选摘要,并基于ROUGE评价指标对其进行降序排序;设计训练一个匹配模型,对候选摘要进行打分,选择分数最高的候选摘要作为文本摘要模型的最终输出,并且使用排序损失函数,不断优化匹配模型,使模型能够识别出最匹配的候选摘要;本发明沿用两阶段框架,从多个方面对匹配阶段做出改进,充分获取候选摘要和文档之间的细粒度的语义交互信息,从而在匹配阶段更准确地计算候选摘要和文档的语义相似性,实验表明本发明在文本摘要任务中具有很好的性能。
本发明授权一种基于语义匹配和改进交叉编码模型的文本摘要方法在权利要求书中公布了:1.一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,具体包括以下步骤: 步骤1:采用生成模型,通过最小化生成摘要和参考摘要的负对数似然对其进行训练; 步骤2:用步骤1预训练的模型生成多个候选摘要,其中n是候选摘要的数量;n取大于等于1的整数; 步骤3:将生成的多个候选摘要按照ROUGE评价指标进行降序排序; 步骤4:设计一个匹配模型,分别为不同的候选摘要打分,然后选择分数最高的候选摘要作为文本摘要模型的最终输出; 步骤4.1:使用语义匹配任务中的交叉编码模型cross-encoder对公开数据集中文档和候选摘要进行交叉编码;首先将文档和候选摘要拼接成一个单一的长文本;然后将其喂到语义交互模型中,经过模型的编码后取第一个词的嵌入向量作为候选者—文档的最终表示向量;所述语义交互模型是基于Transformer结构的编码器,使用预训练自注意力模型RoBERTa对其参数进行初始化,用来编码和,最终得到和的相似度得分; 步骤4.1具体为: ; ; ; 其中,第一个词是一个额外的输入,目的是让语义交互模型学习到候选者-文档的交互表示信息,是不同文本间的分割符;函数选择的第一个向量作为最终表示信息;线性层将向量转化成一个标量,用来表示文档和候选摘要的相似度; 考虑到候选摘要匹配与语义匹配任务本质上的区别,提出两个策略辅助模型对匹配模型进行训练; 第一个策略具体为: 由于步骤2生成的多个候选摘要是由同一个文档获取的,所以它们之间相似度很高,为了让匹配模型获取到不同候选摘要之间的区别,直接使用每一个候选摘要的相关表示信息作为附加的信息去估计语义匹配分数,使用语义交互模型编码得到的与候选摘要相关的一部分输出计算表示信息,对最终的输出结果进行增强; ; ; 其中函数将候选者-文档的编码表示分成两组,分别对应和,然后对每一组的所有表示向量做平均池化,目的是获取到每一组各自的嵌入表示信息;是另一个线性层,用来将候选摘要的嵌入表示信息转化成一个标量,作为附加分数;通过超参数对附加分数重新加权,添加到主分数中以产生最终分数: ; 第二个策略具体为: 在生成阶段生成的候选摘要是从文档高度浓缩的,所以理论上每一个候选摘要的语义和文档都非常相近;基于此,设计一个辅助函数用来加强候选摘要和文档的语义相似性;对第一个策略中通过平均池化获取到的和各自的嵌入表示信息、进行语义纠正处理,通过最大化它们的相似性进一步增强它们的语义一致性: ; 其中函数采用余弦相似度损失函数,用来逼近和的表示,纠正模型计算的语义表示信息; 步骤4.2:选取得分最高的候选摘要作为文本摘要模型最终生成的摘要S; 步骤5:在上述训练过程中,使用排序损失函数学习真实评价指标的排序方式,完成对步骤3中提出的匹配模型的训练,使模型能够识别出最匹配的候选摘要。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东北大学,其通讯地址为:110819 辽宁省沈阳市和平区文化路3号巷11号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励