成都信息工程大学杨川获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都信息工程大学申请的专利结合局部主题和层次结构信息的抽取式摘要方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116860959B 。
龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310699985.0,技术领域涉及:G06F16/34;该发明授权结合局部主题和层次结构信息的抽取式摘要方法及系统是由杨川;王婷;梁佳莹;向东;杨文杰;马洪江设计研发完成,并于2023-06-13向国家知识产权局提交的专利申请。
本结合局部主题和层次结构信息的抽取式摘要方法及系统在说明书摘要公布了:本发明属于文本摘要提取技术领域,公开了一种结合局部主题和层次结构信息的抽取式摘要方法及系统,首先给定原文档,通过编码器得到文档的上下文表示,将其输入局部主题信息提取模块提取该句子所属片段的主题信息,将局部主题信息表示和文档的上下文表示相融合,得到融合局部主题信息的文本上下文表示;文本层次结构信息嵌入模块将文本的层次结构信息嵌入到融合局部主题信息的文本上下文表示中;通过Sigmoid层算出每个句子的置信度分数以判断该句是否属于摘要句。本发明更关注文本重要部分,提升生成摘要质量;通过修改Longformer的TokenPositionEmbeddings,使得其能够处理更长的文本数据。
本发明授权结合局部主题和层次结构信息的抽取式摘要方法及系统在权利要求书中公布了:1.一种结合局部主题和层次结构信息的抽取式摘要方法,其特征在于,包括: 步骤一,给定原文档D={sent1,…,sentn},其中sentn表示原文档中第n个句子; 步骤二,通过编码器得到文档的上下文表示,将其输入局部主题信息提取模块提取该句子所属片段的主题信息; 步骤三,将局部主题信息表示和文档的上下文表示相融合,得到融合局部主题信息的文本上下文表示; 步骤四,文本层次结构信息嵌入模块将文本的层次结构信息嵌入到融合局部主题信息的文本上下文表示中,通过两层堆叠的Transformer学习句子文档级分层结构信息,使模型更深入了解文本上下文结构; 步骤五,通过Sigmoid层算出每个句子的置信度分数以判断该句子是否属于摘要句; 所述步骤一中,在每个句子的开头和结尾分别插入[BOS]和[EOS]标签,使用[BOS]标签代表整个句子表示; 所述步骤二中,使用Longformer预训练语言模型作为文本编码器,模型嵌入层包括TE:TokenEmbeddings、SE:SegmentEmbeddings以及PE:PositionEmbeddings; wi,j=TE+SE+PE 由上式得到每个单词的嵌入表示,利用预训练Longformer对输入序列进行上下文学习; {h1,0,h1,1,…,hN,0,…,hN,*}=Longformerw1,0,w1,1,…,wN,0,…,wN,* 其中,wi,j表示第i个句子的第j个单词,wi,0和wi,*分别表示第i个句子的[BOS]和[EOS]标签,hi,j表示对应单词的隐藏状态;经过Longformer编码后,使用[BOS]标签作为每个句子的上下文表示,即Hs=h1,0,…,hN,0; 所述步骤二中的局部主题信息提取模块提取句子所属片段的主题信息的具体步骤包括: 将句子上下文表示通过Bi-LSTM编码得到每个句子的隐藏向量表示; 利用每个主题片段开始和结束隐藏向量之间的减法来表示句子所属主题片段的局部上下文信息,对于第i个主题片段ti,其具体的表示方法为: ti=fi|bi 其中,fi和bi分别表示前向传播和反向传播的主题片段,starti和endi分别表示该主题片段的开始位置和结束位置,|表示向量拼接符号; 在前向传播和反向传播的开头和结尾分别加入0向量,用于防止下标超出边界; 所述步骤四中的文本的层次结构信息包括句子层次结构信息和章节标题信息; 所述句子层次结构信息包含该句子所属段落的线性位置以及句子在段落内的线性位置表示; 通过获取段落和句子所对应的数值序号来表示其位置,对于给定文档D={sent1,…,sentn},第i个句子senti的层次结构信息被表示为一个二维向量ss,gs,该二维向量表示句子在该层次的位置,具体为: vsenti=ss,gs 其中,ss表示为包含该句子段落相对于整个文章的线性位置,gs表示为该句子在所在段落内的线性位置; 所述章节标题信息采用预设有多个章节标题类别的PubMed数据集,若句子所在章节的节标题不属于预设的章节标题类别之一,则直接使用句子本身的章节标题; 所述步骤四中的文本层次结构信息嵌入模块使用BERT位置编码方法编码vsent向量; 对于第i个句子的层次结构向量ss,gs表述为: 其中,PE表示BERT的位置编码方法,d表示该句子的向量维度,|表示向量拼接符号; 利用与文档编码相同的预训练编码器对句子所属章节标题信息编码,通过将提取的章节标题输入到预训练的编码器得到每个字符对应的隐藏状态,并将每个隐藏状态相加; 所述步骤五中的Sigmoid层采用的sigmoid函数为: 在训练阶段,sigmoid函数使用二元交叉熵作为损失函数: Loss={loss1,…,lossn} 其中,σ表示sigmoid函数,Wh表示可学习参数矩阵,bh表示偏置,lossi表示判断每一句子是否属于摘要句时产生的损失,表示当前句子预测的概率值,yi表示该句子真实的标签值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都信息工程大学,其通讯地址为:610225 四川省成都市西南航空港经济开发区学府路一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励