福州大学廖祥文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福州大学申请的专利一种基于多模态关键信息分析的摘要生成系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115934932B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211628261.9,技术领域涉及:G06F16/34;该发明授权一种基于多模态关键信息分析的摘要生成系统是由廖祥文;林于翔;徐攀;吴海杰;李凯强设计研发完成,并于2022-12-17向国家知识产权局提交的专利申请。
本一种基于多模态关键信息分析的摘要生成系统在说明书摘要公布了:本发明提出一种基于多模态关键信息分析的摘要生成系统,包括以下模块;文本编码器模块,用于获取文本的编码信息;图像编码器模块,用于获取图像不同角度上的特征信息;选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络;多头选择注意力模块,用于挖掘图像中的关键对象信息;多模态特征融合模块,用于获取多模态上下文表示;解码器模块,用于生成摘要语句;所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端;本发明通过挖掘文本和图像的关键信息,建模对象与文本序列之间的相互依赖关系,以突出图像的关键对象信息,从而生成高质量的文本摘要。
本发明授权一种基于多模态关键信息分析的摘要生成系统在权利要求书中公布了:1.一种基于多模态关键信息分析的摘要生成系统,其特征在于:包括以下模块;文本编码器模块,用于获取文本的编码信息; 图像编码器模块,用于获取图像不同角度上的特征信息; 选择门控机制模块,用于挖掘文本和图像模态的关键信息,包括多模态选择门控网络和视觉选择门控网络; 多头选择注意力模块,用于挖掘图像中的关键对象信息; 多模态特征融合模块,用于获取多模态上下文表示; 解码器模块,用于生成摘要语句; 所述系统在生成摘要时,引入图像的对象信息,同时将文本压缩的多模态关键信息提取过程同时分担给编码端,具体方法是:通过多模态选择门控网络、视觉选择门控网络过滤文本和图像的次要、冗余信息,挖掘关键信息,同时通过多头选择注意力模块的多头注意力机制,建模图像中对象与文本序列之间的相互依赖关系,突出图像中的关键对象信息,从而生成高质量的文本摘要; 所述图像编码器模块,引入ResNet-152网络抽取图像特征信息,包括局部特征和全局特征,同时引入FasterR-CNN网络抽取图像中的对象特征,然后将这三种不同角度视觉信息投影到与文本信息相同的向量空间;获取图像的不同角度的初始特征信息的方法具体为: 引入ResNet-152预训练网络模型,将该网络最后一个全连接层FullyConnectedLayers,FC的输入向量作为图像全局特征,最后一个平均池化层avgpool的输出映射成图像局部特征; 所述FasterR-CNN网络包括Facebook预训练完成的FasterR-CNN模型; FasterR-CNN网络的算法包括两个部分:1候选区域网络RPN:用于产生候选框;2FasterR-CNN检测器:基于RPN提取的候选框,检测并识别候选框中的目标; 在调用FasterR-CNN网络时,首先将整张图片输进CNN,生成图像的卷积特征图featuremap,之后由RPN网络使用活动窗口遍历featuremap,生成目标对象候选框信息,再通过ROIPooling层将不同尺寸的特征图resize到统一大小,之后使用非极大值抑制算法NMS筛选16个置信度最大的对象候选框; 最后通过线性变换,将这三种视觉特征投影到与文本特征相同的向量空间;其具体公式如下: g=ResNetfcI公式五; a1,a2,...,a49=ResNetavgpoolI公式六; o1,o2,...,o16=FasterRCNNROIPoolingI公式七; g=Urg公式八; A=a1,a2,...,a49=Wra1,a2,...,a49公式九; O=o1,o2,...,o16=Vro1,o2,...,o16公式十; 其中,aii=1,2,...,49表示图像局部特征,对应图像中的一个网格区域,oii=1,2,...,16表示图像中的一个对象候选框特征,g表示图像全局特征,Wr、Ur、Vr是模型可训练的参数矩阵; 所述多头选择注意力模块,将文本关键信息作为查询向量Query,FasterR-CNN抽取的图像中对象信息作为关键信息向量Key和内容向量Value,捕捉图像中对象与文本序列之间的相互依赖关系,再将其与文本关键信息拼接,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,具体方法为: 将文本关键信息H作为查询向量Query,FasterR-CNN抽取的图像对象信息O作为关键信息向量Key和内容向量Value,通过多头注意力机制在多个不同的投影空间中建立不同的投影信息,捕捉图像中对象与文本序列之间的相互依赖关系,在抑制无用噪声的同时,进一步突出图像中的关键对象信息,之后再和文本关键信息拼接,其具体公式如下: MATTH,O=[ATT1H,O,...,ATThH,O]Wo公式十二; H'=[H,MATTH,O]Wh公式十三; 其中,dk∈Rdh,WiQ、WiK、WiV、Wo、Wh是模型可训练的参数矩阵; 所述选择门控机制模块,引入多模态选择门控网络和视觉选择门控网络,分别过滤文本和图像模态上的噪声,捕捉各自模态的关键信息,方法为: 选择门控机制模块包括多模态选择门控网络和视觉选择门控网络;利用文本编码器模块得到的文本隐层状态向量hi、文本全局特征r以及图像编码器模块得到的图像全局特征g,生成多模态选择门控向量再通过过滤文本次要信息,挖掘其关键信息,其具体公式如下: H=h1',h'2,...,h'n公式十六; 其中,σ是sigmoid函数,Wm、Vm、Um是模型可训练的参数矩阵,⊙表示矩阵元素点乘; 视觉选择门控网络利用图像编码器模块得到的图像全局特征g和图像局部特征ai,生成视觉选择门控向量再通过过滤图像次要信息,挖掘其关键信息;其具体公式如下: 其中,σ是sigmoid函数,Wi、Ui是模型可训练的参数矩阵,⊙表示矩阵元素点乘。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励