中国矿业大学刘鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国矿业大学申请的专利一种基于增强注意力机制的端到端图像描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118736575B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410807697.7,技术领域涉及:G06V20/70;该发明授权一种基于增强注意力机制的端到端图像描述生成方法是由刘鹏;曹恒菀;刘兵;杨文嘉;单昊;任成义;张国圆;刘科程;周成成设计研发完成,并于2024-06-21向国家知识产权局提交的专利申请。
本一种基于增强注意力机制的端到端图像描述生成方法在说明书摘要公布了:本发明提出一种基于增强注意力机制的端到端图像描述生成方法,属于人工智能技术领域。生成图像描述生成模型,包括图像特征抽取层、多粒度特征融合编码器、自适应双向解图码器、线性变换层和打分排序层;对图像描述生成模型使用交叉熵损失进行训练,然后采用自我批评训练优化CIDEr评分优化,并利用完成训练的图像描述生成模型描述图像。其评价指标上超越了现有技术,本发明的图像描述方法不仅提高了图像语义理解能力,而且更贴近人类描述习惯,具有良好的可解释性。
本发明授权一种基于增强注意力机制的端到端图像描述生成方法在权利要求书中公布了:1.一种基于增强注意力机制的端到端图像描述生成方法,其特征在于,步骤如下: 步骤1:在transformer架构基础上构建增强注意力机制端到端的图像描述生成模型;图像描述生成模型包括顺序连接的特征抽取层、多粒度特征融合编码器、自适应双向解码器、线性变换层和打分排序层;其中特征抽取层包括VinVL模型和ResNet101模型,多粒度特征融合编码器包括顺序连接的多粒度特征融合、稠密全局注意力机制、前馈网络层,自适应双向解码器包括顺序连接的自适应双向掩码注意力、交叉注意力机制、前馈网络层,粒度特征融合编码器与交叉注意力机制连接,自适应双向掩码注意力连接有描述语句编码和位置编码; 步骤2:从MSCOCO2014图像数据集中选取图片,并从选取图片自带的描述语句中选择两个描述语句配对后生成训练集,两个描述语句中其一为顺序描述,其二为逆序描述;将MSCOCO2014图像数据集的图片描述语句分割筛选生成词库;对图像特征抽取层的VinVL模型和ResNet101模型赋值预训练参数; 步骤3:将训练集中的图片传入图像特征抽取层,得到未编码的图片原始特征,将图片原始特征输入多粒度特征融合编码器,利用多粒度特征融合模块对图片进行编码:融合图片原始特征,获得图片融合特征,利用稠密全局注意力机制将图片的全局特征添加到融合特征中,再经过前馈网络层得到编码后的图像特征; 步骤4:将传入图像特征抽取层中图片对应的两句描述输入描述编码和位置编码,得到编码后的描述信息传入自适应双向解码器,经过自适应双向掩码注意力机制获得双向描述解码特征,将步骤3获得的图像特征传入多头交叉注意力机制中与双向描述解码特征进行交互解码得到解码信息,将解码信息传入前馈网络层输出最终的解码特征; 步骤5:自适应双向解码器生成的最终的解码特征经过线性变换层映射到词库得到最终的描述,最终的描述包括顺序描述与逆序描述两句,与原始输入图片的两句描述计算损失,并梯度回传修正图像描述生成模型的权重,直至完成设定的训练; 步骤6:当图像描述生成模型训练完成后,进入推理阶段,此时图像描述生成模型不改变模型权重,将待描述图片传入完成训练的图像描述生成模型的图像特征抽取层得到图像原始特征,再传入多粒度特征融合编码器和自适应双向解码器中生成两个方向的描述,最后传入打分排序模块,在生成的两个方向的描述中选择得分高的描述作为最终输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国矿业大学,其通讯地址为:221116 江苏省徐州市大学路1号中国矿业大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励