淮阴工学院胡荣林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉淮阴工学院申请的专利一种基于多交互信息融合的图像描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115512195B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211194469.4,技术领域涉及:G06V10/80;该发明授权一种基于多交互信息融合的图像描述方法是由胡荣林;张新新;张亚光;邵逸达;冯万利;张海艳;肖绍章;朱全银;强豪;王忆雯设计研发完成,并于2022-09-28向国家知识产权局提交的专利申请。
本一种基于多交互信息融合的图像描述方法在说明书摘要公布了:本发明涉及计算机视觉与自然语言处理领域,公开了一种基于多交互信息融合的图像描述方法,采用目标检测模型提取预处理后训练集的图像显著区域特征,然后使用多视觉语义信息交互模块进行编码显著区域特征得到多层增强图像融合特征,通过对多层增强图像融合特征进行平均池化生成全局图像融合特征;利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,从而得到该时间步上下文信息;再经语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。与现有技术相比,本发明能够充分捕获图像视觉信息间的交互信息以及图像视觉信息与文本语义信息间交互信息的多种互补信息,实现对图像语义更加全面的理解。
本发明授权一种基于多交互信息融合的图像描述方法在权利要求书中公布了:1.一种基于多交互信息融合的图像描述方法,其特征在于,包括如下步骤: 步骤1:对数据集与图像真实文本描述进行预处理; 步骤2:提取数据集中图像的全局图像融合特征; 步骤3:利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,得到当前时间步的上下文信息; 多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成,具体包括如下步骤: 步骤3.1:将语料库中所有单词所对应的词向量∏输入词嵌入层,得到以one-hot编码来表示词嵌入向量W∏∏; 步骤3.2:将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入,进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息,具体公式如下: 其中,表示当前时间步的第U组互补信息;表示当前时间步的第U组细胞状态;WΠ表示词嵌入矩阵;Πt表示当前时间步的输入词;表示前一时间步的第U组上下文信息;表示前一时间步的第U组互补信息;表示前一时间步的第U组细胞状态; 步骤3.3:对多个多模态交互信息进行向量拼接操作进行融合,并将其通过嵌入层映射到同一向量空间,生成多模态交互信息融合特征,具体公式如下: 其中,pt表示当前时间步的多模态交互信息融合特征;[.,.]表示向量拼接操作,Wh表示映射矩阵;bh表示偏置; 步骤3.4:采用多头注意力机制与AoA机制,确定多模态交互信息融合特征与图像显著区域特征的相关性,从而获得用于生成单词序列的上下文向量,具体公式如下: 其中,Ct表示当前时间步的上下文信息;Wp表示线性变换矩阵;表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量;表示缩放因子;Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数; 步骤4:采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人淮阴工学院,其通讯地址为:223000 江苏省淮安市经济技术开发区枚乘东路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。