杭州电子科技大学汤景凡获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利基于自适应注意力机制和知识图谱的图像描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115964508B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211579831.X,技术领域涉及:G06F16/36;该发明授权基于自适应注意力机制和知识图谱的图像描述生成方法是由汤景凡;吴志威;张旻;李鹏飞;姜明设计研发完成,并于2022-12-09向国家知识产权局提交的专利申请。
本基于自适应注意力机制和知识图谱的图像描述生成方法在说明书摘要公布了:本发明公开了基于自适应注意力机制和知识图谱的图像描述生成方法,先将MSCOCO数据集和VisualGenome数据集中有关图像的描述转化为知识图谱;再使用TransR模型将知识图谱向量化表示,得到单词嵌入向量;之后,通过单词嵌入向量和视觉哨兵生成自适应注意力机制模型;基于LSTM模型,结合自适应注意力机制模型、知识图谱,得到基于自适应注意力机制和知识图谱的图像描述模型;最后,将待描述的图片输入图像描述模型,得到待描述的图片的图像描述。本模型生成的描述更加符合人类的描述。
本发明授权基于自适应注意力机制和知识图谱的图像描述生成方法在权利要求书中公布了:1.基于自适应注意力机制和知识图谱的图像描述生成方法,其特征在于,包括以下步骤: 步骤1获取MSCOCO数据集和VisualGenome数据集,将所述MSCOCO数据集和VisualGenome数据集中有关图像的描述转化为知识图谱; 步骤2使用TransR模型将知识图谱向量化表示,得到单词嵌入向量; 步骤3通过单词嵌入向量和视觉哨兵生成自适应注意力机制模型;基于LSTM模型,结合自适应注意力机制模型、知识图谱,得到基于自适应注意力机制和知识图谱的图像描述模型; 步骤4将待描述的图片输入步骤3得到的基于自适应注意力机制和知识图谱的图像描述模型,得到待描述的图片的图像描述; 所述步骤2具体包括以下步骤: 步骤2-1获取图像I,将图像I从任意大小的P*Q调整大小固定成M*N, M,N=ReP,Q,Scale 其中,Scale是缩放的倍数,Re是调整大小的函数, 并采用已经预先训练的FasterR-CNN模型对图像I进行目标检测,由此可以得到候选区域,所述候选区域包括候选框集合B={b_i│i=1,…,n}以及全局特征V,如下式所示: B,V=FasterRCNNM,N,I 将检测到的目标输入到ResNet网络中进行目标特征的提取,得到目标特征X,如下式所示: X=ResNetB,V 2-2按下式所示,使用SoftMax模型对目标特征X进行处理,得到每个目标的类别L={l_i│i=1,…,n},l_i∈Z^d; L=SoftMaxX 其中,l_i表示最终预测的类别,Z^d表示预测的种类, 再将步骤1得到的三元组信息Triplets经过TransR模型处理得到向量组T=[V_h,V_r,V_t],其中V_h,V_r,V_t分别表示一个三元组中的主体的向量,主客体之间的关系的向量,客体的向量,如下式所示: T=TransRTriplets 最后使用Algorithm1算法得到经过知识图谱优化的特征K,如下式所示: K=Algorithm1Maxnum,L,V,T 其中,Maxnum是搜索结果中最大的三元组数量; 所述Algorithm1算法的运行过程包括如下步骤: a.输入全局特征V,目标特征X,向量组T,最大的三元组数量Maxnum; b.对知识图谱进行Maxnum次数的查询,查询条件是X是否等于T,保存查询结果为Savel,其中l=1到Maxnum; c.更新全局特征 2-3融合来自知识图谱的特征K,目标特征X,类别特征L,以及全局特征V,将上述特征之和作为LSTM的decoder的输入F: F=SoftMaxfK,X,L,V 其中,f=WvV+WxX+WlL+WkK 其中,Wv,Wx,Wl,Wk是对应的权重值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市钱塘新区白杨街道2号大街1158号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。