Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 复旦大学张文强获国家专利权

复旦大学张文强获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉复旦大学申请的专利一种基于多模态信息引导的知识增强视觉问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116704198B

龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210174858.4,技术领域涉及:G06V10/40;该发明授权一种基于多模态信息引导的知识增强视觉问答方法是由张文强;王建峰;王昊奋;李紫延;张安达设计研发完成,并于2022-02-24向国家知识产权局提交的专利申请。

一种基于多模态信息引导的知识增强视觉问答方法在说明书摘要公布了:本发明公开了一种基于多模态信息引导的知识增强视觉问答方法,具有这样的特征,包括以下步骤:步骤1,构建图像的全局视觉模态特征并提取视觉模态信息;步骤2,基于所述视觉模态信息的问题实体进行注意力操作,提取需要引入外部知识的所述问题实体,并对提取的所述问题进行知识引入,得到增强问题;步骤3,将增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以推理指令为引导进行推理,最后获取相应的答案。

本发明授权一种基于多模态信息引导的知识增强视觉问答方法在权利要求书中公布了:1.一种基于多模态信息引导的知识增强视觉问答方法,其特征在于,包括以下步骤: 步骤1,构建图像的全局视觉模态特征并提取视觉模态信息,包括以下步骤: 步骤1-1,输入原始彩色图像I,并对图像I进行裁剪及缩放, 步骤1-2,采用VGG16预训练模型的特征层对所述图像I进行特征提取,获得提取后的图像特征In,包括以下步骤:步骤1-2-1,计算通过所述预训练模型VGG16的特征层提取的所述图像I的全局信息:在所述图像I上,对于每一个区域像素L,采用不同感受野的卷积网络和池化网络最大池化操作对所述图像特征In进行提取,获取7*7*512维度的特征,步骤1-2-2,利用平均池化层和全连接层对所述图像特征In进行进一步的提取和压缩,获取大小为4096的一维向量的所述图像特征Iv, 步骤1-3,以提取的所述图像特征In作为视觉模态信息Iv; 步骤2,基于所述视觉模态信息的问题进行注意力操作,提取需要引入外部知识的问题实体,并对提取的所述问题实体进行知识引入,得到增强问题,包括以下步骤: 步骤2-1,将提取的所述视觉模态信息Iv进行特征空间转换得到视觉信息Ip,映射到问题q对应空间, 步骤2-2,基于所述视觉信息Ip对所述问题q进行注意力操作,获得需补充外部信息的实体E,包括以下步骤:步骤2-2-1,将提取的所述图像特征In通过多层感知机网络进行空间转换映射为视觉信息Ip,使得其与问题编码空间保持一致,步骤2-2-2,将所述视觉信息Ip连接到问题特征qI中,tvi=[ti,Ip],其中ti为问题中每一个实体特征,然后对基于视觉信息特征的qv进行注意力操作,以获取需要补充外部知识的所述实体E, 步骤2-3,对所述实体E中的实体引入外部知识ke,将嵌入后的知识特征空间转换后进行合并得到增强问题qk,具体过程为:对所述实体E中的实体ei,查询对应的外部知识,获得相应的外部知识嵌入的高维向量ke,并通过多层感知网络将ke进行特征空间转换映射为kep,之后将kep融合到对应的ei特征中; 步骤3,将所述增强问题的编码为推理指令,以图卷积网络的方法在图像生成的场景图中以所述推理指令为引导进行推理,最后获取相应的答案,包括以下步骤: 步骤3-1,对于所述视觉模态信息Iv,通过DETR生成场景图,以获取图中视觉实体及实体间相关信息,具体过程为:采用所述DETR进行场景图生成,首先通过所述图卷积网络对图片进行特征提取,其次对图像的位置信息进行编码,其次将两者进行序列化后相加,送入Transformer网络进行编码和解码,最后使用前馈网络进行类别及物体边界框预测, 步骤3-2,将所述增强问题qk进行编码,获取问题推理所需指令,具体过程为:对步骤2-2-2中融入了外部知识的问题特征qI=[q1,q2,…,qn]向量,通过Transformer进行编码,编码为M个指令向量, 步骤3-3,在所述指令的引导下,利用所述图卷积网络,通过问题引导方式对所述场景图进行推理,获得相应的答案,包括以下步骤:步骤3-3-1,对于步骤3-1中所生成的场景图,使用基于注意力机制的图卷积网络进行推理,推理过程中依据步骤3-2中所生成的问题指令进行引导,步骤3-3-2,对于场景图中的对象节点及其属性和边进行编码,获取相应的特征向量,属性的特征向量加入到节点特征向量中,基于节点及边特征向量构建场景图结构,步骤3-3-3,在注意力图卷积神经网络上基于问题指令引导进行图卷积推理操作,其中指令的引导方式为:先通过转换特征空间矩阵Wi进行空间变换获得Inp,保持与图中特征向量相同的维度,然后将Inp与节点及边进行拼接,获得融入了指令的节点和边,然后基于图注意力的方式进行图卷积操作,最后获得图中所有节点的输出特征向量,在所有节点上做最大池化操作,获得图卷积运算的最后输出特征,然后通过全连接层映射到对于的答案类别,获取最终的预测答案。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。