北京理工大学甘明刚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于多模态信息融合的在线视频视觉关系检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115984729B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211385867.4,技术领域涉及:G06V20/40;该发明授权一种基于多模态信息融合的在线视频视觉关系检测方法是由甘明刚;何玉轩;陈杰;马千兆;吴玮;张琰;苏绍文;郭嘉设计研发完成,并于2022-11-07向国家知识产权局提交的专利申请。
本一种基于多模态信息融合的在线视频视觉关系检测方法在说明书摘要公布了:本发明涉及人工智能理解和环境交互技术领域,具体涉及一种基于多模态信息融合的在线视频视觉关系检测方法。本发明提出了ASE‑GCN层,利用三个不同的相关邻接矩阵对潜在关系图进行建模。矩阵包含视觉外观、物理空间和语义嵌入信息。将基于双线性池化的融合方法扩展为基于三线性池化的融合,并设计了一个分层融合模块来融合多角色多模态特征。
本发明授权一种基于多模态信息融合的在线视频视觉关系检测方法在权利要求书中公布了:1.一种基于多模态信息融合的在线视频视觉关系检测方法,其特征在于该方法的步骤包括: 步骤1,构建分层多模融合网络,所构建的分层多模融合网络中包括两层ASE-GCN层、分层多模融合模块、YOLO目标检测器和语义嵌入层,分层多模融合模块包括第一层的基于注意力的融合模块和第二层的三线性池化融合模块; 步骤2,将在线视频数据输入到步骤1构建的分层多模融合网络中; 步骤3,步骤2中输入到分层多模融合网络中的在线视频数据通过深度神经网络提取每个对象的初始视觉特征,并将提取的每个对象的初始视觉特征输入到两层ASE-GCN层,得到视觉外观线索; 步骤4,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,根据YOLO目标检测器产生的每个对象的目标限定框坐标表示,构建静态信息和动作表征,静态信息作为对象对的物理空间线索,动作表征作为谓语的物理空间线索,将对象对的物理空间线索和谓语的物理空间线索拼接得到拼接后的物理空间线索; 步骤5,将步骤2中输入到分层多模融合网络中的在线视频数据的帧输入到YOLO目标检测器中,YOLO目标检测器产生的每个目标的种类通过语义嵌入层来建模对象对和谓词的共现属性,将对象类别映射到一个隐藏空间中的唯一的对应隐藏表示,隐藏表示被连接得到关系预测的语义嵌入线索; 步骤6:将步骤3得到的视觉外观线索、步骤4得到的拼接后的物理空间线索与步骤5得到的语义嵌入线索输入到分层多模信息融合模块中,经过第一层的基于注意力的融合模块,将视觉外观线索中的对象及对象之间的关系进行多角色融合,将物理空间线索中的对象及对象之间的关系进行多角色融合,将语义嵌入线索中的对象及对象之间的关系进行多角色融合,最后通过第二层三线性池化融合模块将各自融合后的视觉外观线索、物理空间线索和语义嵌入线索进行多模态融合,得到总融合结果; 步骤7:检测步骤6得到的总融合结果中对象对之间的交互关系,完成基于多模态信息融合的在线视频视觉关系检测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励