武汉工程大学张彦铎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉武汉工程大学申请的专利一种端到端的动态场景图生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120807734B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511292472.3,技术领域涉及:G06T13/80;该发明授权一种端到端的动态场景图生成方法及系统是由张彦铎;王砾伟;高芳裙;卢涛;周华兵设计研发完成,并于2025-09-11向国家知识产权局提交的专利申请。
本一种端到端的动态场景图生成方法及系统在说明书摘要公布了:本发明涉及一种端到端的动态场景图生成方法及系统,其方法包括提取目标视频中的各个实例的实例特征图;提取各个实例的实例特征图的细粒化特征,得到各个实例的细粒度特征图;预测出与各个实例的细粒度特征图对应的实例描述文本,得到各个实例的实例属性信息;从成对实例查询数据集查询出各个实例之间的成对表示,得到成对实例的边界框坐标信息和类别信息;预测成对实例的动态视觉关系,得到成对实例的动态视觉关系信息;根据成对实例的实例属性信息、边界框坐标信息、类别信息以及动态视觉关系信息生成动态场景图;本发明提高了预测精度的同时还可以实现端到端训练,为动态场景图生成提供了一种新的范式,简化了模型的训练步骤。
本发明授权一种端到端的动态场景图生成方法及系统在权利要求书中公布了:1.一种端到端的动态场景图生成方法,其特征在于,包括如下步骤: 采用深度卷积神经网络模型提取目标视频中的各个实例的实例特征图; 采用视觉编码器提取各个实例的所述实例特征图的细粒化特征,得到各个实例的细粒度特征图; 采用视觉语言预训练模型预测出与各个实例的所述细粒度特征图对应的实例描述文本,得到各个实例的实例属性信息; 初始化一组成对实例查询集,利用多头交叉注意力机制聚合图像的空间特征更新查询,得到成对实例表示,并回归得到成对实例的边界框坐标和类别信息; 根据成对实例的所述细粒度特征图预测成对实例的动态视觉关系,得到成对实例的动态视觉关系信息; 根据成对实例的实例属性信息、边界框坐标信息、类别信息以及动态视觉关系信息生成动态场景图; 根据成对实例的所述细粒度特征图预测成对实例的动态视觉关系,得到成对实例的动态视觉关系信息,包括如下步骤: 构建分组谓词解码器; 利用所述分组谓词解码器将成对实例的所述细粒度特征图通过时序注意力机制提取时间依赖,得到成对实例的时空上下文特征; 利用所述分组谓词解码器根据成对实例的所述时空上下文特征预测成对实例的动态视觉关系,得到成对实例的所述动态视觉关系信息; 将动态视觉关系按照语义划分为三个子集,即注意关系,空间关系和接触关系,为每一个谓词子类初始化一个查询集,每个查询集中相同索引的查询对应同一个主体-对象对且包含‘主体-谓词-对象’的视觉三元组信息;分组谓词解码器是一个三分支结构,每个分支包含多个解码器层和一个前向传播层,用于解码一个特定的谓词子类; 对于每个分支,首先引入视觉空间特征,利用时空注意力机制提取视频的时空依赖,更新得到视频的时空上下文特征,接着,利用自注意力机制捕获解码器内部的全局上下文信息,并根据不同的查询进行调整,将实例解析解码器中的目标引导嵌入添加到每个分支的查询以对齐不同解码器中相同查询索引的表示一致性; 随后通过多头交叉注意力机制聚合时空上下文特征,挖掘不同主体-对象对之间的动态视觉关系并更新查询得到当前分支的主体表示, 最后通过一个前向传播层对当前分支的主体表示进行非线性变换,形成细粒度的视觉三元组表示, 得到最终的主体表示后,通过线性分类器和激活函数来获得当前分支的视觉三元组预测类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉工程大学,其通讯地址为:430205 湖北省武汉市东湖新技术开发区光谷一路206号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励