大连理工大学张强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种基于编码解码架构的两阶段人-物交互检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116311493B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211623429.7,技术领域涉及:G06V40/20;该发明授权一种基于编码解码架构的两阶段人-物交互检测方法是由张强;王昊中;候亚庆设计研发完成,并于2022-12-16向国家知识产权局提交的专利申请。
本一种基于编码解码架构的两阶段人-物交互检测方法在说明书摘要公布了:本发明属于计算机视觉技术领域,具体涉及一种基于编码解码架构的两阶段人‑物交互检测方法。本发明实现了共享了骨干网络下全局上下文级记忆编码的提取与实例级记忆编码的高效融合,摒弃了传统的定长查询序列配合匈牙利匹配的训练模式,采用变长查询序列进行一对一训练预测;充分挖掘DETR的多层解码器预测结果以提升目标检测表现,并设计了一个匹配对级的注意力机制模块,能够自适应的学习人和物体之间的隐藏关系;提出的方法在V‑COCO和HICO‑DET两个数据集上进行了测试,其结果超越了现有的最好水平。
本发明授权一种基于编码解码架构的两阶段人-物交互检测方法在权利要求书中公布了:1.一种基于编码解码架构的两阶段人-物交互检测方法,其特征在于,包括以下步骤: 步骤100,分别准备V-COCO和HICO-DET公开的人-物交互检测数据集; 步骤200,对数据集进行预处理; 步骤201,训练阶段对图像进行随机水平翻转; 步骤202,调整图片大小并随机剪裁,或直接调整图片大小; 步骤203,针对数据集中图片的RGB通道已经给定的均值和方差,进行正则化; 步骤204,推理阶段调整图片大小并进行正则化; 步骤300,构建DETR目标检测器,在步骤100形成的数据集上训练目标检测模型; 具体的,DETR目标检测器包含三个部分:1Resnet主干网络,用于从图片中提取一个紧凑的特征表示以防止后续注意力操作导致的显存爆炸问题;2采用多头自注意力以及前馈网络的多层堆叠的Transformer编码解码器,Transformer编码器将主干网络提取的特征结合二维正弦静态位置编码进行处理成为Transformer编码器记忆编码,Transformer解码器利用交叉注意力机制提取Transformer编码器记忆编码的有用部分输出对象查询特征;3查询对象头接受Transformer解码器输出的对象查询特征并输出预测结果; 其包括如下步骤: 步骤301,读取预训练参数文件,加载在MS-COCO大规模图像目标检测数据集上的预训练的模型权重; 步骤302,从步骤200处理生成的数据集中读取图像和物体标签以及物体的边界框,划分训练集和验证集; 步骤303,将训练数据分批次输入到Resnet骨干网络,获得对应的特征图、掩码矩阵以及位置编码; 步骤304,特征图、掩码矩阵以及位置编码经过Transformer编码器生成对应的编码器特征以供解码器使用; 步骤305,在Transformer解码器中输入步骤303获得的掩码矩阵和位置编码,步骤304获得的Transformer编码器特征以及查询嵌入和查询序列输入,通过交叉注意力机制获得对象查询特征,再经过查询对象头即前馈网络获得对应的查询预测结果; 步骤306,训练阶段采用匈牙利二部图匹配方式和真实标签一对一匹配;推断阶段采用端到端的没有任何后处理方式获得查询结果; 步骤400,使用步骤100的数据集,根据人-物交互检测任务要求进行数据预处理; 主要操作同步骤200,但在训练阶段改变图像的亮度、对比度和饱和度; 步骤500,构建基于编码解码架构的两阶段人-物交互检测器; 具体的,一个两阶段人-物交互检测任务,可以视为目标检测任务的下游任务因此在第一阶段即步骤300的DETR目标检测器的基础上设置三个下游模块,构建第二阶段的基于编码解码架构的两阶段人-物交互检测器,三个下游模块分别是全局上下文编码器模块、匹配对级别注意力融合模块以及匹配对交互解码器; 具体的,全局上下文编码器模块的作用是从图像特征中再次提取可用于交互检测的全局上下文记忆编码,并能够与局部实例记忆编码进行融合,获得融合记忆编码;匹配对级别注意力融合模块的作用是将不同人和物体的特征进行融合,形成匹配对级别的特征,进行后续推理;而匹配对交互解码器将全局上下文编码器模块的融合记忆编码以及匹配对级别注意力融合模块的匹配对级别的特征通过交叉注意力机制进行融合,通过交互动作检测头输出预测结果; 步骤600,基于编码解码架构的两阶段人-物交互检测器的结构设计,利用步骤300中DETR目标检测器生成的目标检测结果和特征,进行下游的人-物交互预测训练;包括以下步骤: 步骤601,第一阶段的DETR目标检测器多层解码器得到的查询预测和查询特征经过非最大抑制操作过滤重复的预测并选择一定数量的人和物体的实例; 步骤602,基于编码解码架构的两阶段人-物交互检测器中的匹配对级别注意力融合模块,将每一对人-物的定位框中心位置、定位框的高宽,以及相对距离和重叠度,输入匹配对位置编码器获得位置编码,同筛选后实例特征一同输入匹配对级别注意力融合器,得到匹配对级别的特征; 步骤603,基于编码解码架构的两阶段人-物交互检测器中的全局上下文编码器模块,DETR目标检测器的Resnet骨干网络输出的特征通过全局上下文编码器编码成全局上下文记忆编码,通过交叉残差技术与Transformer编码器输出的局部实例记忆编码融合,获得融合记忆编码; 具体的,交叉残差技术是指将输入Transformer编码器之前的特征通过线性层和全局上下文编码器输出的全局上下文记忆编码相加,输入全局上下文编码器之前的特征通过线性层和Transformer编码器输出的局部实例记忆编码相加,最后通过连接操作获得融合记忆编码; 步骤604,基于编码解码架构的两阶段人-物交互检测器中的匹配对交互解码器模块,融合记忆编码以及匹配对级别特征输入到匹配对交互解码器,通过交互动作检测头输出一个多标签的动作预测结果,与之前预测的实例置信度相乘作为交互置信度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励