Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司王栋获国家专利权

大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司王栋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司申请的专利一种基于Transformer的轻量化目标跟踪数据标注方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115908496B

龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211543612.6,技术领域涉及:G06T7/246;该发明授权一种基于Transformer的轻量化目标跟踪数据标注方法是由王栋;袁永胜;赵洁;卢湖川设计研发完成,并于2022-12-01向国家知识产权局提交的专利申请。

一种基于Transformer的轻量化目标跟踪数据标注方法在说明书摘要公布了:本发明属于机器学习、单目标视觉跟踪、视频目标标注领域,提供了一种基于Transformer模型、泛化性较强的轻量化视频自动标注方法,具体为一种基于Transformer的轻量化目标跟踪数据标注方法。本发明与具体的跟踪算法解耦,初始标注可以使用任意轻量化跟踪算法,具有较强的泛化性,简化了标注流程,同时提高了标注速度。本发明使用Transformer模型处理时序信息,采用双向时序信息融合、运动及外观信息结合的方式,提高了网络对于困难帧的预测成功率以及目标边界框坐标回归的准确度,使自动标注质量得到明显的提升。标注网络轻量化的结构设计进一步降低了标注工作的时间成本。

本发明授权一种基于Transformer的轻量化目标跟踪数据标注方法在权利要求书中公布了:1.一种基于Transformer的轻量化目标跟踪数据标注方法,其特征在于,步骤如下: 步骤1:对待标注视频序列帧进行人工稀疏标注,即采用人工的方式,每隔30帧进行一次目标边界框的标注,得到部分人工初始标注即目标边界框坐标,占总帧数的3.3%; 步骤2:利用轻量化跟踪算法HCAT,进行前向和反向跟踪,跟踪结果包含除3.3%人工初始标注帧外剩余96.7%帧的目标边界框坐标;将3.3%人工初始标注帧的边界框和96.7%跟踪器识别帧的边界框作为待标注视频序列完整的初始标注;具体为: 轻量化跟踪算法HCAT主要由特征提取网络、特征融合网络和预测网络构成;特征提取网络的基础模块参考ResNet18,移除ResNet18的最后一个阶段,卷积模块进行堆叠加深网络深度,使用步长为2的卷积层进行特征提取并进行下采样,构建出下采样16倍的特征图;跟踪时,首先从待跟踪帧中裁剪出搜索区域:基于待跟踪帧上一帧中的目标位置进行裁剪,其中上一帧的目标位置在上一帧完成跟踪时已经获得,再根据每30帧中第一帧的人工标注边界框从对应的图片中裁剪出模板区域;将模板区域和搜索区域分别输入特征提取网络得到模板区域和搜索区域所对应的特征图,再使用特征融合网络对两幅特征图进行融合以得到携带目标外观信息和位置信息的融合特征图;基于融合特征图,使用预测网络预测置信分数与目标框回归坐标,得到当前帧待跟踪目标边界框; 在使用轻量化跟踪算法HCAT进行前向和反向跟踪的过程中,将步骤1中3.3%的人工初始标注帧作为模板帧,使用轻量化跟踪算法HCAT对其后的29帧进行跟踪以得到剩余96.7%帧的目标边界框坐标;所得到的前向和反向跟踪结果和3.3%的人工初始标注共同作为初始标注,后续步骤的标注算法在初始标注的基础上进行困难帧选择和正常帧再优化; 步骤3:根据前向和反向初始标注,对待标注图片进行裁剪得到前向和反向搜索区域; 步骤4:将经过裁剪得到的前向和反向搜索区域和对应初始标注以20帧的长度为一组,输入质量分数评估网络进行困难帧筛选;具体为: 质量分数评估网络主要由目标多维度特征提取模块、Transformer时序特征融合模块和预测模块构成;质量分数的评估过程如下: 4.1将一组前向和反向搜索区域、模板区域分别输入骨干网络ResNet18,进行8倍下采样得到前向、反向特征图和模板特征图: 其中,表示第j帧待标注图片所对应的前、反向特征图,T表示每组输入包含连续T帧搜索区域;使前、反向特征图分别与模板特征进行互相关操作得到前、反向响应图Mfb;前、反向响应图经过由三个卷积层组成的响应图网络处理后得到前向、反向视觉特征: 其中,dv表示视觉特征向量的维度;R表示实数;同时,前向和反向搜索区域对应的目标边界框坐标经过运动线性层的处理得到前向、反向运动特征 4.2连接前向视觉特征和前向运动特征得到前向目标多维特征同理可得到反向目标多维特征将前向和反向目标多维特征同时输入Transformer时序特征融合模块进行前向和反向特征的融合,得到双向时序融合特征;Transformer时序特征融合模块参考TransT编码器结构设计,主要由自注意力模块和交叉注意力模块组成,两者的核心操作注意力机制运算定义如下: 其中,Q、K、V分别表示输入的查询、键值、值项,dk表示特征向量的维度; 4.3基于双向时序融合特征,使用预测模块预测本组20帧图片的初始标注质量分数;将质量分数低于质量分数阈值0.5的帧作为困难帧送由人工重新标注; 步骤5:将步骤4中质量分数高于质量分数阈值0.5的帧送由目标位置优化网络对初始标注进行进一步优化;具体为: 目标位置优化网络的网络结构和输入除预测模块外,均与质量分数评估网络相同;质量分数评估网络的预测模块针对每一帧输出表示质量得分的一维向量,而在目标位置优化网络中,得到双向时序融合特征后,预测模块会预测本组20帧图片的目标边界框坐标即每帧图片的边界框坐标由输出的四维向量表示,由于此特征融合了双向时序信息以及视觉和运动特征,其输出的目标位置精确度相较于初始标注将会有明显的提高。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学;大连理工大学宁波研究院;大连维视科技有限公司,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。