哈尔滨工程大学项学智获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工程大学申请的专利基于注意力译码结构的2.5D单目场景流估计方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115908505B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211468058.X,技术领域涉及:G06T7/269;该发明授权基于注意力译码结构的2.5D单目场景流估计方法是由项学智;崔玉;乔玉龙设计研发完成,并于2022-11-22向国家知识产权局提交的专利申请。
本基于注意力译码结构的2.5D单目场景流估计方法在说明书摘要公布了:本发明提供一种基于注意力译码结构的2.5D单目场景流估计方法,包括以下步骤:S1构建相机姿态估计子网络与共享金字塔特征编码器;S2构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器;S3构建总体网络损失函数;S4输入单目图像序列用自监督的形式对网络进行端到端的训练;S5输入连续两帧图像对模型进行测试时,可得到2.5D场景流的两个分量:光流和深度。输入单张图像对模型进行测试时,可得到深度估计结果。本发明利用基于注意力的译码结构对2.5D单目场景流进行估计,其中在译码结构引入注意力来强化特征表达能力和像素相关的计算,通过上述设计来达到提升场景流估计精度的目的。
本发明授权基于注意力译码结构的2.5D单目场景流估计方法在权利要求书中公布了:1.基于注意力译码结构的2.5D单目场景流估计方法,其特征在于,步骤如下: S1.构建相机姿态估计子网络与共享金字塔特征编码器; 所述相机姿态估计子网络包括多层卷积层,输出的特征图通过全局平均池化层估计出相机运动姿态; 所述共享金字塔特征编码器包括多层卷积层,输出的特征图通道数依次增大,对应金字塔结构的层级,所有卷积层后都连接有ReLU激活函数; S2.构建并行的基于空洞自注意力的深度译码器与基于非局部交叉帧注意力的光流译码器; 所述基于空洞自注意力的深度译码器,在第1层卷积层后加入空洞自注意力,对输入的特征图使用卷积操作,之后分别使用不同膨胀率的卷积操作来捕获上下文信息,不同的特征图相加经过SiLU激活函数后得到Query查询矩阵Q: 其中,Wq表示Query查询矩阵的权重;d表示特征通道数;r,g分别表示膨胀系数和卷积的组数量;Conv表示卷积操作,表示卷积操作后的特征图,X代表输入特征图; 对Query查询矩阵与Key键矩阵进行点乘操作,所得结果再与Value值矩阵进行点乘操作得到空洞自注意力的输出; 所述基于非局部交叉帧注意力的光流译码器,对输入特征进行归一化,得到归一化的相邻帧特征,根据卷积操作得到一帧的Value矩阵、Key矩阵以及另一帧的Query查询矩阵;非局部交叉注意力最后输出的特征图Xt: 其中,表示乘积操作即哈达马积;Γ表示相关矩阵,由Query查询矩阵中的一维局部向量Qp和Key矩阵点乘然后进行softmax得到,相关矩阵Γ的第二维中的每个切片上乘以高斯权重;矩阵G表示Key矩阵与向量Qp的点乘结果;V表示Value矩阵; 在基于非局部交叉帧注意力的光流译码器中,将每层特征图分块后,把每层的两张特征图输入非局部交叉帧注意力模块,得到两幅图像特征的相关关系矩阵,再将此矩阵输入到卷积层和预测层中,得到每层的光流估计结果;最后,将各层光流结果融合,得到最终的光流输出; S3.构建总体网络损失函数; S4.输入单目图像序列用自监督的形式对网络进行端到端的训练; S5.输入连续两帧图像对网络进行测试时,得到2.5D场景流的两个分量:光流和深度;输入单张图像对网络进行测试时,得到深度估计结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工程大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励