西北工业大学张秀伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116310866B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310211410.X,技术领域涉及:G06V20/13;该发明授权一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法是由张秀伟;张艳宁;黄龙;范文超;王怡欣;尹翰林设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。
本一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法在说明书摘要公布了:本发明涉及一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法,设计了一种高精度的跨视角地理定位网络模型,利用金字塔拆分注意力模块优化局部细节特征,采用Transformer跨层捕捉全局依赖关系,并应用多源融合机制方法,可以提升跨视角地理定位网络的性能。使得每个分支不仅通过跨层交互机制关注自身特征的变化,而且也能通过多源融合机制去关注另一个分支中源图像的重要特征,促进对定位有用的重要信息在两个源图像之间流动,进而提取到更具辨别性的特征,得到更好的定位精度。本发明在仅检索一张图像的情况下获得的定位准确率是现有地理定位方法的3‑7倍。
本发明授权一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法在权利要求书中公布了:1.一种协同CNN与跨层交互Transformer的跨视角跨模态图像地理定位方法,其特征在于步骤如下: 步骤1:基于金字塔拆分注意力CNN的多源图像特征提取模块; 将卫星图像Is和地面全景图像Ig分别输入到特征提取网络的两个分支中,每个分支由ResNet-50和金字塔拆分注意力模块PSA组成,即EPSANet-50;EPSANet-50是将ResNet-50中的3×3卷积核用金字塔拆分注意力PSA模块替换,输出具有通道间关系的特征图和它们的大小均为[H,W,C],其中H为高度,W为宽度,C为通道数; 步骤2:基于跨层交互与多源融合Transformer模块融合特征; 步骤2-1:将特征图和分别拉平为一列特征块,为和则将特征块Xp1映射为一列序列的公式为 将特征块Xp2映射为一列序列的公式为其中,Xclass-p1为特征块Xp1加入的分类嵌入标记,Xclass-p2为特征块Xp2加入的分类嵌入标记,表示Xp1中第1,2,…,Np1个特征块,表示Xp2中第1,2,…,Np2个特征块,Ep1和Ep2分别表示对特征块Xp1和Xp2使用的投影参数,大小为[1,1,C];Epos1表示Xp1的位置编码PE特征嵌入,Epos2表示Xp2的位置编码PE特征嵌入;位置编码PE是采用不同频率的正弦和余弦函数来实现,位置编码的公式如下: 其中,pos表示每个特征块的位置,pos的范围为[1,N],i表示第i个特征编号,i的范围为[1,C];即位置编码的每个维度对应于正弦曲线;波长形成从2π到10000·2π的几何级数;该步骤以Zp1和Zp2为输出; 步骤2-2:将Zp1和Zp2输入跨层交互模块中,利用Transformer相邻层特征块交互来学习图像全局上下文信息;Transformer共有12层,在前8层应用跨层交互模块; 第l层的注意力图不仅基于第l-1层特征块学习,也基于第l-2层特征块学习;经过矩阵映射以及注意力计算可以得到第l层的注意力为Attl,进而得到Zp1-cl和Zp2-cl作为输出;其中,l的取值范围为[1,8];特别地,当l=1时,第1层注意力图基于Zp1和Zp2学习;当l=2时,第2层注意力图基于Zp1、Zp2和第1层特征块学习; 步骤2-3:将Zp1-cl和Zp2-cl输入进多源融合模块,在Transformer的后4层应用多源融合模块;即第l层的注意力图不仅基于第l-1层一个分支特征块学习,也基于第l-1层另一个分支特征块学习,l的取值范围为[9,12];这样使得每个分支不仅通过跨层交互机制关注自身特征的变化,而且也能通过多源融合机制去关注另一个分支中源图像的重要特征,促进地面全景图像和卫星图像之间的对定位有用的信息在网络深层深度交互,得到最终全局描述符和 步骤2-4:计算特征相似性 使用欧氏距离计算特征间的相似性,利用和构造加权的软间隔三元组目标函数,以此拉近匹配的图像对间的距离,使得不匹配的图像对间的距离尽可能的远; 其中,dp和dn分别表示锚点到正样本与负样本间的欧氏距离,α是超参数,在训练阶段加速网络收敛; 步骤3:对构建的网络进行训练 将训练集中数据分批次放入网络中,生成每张地面全景图像最相似的前K张卫星图像,利用预测的标签和真实匹配的标签计算损失,具体采用加权的软间隔三元组损失函数,使用Adam优化器进行优化,直至目标函数的值不下降时结束训练; 步骤4:测试图像集 将测试图像输入步骤3训练的图像匹配网络,通过使用欧氏距离计算地面全景图像和卫星图像间的相似度得分,得到最相近的前K张卫星图像查询结果,并使用召回率指标Recall@K进行评价; 步骤5:定位地面全景图像 通过查询最相近的前K张卫星图像对应的GPS经纬度位置信息,完成对地面全景图像的定位任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。