江西财经大学张桂芳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江西财经大学申请的专利基于频率与视觉-语言自适应融合的红外行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121170708B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511701112.4,技术领域涉及:G06V20/52;该发明授权基于频率与视觉-语言自适应融合的红外行人重识别方法是由张桂芳;陈祈翰;刘丁岳;查启威;董一锋;李雨生设计研发完成,并于2025-11-19向国家知识产权局提交的专利申请。
本基于频率与视觉-语言自适应融合的红外行人重识别方法在说明书摘要公布了:本发明提出一种基于频率与视觉‑语言自适应融合的红外行人重识别方法,该方法包括:将可见图像与红外图像输入至图像编码器中,通过多阶段残差处理实现从低级纹理到高级语义特征的提取;将可见图像与红外图像输入至文本特征处理模块中,生成多个与行人图像相关联的候选文本描述;将全局图像特征与最优文本特征输入至图文频率混合模块中,通过频域转换、注意力机制的跨模态交互与计算,得到图像‑文本混合特征。本发明通过频域变换与注意力机制实现跨模态特征的深度对齐,在频率维度上均衡挖掘图像与文本的互补信息,避免单一模态主导特征表示的问题,从而提升模型对跨模态信息的综合利用能力,在行人重识别任务中实现更精准的识别。
本发明授权基于频率与视觉-语言自适应融合的红外行人重识别方法在权利要求书中公布了:1.一种基于频率与视觉-语言自适应融合的红外行人重识别方法,其特征在于,所述方法包括如下步骤: 步骤1、基于图像编码器、文本特征处理模块及图文频率混合模块构成行人重识别网络模型; 步骤2、将可见图像与红外图像输入至图像编码器中,通过多阶段残差处理实现从低级纹理到高级语义特征的提取,以得到全局图像特征; 步骤3、将可见图像与红外图像输入至文本特征处理模块中,生成多个与行人图像相关联的候选文本描述,并从多个与行人图像相关联的候选文本描述中自适应筛选出最优文本特征; 步骤4、将全局图像特征与最优文本特征输入至图文频率混合模块中,通过频域转换、注意力机制的跨模态交互与计算,得到图像-文本混合特征;基于全局图像特征的分类输出构建身份分类损失和三元组损失,基于图像-文本混合特征与全局图像特征构建相对熵损失,利用身份分类损失、三元组损失和相对熵损失对行人重识别网络模型进行优化,得到优化后的行人重识别网络模型; 将可见图像与红外图像输入至优化后的行人重识别网络模型中,以得到最终的全局图像特征,对最终的全局图像特征进行分类回归操作以得到识别结果; 其中,在所述步骤3中,将可见图像与红外图像输入至文本特征处理模块中,生成多个与行人图像相关联的候选文本描述,并从多个与行人图像相关联的候选文本描述中自适应筛选出最优文本特征,具体包括如下步骤: 选择ViLT模型作为文本预测模块,构建文本模版,将可见图像与红外图像输入至文本预测模块中,利用可见图像与红外图像的视觉线索在语义上填充文本模版的占位符,以生成完整的文本描述; 采用BERT模型作为文本编码器,将完整的文本描述输入至文本编码器中,通过文本预测模块共享的标记器将完整的文本描述转换为标记ID序列,对标记ID序列利用BERT模型的最后隐藏状态生成文本特征; 将全局图像特征与文本特征输入至自适应文本特征选择模块中分别进行归一化处理,得到归一化后的图像特征和归一化后的文本特征; 对归一化后的图像特征和归一化后的文本特征进行余弦相似度计算,以得到图像和文本的相似度矩阵; 通过平均池化对图像和文本的相似度矩阵的矩阵元素进行聚合,再依据最大值的索引筛选出最优文本特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西财经大学,其通讯地址为:330000 江西省南昌市经济技术开发区双港东大街169号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励