佛山大学李小松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉佛山大学申请的专利基于全局和局部文本感知的多模态图像融合方法和模型获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119809954B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510298599.X,技术领域涉及:G06T5/50;该发明授权基于全局和局部文本感知的多模态图像融合方法和模型是由李小松;黎熹来;李浩宇;黄庄钒;陈璁;谭海曙设计研发完成,并于2025-03-13向国家知识产权局提交的专利申请。
本基于全局和局部文本感知的多模态图像融合方法和模型在说明书摘要公布了:本申请属于图像处理技术领域,公开了一种基于全局和局部文本感知的多模态图像融合方法和模型,通过结合CLIP和BLIP两种视觉语言模型,分别处理图像的全局和局部信息,实现了对复杂场景和恶劣天气条件下图像的有效融合。全局文本感知模块利用CLIP特征增强了模型对整体场景的理解,而局部文本感知模块则利用BLIP特征提高了对局部细节的处理能力。这种双重文本感知机制使得模型能够更全面地利用视觉语言模型的优势,避免了仅依赖简单文本提示或过分强调局部细节的问题。能够充分利用视觉语言模型的优势,同时兼顾全局和局部信息处理,提高模型在复杂场景和恶劣天气条件下的适应性和泛化性能。
本发明授权基于全局和局部文本感知的多模态图像融合方法和模型在权利要求书中公布了:1.一种基于全局和局部文本感知的多模态图像融合模型,其特征在于,包括: 输入层(1)、全局文本感知模块(2)、CLIP图像编码器(3)、CLIP文本编码器(4)、BLIP文本编码器(5)、特征提取网络(6)、解码器(7)和输出层(8); 所述输入层(1)用于输入源图像并把所述源图像分别输入所述全局文本感知模块(2)、所述CLIP图像编码器(3)、所述CLIP文本编码器(4)和所述BLIP文本编码器(5);所述源图像包括相互配准的红外源图像和可见光源图像; 所述CLIP图像编码器(3)用于生成所述源图像的CLIP图像特征并分别输入所述全局文本感知模块(2)和所述特征提取网络(6);所述CLIP文本编码器(4)用于生成所述源图像的CLIP文本特征并输入所述全局文本感知模块(2);所述BLIP文本编码器(5)用于生成所述源图像的BLIP文本特征并输入所述特征提取网络(6); 所述全局文本感知模块(2)用于对所述源图像进行融合并根据所述CLIP文本特征把所述CLIP图像特征整合到融合结果中,得到初步融合结果,以丰富所述初步融合结果的全局信息,并把所述初步融合结果输入所述特征提取网络(6); 所述特征提取网络(6)嵌入有至少一个局部文本感知模块(9),所述特征提取网络(6)用于对所述初步融合结果进行特征提取,并在特征提取过程中根据所述BLIP文本特征把所述CLIP图像特征整合到特征提取结果中,以丰富所述特征提取结果的局部信息,并把所述特征提取结果输入所述解码器(7); 所述解码器(7)用于对所述特征提取结果进行解码生成最终融合图像,并通过所述输出层(8)输出所述最终融合图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人佛山大学,其通讯地址为:528225 广东省佛山市南海区狮山镇广云路33号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。