重庆大学张磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆大学申请的专利一种基于文本引导视觉域变换的目标检测方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120147766B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510217938.7,技术领域涉及:G06V10/77;该发明授权一种基于文本引导视觉域变换的目标检测方法及装置是由张磊;张治龙;张晨旭;何清设计研发完成,并于2025-02-26向国家知识产权局提交的专利申请。
本一种基于文本引导视觉域变换的目标检测方法及装置在说明书摘要公布了:本发明涉及图像处理技术,揭露了一种基于文本引导视觉域变换的目标检测方法,包括:对源域文本提示词和目标域文本提示词进行文本编码,得到源域文本编码和目标域文本编码;获取图像样本并提取样本原始特征;将样本原始特征利用域变换模型进行特征变换得到域变换特征;将样本原始特征和域变换特征分别进行深层特征编码得到样本深层特征和域变换深层特征;利用域变换方向一致性损失进行域间方向对齐得到优化域变换特征,并结合样本原始特征对预训练的目标检测模型进行优化训练。本发明还提出一种基于文本引导视觉域变换的目标检测装置、电子设备及存储介质。本发明可以提升目标检测的准确性以及提升目标检测在新领域环境下的检测精度。
本发明授权一种基于文本引导视觉域变换的目标检测方法及装置在权利要求书中公布了:1.一种基于文本引导视觉域变换的目标检测方法,其特征在于,所述方法包括: 获取源域文本提示词和目标域文本提示词,利用文本编码器分别对源域文本提示词和目标域文本提示词进行文本编码,得到源域文本编码和目标域文本编码,其中,所述利用文本编码器分别对源域文本提示词和目标域文本提示词进行文本编码,包括:利用源域文本提示词和目标域文本提示词组成多组域文本对;利用浅层文本编码器对多组域文本对进行编码,得到多组由源域文本嵌入和目标域文本嵌入组成的嵌入文本对,其中,所述浅层文本编码器的参数由预训练的CLIP模型进行参数初始化; 计算嵌入文本对中源域文本嵌入与目标域文本嵌入的差值,通过所述差值得到语言模态的域变换方向; 获取图像样本,并利用浅层图像编码器提取图像样本的原始特征,得到样本原始特征; 将样本原始特征利用域变换模型进行特征变换,得到域变换特征; 将样本原始特征和域变换特征分别输入至深层图像编码器进行深层特征编码得到样本深层特征和域变换深层特征; 利用域变换方向一致性损失对源域文本编码、目标域文本编码、样本深层特征以及域变换深层特征进行域间方向对齐得到优化域变换特征,并结合样本原始特征和优化域变换特征对预训练的目标检测模型进行优化训练,训练完成后采用模型原有的标准检测流程获得目标检测结果,其中,所述利用域变换方向一致性损失对源域文本编码、目标域文本编码、样本深层特征以及域变换深层特征进行域间方向对齐,包括:利用计算视觉模态的域变换方向与语言模态的域变换方向之间的一致性损失将视觉模态的域变换方向与语言模态的域变换方向对齐,其中,计算视觉模态的域变换方向与语言模态的域变换方向之间的一致性损失Ldc采用下述公式:其中,为第i组域文本对的视觉模态的域变换方向,为第i组域文本对的语言模态的域变换方向,i为域文本对的组数,||·||为取模计算。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400030 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。