深圳市可数智能科技有限公司张翱军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市可数智能科技有限公司申请的专利一种基于深度学习的无监督半配对跨模态检索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120973938B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511057270.0,技术领域涉及:G06F16/35;该发明授权一种基于深度学习的无监督半配对跨模态检索方法及系统是由张翱军;肖宜节;袁送辉设计研发完成,并于2025-07-30向国家知识产权局提交的专利申请。
本一种基于深度学习的无监督半配对跨模态检索方法及系统在说明书摘要公布了:本发明公开了一种基于深度学习的无监督半配对跨模态检索方法及系统,涉及人工智能领域,用于解决标注数据依赖、非对称语义关联及高维存储效率问题。本发明结合双分支视觉编码器和动态提示文本编码器,利用门控交叉注意力实现视觉‑文本特征动态加权,抑制模态冗余干扰。通过低频语义引导生成增强策略,提升长尾词覆盖率;构建双阶段量化分层索引,采用粗粒度聚类与细粒度乘积量化压缩特征存储,支持百万级数据实时检索。退化感知增量维护机制通过KL散度阈值监测数据分布偏移,触发索引重建以保持长期更新精度。该方法突破传统强配对模型限制,实现跨模态敏感内容秒级定位,有效解决非对称语义对齐,提升检索效率。
本发明授权一种基于深度学习的无监督半配对跨模态检索方法及系统在权利要求书中公布了:1.一种基于深度学习的无监督半配对跨模态检索方法,其特征在于,包括以下步骤: 基于社交媒体与移动互联网产生的多模态数据,进行跨模态细粒度对齐后,利用门控交叉注意力机制进行跨模态特征融合; 基于跨模态特征融合的结果,通过词频统计识别低频语义单元,利用视觉特征投影生成补充文本描述,结合退火温度采样与KL散度约束的束搜索策略生成多样化跨模态数据,并过滤低质量结果; 基于过滤后的多样化跨模态数据,结合动态分层索引算法和量化压缩技术,通过KL散度监测数据分布偏移触发索引重建,并联合对比学习损失与生成损失优化跨模态对齐,以执行跨模态检索; 在执行跨模态特征融合时,基于所述多模态数据,通过构建双分支视觉编码器和可学习提示文本编码器,进行跨模态细粒度对齐后,引入门控交叉注意力机制,通过Sigmoid动态分配视觉与文本权重,执行跨模态特征融合,其中,通过Sigmoid函数动态分配视觉与文本权重,按元素加权融合生成跨模态特征,抑制冗余模态信息干扰; 在构建双分支视觉编码器时,通过结合CLIP预训练全局特征与自适应多尺度池化模块,构建所述双分支视觉编码器,用于通过多层感知器融合多粒度局部细节,实现全局场景与局部属性的协同表征; 在构建双分支视觉编码器时,所述自适应多尺度池化模块采用1×1、2×2、4×4三种网格尺寸的池化操作; 在构建可学习提示文本编码器时,通过在CLIP输入序列前插入4个动态可调提示向量,构建可学习提示文本编码器,自适应捕捉任务相关上下文; 在构建可学习提示文本编码器时,在CLIP输入序列前端插入4个动态优化的提示向量,初始化为正态分布,并取首位置CLS标记特征经线性投影与视觉特征对齐。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市可数智能科技有限公司,其通讯地址为:518000 广东省深圳市宝安区西乡街道劳动社区宝源路2003号璟运大厦611;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励