Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西北大学高岭获国家专利权

西北大学高岭获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西北大学申请的专利一种基于预训练模型的多模态视觉提示技术表示学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115311389B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210937416.0,技术领域涉及:G06T11/60;该发明授权一种基于预训练模型的多模态视觉提示技术表示学习方法是由高岭;曹瑞;陈沐梓;郑杰设计研发完成,并于2022-08-05向国家知识产权局提交的专利申请。

一种基于预训练模型的多模态视觉提示技术表示学习方法在说明书摘要公布了:一种基于预训练模型的多模态视觉提示技术表示学习方法,在视觉模型的文本编码器编码对标签文本进行一遍提示后,再利用已经提示过的文本,给图像生成整个提示蒙版,覆盖在整个图像上,以获得更好的提示效果,其次对于模型预训练和微调的客观形式间的巨大差距所导致的需要大量标记数据去刺激模型在下游任务中的视觉接地能力,本发明将视觉接地重新表述为一个填空问题,在图像和文本中使用基于像素的共同参考标记,最大限度的缓解了这种差距。

本发明授权一种基于预训练模型的多模态视觉提示技术表示学习方法在权利要求书中公布了:1.一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,包括一下步骤: 步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP,模型利用不同的编码器分别处理文本以及图像数据,将文本和图像分别送入编码器中,通过线性映射到多模态嵌入向量空间,构建文本图像行列矩阵,计算文本以及图像间的相似度,相似度越高,即匹配程度越高,反之越低,因此需取得相似度最高的文本图像对,即取对角线元素,通过将公共文化云数据送入CLIP模型中,对预训练的文本和图像编码器进行微调,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失; 夹角余弦被用来衡量两个向量方向上的差异,在机器学习中其也可以被用来衡量两个样本间的差异,因此在二维空间中衡量文本向量A和图像向量B的相似度就采用夹角余弦公式为: 步骤2、对文本标签数据进行提示处理,将CLIP中文本编码器Bert中的文本标签数据转换为嵌入向量,加入人工设计的与公共文化云相关的文本提示向量,即使用提示技术先训练带有标签的文本:将文本数据利用数据切割,加入人工给定的标签,整合为相等长度的文本向量,将手动指定的静态提示加入到文本句向量的指定位置,利用提示去预测被遮蔽掉的文本信息,其类似于阅读理解中的完形填空,虽然给予静态提示手动搜索最佳文本提示是非常费力的,但视觉领域的提示可以补偿低质量的文本提示; 即有n个物体x1,x2…xn,通过提示模板“aphotoofa{object}”提示后,送入编码器; 步骤3、利用GAN生成对抗网络,利用文本描述的图像信息生成图像提示蒙版,使用的文本是已经提示一遍的文本,再去生成提示,用于提示图像,提示为视觉领域的像素提示,作为图像蒙版,覆盖整张图像作为提示,与不加图像蒙版的原始图像进行对比; 步骤4、在训练阶段,对于一个一次训练所抓取的数据样本,首先通过文本编码器和图像编码器,得到所有文本和图像的特征,分别计算内积,得到一个矩阵,站在图像的角度上去观测,行方向视为一个文本分类器,相对在文本角度去看,列方向视为一个图像分类器,预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系,对于同一对匹配成功的图像和文本,最大化其特征内积就是目标函数,也就是特征矩阵上对角线的元素,相对去最小化不相关的特征内积,通过对预训练的文本和图像编码器进行微调,使得加载了预训练模型的两个编码器更专注于公共文化数据;将标签文本数据送入已经创建好的提示模板进行预训练,得到已经提示一遍过的文本数据,再将此文本数据送入GAN的生成器,使文本转换为图像,覆盖在原始图像上,得到提示图像重新进行CLIP操作,将一条提示文本相关数据与提示图像数据进行配对,形成一个文本图像对,然后将此文本图像对反复进行几次,形成一次训练所抓取的数据样本数量,将其送入CLIP模型,训练数据就是提示图像文本对;与第一次不同的是,第二次将冻结已经训练好的文本、图像两个编码器,仅仅更新GAN的参数;最后,在测试的一次学习场景中,新图像将与GAN生成的图像提示相叠加,并利用最大化对角线矩阵的方式找出新图像所属的类别。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北大学,其通讯地址为:710069 陕西省西安市碑林区太白北路229号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。