厦门大学纪荣嵘获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种面向视觉-语言任务的预训练语言模型适配方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117037176B 。
龙图腾网通过国家知识产权局官网在2025-07-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310971499.X,技术领域涉及:G06V30/18;该发明授权一种面向视觉-语言任务的预训练语言模型适配方法是由纪荣嵘;周奕毅;黄书滨设计研发完成,并于2023-08-03向国家知识产权局提交的专利申请。
本一种面向视觉-语言任务的预训练语言模型适配方法在说明书摘要公布了:一种面向视觉‑语言任务的预训练语言模型适配方法,涉及多模态处理技术。用于根据视觉‑语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。步骤:1基于视觉特征和文本特征,使用跨模态注意力层来提取轻量级的动态视觉提示,进而减少输入序列过长带来的计算开销。2使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置,提升预训练语言模型在视觉‑语言任务的适配性能。3在预训练语言模型中加入Adapter模块,大幅度降低训练参数量,实现语言任务向视觉‑语言任务的快速过渡。
本发明授权一种面向视觉-语言任务的预训练语言模型适配方法在权利要求书中公布了:1.一种面向视觉-语言任务的预训练语言模型适配方法,用于根据视觉-语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换;其特征在于包括如下步骤: 步骤1,设置视觉-语言任务给定的图像I大小为224×224×3,描述文本T的长度设置为16; 步骤2,获取给定图像I的视觉特征Fv∈R197×768,根据预训练语言模型的类型,基于编码器类型或基于编码器-解码器类型,得到对应描述文本T当前特征Ft∈R16×768; 步骤3,使用跨模态注意力层φ生成轻量级的动态视觉提示; 使用跨模态注意力层φ,将Ft作为查询向量query,Fv作为键向量key和值向量key,进而提取轻量级的动态视觉提示; 步骤4,使用基于k臂-老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈RM来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,…,φM]; 步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φK生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φK的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集dv,求得每个采样后的奖励得分Rt,接着基于Rt对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K; 步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉-语言任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361005 福建省厦门市思明区思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。