北京理工大学史树敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于迁移学习的风格化图像描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115294427B 。
龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210392972.4,技术领域涉及:G06V10/778;该发明授权一种基于迁移学习的风格化图像描述生成方法是由史树敏;田君玉;陈雨涛设计研发完成,并于2022-04-14向国家知识产权局提交的专利申请。
本一种基于迁移学习的风格化图像描述生成方法在说明书摘要公布了:本发明涉及一种基于迁移学习的风格化图像描述生成方法,属于自然语言处理和计算机视觉图像描述生成技术领域。本方法利用分步训练的方法,使用两个映射网络,分别学习了文字的语义知识和风格知识。使用多模态预训练模型提取图像和文本信息,并通过映射网络进一步缩小图像和文本的语义距离。利用迁移学习的方法,将文本风格知识迁移到图像描述模型中,有效生成风格化图像语义。利用提示符prompt训练方式在大规模预训练语言模型GPT‑2上进行训练,降低训练成本。本方法针对风格化图像描述数据集缺乏的情况,利用风格化文本语料库对模型进行训练,以获得包含风格化知识的映射网络,并将其迁移到图像描述模型中。极大地降低了数据获取和模型训练的成本,在无监督的情况下同样取得了良好的效果。
本发明授权一种基于迁移学习的风格化图像描述生成方法在权利要求书中公布了:1.一种基于迁移学习的风格化图像描述生成方法,其特征在于,包括以下步骤: 步骤1、利用文本语义映射网络学习文本在GPT-2空间的自身表示 使用没有语言风格倾向的文本数据T进行训练,利用自监督的方法,学习文本T从CLIP特征空间到GPT-2特征空间的自我表示; 首先使用CLIP文字编码器抽取文本T的特征T-clip,并利用一个文本语义映射网络TextSemanticMappingNetwork将T-clip映射到GPT-2的特征空间,得到特征向量T-prefix; 然后利用GPT-2对文本T进行嵌入,得到文本T在GPT-2特征空间的向量表示T-embedding;以T-prefix作为source,T-embedding作为target,以prompt=[source][target]形式进行组合,作为GPT-2的输入; 在训练的过程中,将GPT-2的参数进行冻结,只对文字语义前缀映射网络TextSemanticMappingNetwork进行训练; 步骤2、利用文本风格映射网络学习文本在GPT-2空间的风格表示 使用成对的风格化文本数据T,S进行训练,学习文本从CLIP特征空间到GPT-2特征空间的风格表示;在步骤1模型的基础上,利用预训练的自编码器对T-prefix进行信息压缩,得到T-prefix的高密度语义信息表示T-prefix'并输入文本风格映射网络TextStyleMappingNetwork,对T-prefix'向量进行映射,得到风格向量表示TS-prefix;然后以T-prefix作为source1,TS-prefix作为source2,T-embedding作为target,以prompt=[source2][source1][target]形式进行组合,作为GPT-2输入;在训练的过程中,将GPT-2和文字语义映射网络TextSemanticMappingNetwork的参数进行冻结,只对文字风格映射网络TextStyleMappingNetwork进行训练; 步骤3、利用图像语义网络学习图像在GPT-2空间的语义表示 使用无语言风格倾向的图像描述数据I,T进行训练,学习图像I从CLIP特征空间到GPT-2特征空间的语义表示;使用CLIP图像编码器抽取图像I的特征I-clip,并利用图像语义映射网络ImageSemanticMappingNetwork将图像特征I-clip映射到GPT-2特征空间,得到特征向量I-prefix;利用GPT-2对T进行嵌入,得到文本的向量表示T-embedding;以I-prefix作为source1,T-embedding作为target,以prompt=[source1][traget]形式进行组合,作为GPT-2输入;在训练的过程中,将GPT-2的参数进行冻结,只对图像语义映射网络ImageSemanticMappingNetwork进行训练;步骤3与步骤1、2之间为并行关系,可同时进行,使效率进一步得到提升; 步骤4、将的文本风格知识迁移到图像描述模型,生成风格化图像描述 以步骤3中模型为基础,将生成的I-prefix向量输入步骤2中训练的文本风格映射网络TextStyleMappingNetwork,得到风格向量prefix-IS,与I-prefix进行拼接,作为GPT-2的输入,从而获得包含特定风格的图像描述。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励