中国科学院自动化研究所郭龙腾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院自动化研究所申请的专利一种多模态大语言模型的大小模型协同训练方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119514645B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411350617.6,技术领域涉及:G06N3/096;该发明授权一种多模态大语言模型的大小模型协同训练方法及装置是由郭龙腾;刘静;卢诗晨设计研发完成,并于2024-09-26向国家知识产权局提交的专利申请。
本一种多模态大语言模型的大小模型协同训练方法及装置在说明书摘要公布了:本发明提供一种多模态大语言模型的大小模型协同训练方法及装置,该方法包括:将图像、视频、音频等多模态样本输入多模态共享编码器生成多模态令牌;将文本样本输入文本编码器得到文本令牌;将不同模态的多模态令牌与文本令牌相结合,通过预训练的小型多模态大语言模型前向蒸馏预训练的大型多模态大语言模型并训练投影层得到训练后的投影层,该投影层连接于小型和大型多模态大语言模型之间;利用训练后的投影层和预训练的大型多模态大语言模型反向蒸馏小型多模态大语言模型,由此训练过程同时得到训练后的大型和小型多模态大语言模型。不仅提升了大型多模态大语言模型的跨模态对齐能力,还通过知识蒸馏增强了小型多模态大语言模型的性能。
本发明授权一种多模态大语言模型的大小模型协同训练方法及装置在权利要求书中公布了:1.一种多模态大语言模型的大小模型协同训练方法,其特征在于,包括: 获取多模态大语言模型、多模态样本和文本样本;其中,多模态大语言模型包括多模态共享编码器、文本编码器、预训练的小型多模态大语言模型和预训练的大型多模态大语言模型,小型多模态大语言模型和大型多模态大语言模型之间通过投影层连接对齐,多模态样本为图像、视频和音频的组合; 将多模态样本输入所述多模态共享编码器,生成多模态令牌; 将文本样本输入所述文本编码器,得到文本令牌; 将多模态令牌与文本令牌相结合,通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层,得到训练后的投影层;其中,使用优化算法更新投影层的参数以最小化第一总损失,得到训练后的投影层;所述第一总损失通过下述方式确定:计算小型多模态大语言模型生成的文本描述与文本样本的真实标签之间的差异,得到第一字幕损失;计算小型多模态大语言模型生成的文本描述的概率分布与大型多模态大语言模型生成的文本描述的概率分布之间的KL散度,得到前向KLD损失;将所述第一字幕损失和所述前向KLD损失输入预先构建的第一损失函数,得到所述第一总损失; 利用训练后的投影层和预训练的大型多模态大语言模型,反向蒸馏所述预训练的小型多模态大语言模型,得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型; 所述利用训练后的投影层和预训练的大型多模态大语言模型,反向蒸馏所述预训练的小型多模态大语言模型,得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型,包括: 小型多模态大语言模型基于多模态令牌和文本令牌生成相应的文本描述; 使用训练后的投影层将多模态令牌与文本令牌进行空间对齐,生成对齐后的多模态特征; 大型多模态大语言模型基于对齐后的多模态特征生成相应的文本描述; 基于预先构建的第二损失函数和生成的文本描述,计算第二总损失; 使用优化算法更新所述预训练的小型多模态大语言模型的参数和所述预训练的大型多模态大语言模型的参数以最小化第二总损失,得到训练后的大型多模态大语言模型和训练后的小型多模态大语言模型; 所述第二总损失通过下述方式确定:计算大型多模态大语言模型生成的文本描述与文本样本的真实标签之间的差异,得到第二字幕损失;计算大型多模态大语言模型生成的文本描述的概率分布与小型多模态大语言模型生成的文本描述的概率分布之间的KL散度,方向是从小型多模态大语言模型到大型多模态大语言模型,得到反向KLD损失;将所述第二字幕损失和所述反向KLD损失输入预先构建的第二损失函数,得到所述第二总损失; 所述将多模态令牌与文本令牌相结合,通过预训练的小型多模态大语言模型前向蒸馏所述预训练的大型多模态大语言模型并训练投影层,得到训练后的投影层,包括: 小型多模态大语言模型基于多模态令牌和文本令牌生成相应的文本描述; 投影层将多模态令牌与文本令牌进行空间对齐,生成对齐后的多模态特征; 大型多模态大语言模型基于对齐后的多模态特征生成相应的文本描述; 基于预先构建的第一损失函数和生成的文本描述,计算第一总损失; 使用优化算法更新投影层的参数以最小化第一总损失,得到训练后的投影层; 所述多模态令牌包括第一视觉令牌、第二视觉令牌和第三视觉令牌,所述多模态共享编码器包括图像分词器、视频分词器、音频分词器和视觉编码器; 所述将多模态样本输入所述多模态共享编码器,生成多模态令牌,包括: 图像分词器将图像分割成多个区域得到第一图像序列,视觉编码器对第一图像序列进行编码得到第一视觉令牌; 视频分词器从视频中抽取出多个视频帧,并将每一视频帧分割成多个区域得到第二图像序列,视觉编码器对第二图像序列进行编码得到对应的嵌入表示,把多个视频帧的嵌入表示进行拼接得到第二视觉令牌; 音频分词器将音频转换为多张梅尔频谱图,并将每一梅尔频谱图分割成多个区域得到第三图像序列,视觉编码器对第三图像序列进行编码得到嵌入表示,把多张梅尔频谱图的嵌入表示进行拼接得到第三视觉令牌。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院自动化研究所,其通讯地址为:100190 北京市海淀区中关村东路95号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励