深圳安信软件有限公司钟京获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳安信软件有限公司申请的专利一种应用于图文和视频的多模态模型训练方法、系统及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120744806B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510742499.1,技术领域涉及:G06F18/25;该发明授权一种应用于图文和视频的多模态模型训练方法、系统及介质是由钟京;黄玉如;张德伟;孙富凯;朱维民;关春雨设计研发完成,并于2025-06-05向国家知识产权局提交的专利申请。
本一种应用于图文和视频的多模态模型训练方法、系统及介质在说明书摘要公布了:本发明提供一种应用于图文和视频的多模态模型训练方法、系统及介质,涉及多模态融合技术领域,所述方法包括:步骤1,从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据,图文数据包括图像和对应的文本内容,视频数据包括视频帧序列和对应的音频信息;步骤2,对图文数据和视频数据进行统一数据格式处理、并提取跨平台的深度特征表示,基于提取的特征,构建包括用户特征、广告素材特征和上下文特征的通用多模态序列。本发明通过融合图文与视频多模态数据,提升模型对图文与视频内容的综合理解与生成能力,实现广告效果预测与市场适应性的创意生成。
本发明授权一种应用于图文和视频的多模态模型训练方法、系统及介质在权利要求书中公布了:1.一种应用于图文和视频的多模态模型训练方法,其特征在于,所述方法包括: 步骤1,从社交媒体平台、搜索引擎平台和视频网站平台接收图文数据和视频数据,图文数据包括图像和对应的文本内容,视频数据包括视频帧序列和对应的音频信息; 步骤2,对图文数据中的图像提取图像的深度视觉特征,对图文数据中与图像对应的文本内容提取文本的深度语义特征;对视频数据中的视频帧序列,进行关键帧采样,并对采样得到的关键帧提取时序视觉特征,对视频数据中的音频信息转换为梅尔频谱特征,提取深度声学特征;将提取的图像的深度视觉特征、文本的深度语义特征、关键帧的时序视觉特征及音频的深度声学特征,通过全连接层映射到低维向量空间;在低维向量空间中,将映射后的图像视觉特征与对应的文本语义特征拼接,形成图文特征对;将视频关键帧时序视觉特征与对应时间窗口的音频声学特征拼接,形成视频片段特征,并获取表征用户偏好的行为特征、表征广告素材的文本属性特征及表征投放环境的上下文环境特征;将图文特征对、视频片段特征、用户偏好行为特征、文本属性特征及上下文环境特征,按时间顺序组合,构建通用多模态序列; 步骤3,对通用多模态序列中每个图文元素和每个视频片段计算特征熵值,并基于特征熵值进行动态稀疏采样,且保留熵值>预设阈值的图文元素和视频片段,以形成包括关键图文元素和关键视频片段的关键元素序列;基于关键元素序列,将关键图文元素特征作为查询输入,将关键视频片段的视频特征作为键值输入,并利用跨模态注意力机制,分析图文特征与视频特征之间的关联度,生成与图文特征语义匹配的视频上下文特征;将图文特征与视频上下文特征在向量空间中的距离减小,并建立跨模态对比约束关系,生成融合图文、视频信息的高效特征表示; 步骤4,利用高效特征表示作为初始输入,计算图文模态特征与视频模态特征之间的互信息量,并基于互信息量的计算结果,采用最大化互信息的方式,得到特征表示;基于特征表示,在单阶段预训练框架下,结合跨模态对比学习目标,构造图文特征与视频特征的正样本对和负样本对,并基于正负样本对的构造,调整图文特征向量与视频特征向量在共享向量空间中的相对位置关系,得到跨模态对齐的特征表示;在模型训练过程中,同步融合图文对数据、视频数据及实时市场数据的多源异构数据,并对实时市场数据,基于统计特征转换为具有预设固定维度的实时市场数据特征向量;将跨模态对齐的特征表示与实时市场数据特征向量进行融合,形成维度一致且信息增强的输入序列,并以增强的输入序列作为训练样本输入,采用多模态转换器模型架构进行端到端联合训练;在训练过程中,设定一个包括互信息最大化目标、跨模态对比目标和分类任务目标的总体训练目标,根据模型预测结果与总体训练目标的差异程度,计算模型参数的调整方向;通过迭代更新多模态转换器模型的内部参数,逐步减小差异程度,直至模型参数达到稳定,从而得到初步训练后的多模态模型; 步骤5,基于初步训练后的多模态模型,实时监测广告市场变化,识别新趋势和热点事件,并根据监测结果动态调整模型参数,以得到实时更新的多模态模型; 步骤6,根据实时更新的多模态模型,预测跨平台广告效果,并根据预测结果及识别的市场趋势,生成融合新趋势元素的广告素材。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳安信软件有限公司,其通讯地址为:518028 广东省深圳市福田区华强北街道福强社区上步中路1043号深勘大厦1819-1820;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励