中兴协力(山东)数字科技集团有限公司王世渭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中兴协力(山东)数字科技集团有限公司申请的专利一种多模态的数字人生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120526008B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510617627.X,技术领域涉及:G06T13/40;该发明授权一种多模态的数字人生成方法是由王世渭;郭宁;商广慧;于长振;刘永红;周峰;王静;席岩;贾连芹;吴国华;曹连振;董文轩;陈亮;郑伟设计研发完成,并于2025-05-14向国家知识产权局提交的专利申请。
本一种多模态的数字人生成方法在说明书摘要公布了:本发明属于图像领域、语音领域和数字人技术领域,尤其涉及一种基于多模态的数字人生成方法。该方法先获取相同文本下不同形象人的有声视频,分离音视频并提取面部特征构建数据集;接着搭建并训练数字人形象克隆模型和音色克隆模型,分别实现从音频到面部特征、面部特征到无声视频的映射以及音色克隆;最后整合两个模型,借助大语言模型驱动实现数字人问答交流。与传统单一模态生成技术相比,本发明通过多模态数据融合,解决了虚拟人外观与音色不一致、情感表达不精准的问题,提升了数字人的真实感与自然度,增强了其在虚拟主播、智能客服等场景的表现力,推动了数字人技术的发展。
本发明授权一种多模态的数字人生成方法在权利要求书中公布了:1.一种多模态的数字人生成方法,其特征在于,包括以下步骤: S1、数据获取:获取相同文本下不同形象人的有声视频,将其分离为音频和无声视频,提取面部特征并构建数据集; S2、搭建数字人形象克隆模型:包含音频编解码模块和无声视频生成模块,通过Transformer架构建立音频与面部特征、面部特征与无声视频的映射关系; S3、数字人形象克隆模型训练与测试:采用warmup学习率策略和加权KL散度和MSE作为损失函数训练模型,验证生成效果; S4、搭建数字人音色克隆模型:包含文本编码、音色编码和解码模块,通过冻结预训练权重的VITS文本编码器和Transformer架构实现音色克隆; S5、数字人音色克隆模型训练与测试:采用warmup学习率策略和加权LSD和MSE作为损失函数训练模型,验证音频生成效果; S6、整合框架:将形象克隆模型与音色克隆模型结合,通过大语言模型驱动实现数字人问答交流; 所述步骤S1具体包括: 依据文本内容将有声视频分组,并将有声视频进行分离为音频和无声视频; 提取无声视频的面部特征,构建数据集,其中,表示文本信息,为音频,为无声视频,表示面部特征; 随机截取音频得到音频片段,构建数据集,其中表示音频片段; 将数据集和数据集按照8:2的方式,划分为训练集和测试集; 所述步骤S3数字人形象克隆模型训练与测试过程包括: 将数据集中的和的训练集分别输入音频编解码模块和无声视频生成模块; 学习率变化策略采用warmup,训练50个轮次,损失采用加权KL散度和MSE作为损失函数,所述损失函数的计算方式为:,其中为权重值,N为样本数量,为真实数据,为预测数据; 将数据集中的和的测试集分别送入数字人形象克隆模型中的音频编解码模块和无声视频生成模块,分别验证两个模块的有效性,串联得到数字人形象克隆模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中兴协力(山东)数字科技集团有限公司,其通讯地址为:250000 山东省济南市中国(山东)自由贸易试验区济南片区虎山北路1001号智能传感器(济南)创新中心4-7;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励