合肥人工智能与大数据研究院有限公司王明柱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥人工智能与大数据研究院有限公司申请的专利一种多模态数字人生成方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119400152B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411476903.7,技术领域涉及:G10L13/08;该发明授权一种多模态数字人生成方法和系统是由王明柱设计研发完成,并于2024-10-22向国家知识产权局提交的专利申请。
本一种多模态数字人生成方法和系统在说明书摘要公布了:本发明公开了一种多模态数字人生成方法和系统,包括:图片生成数字人模块、视频生成数字人模块和视频翻译模块;涉及深度合成技术领域,解决了现有技术的数字人生成方式的扩展性和灵活性不高的技术问题;本发明通过对参考图像进行处理生成得到3D面部模型;基于脸部渲染器和外观编码器将运动系数和第一音频信号生成第一数字人;从原始视频中提取出指定时长的音频并标记为原始音频;将翻译文本转换为对应的目标音频,将目标音频与原始视频合成为翻译视频。本发明通过3DMM技术将参考图像生成得到3D面部模型,使得3D面部模型能够保持人物的身份特征并生成自然的动态表情,有利于提高生成的数字人与用户之间的互动体验。
本发明授权一种多模态数字人生成方法和系统在权利要求书中公布了:1.一种多模态数字人生成系统,包括:图片生成数字人模块、视频生成数字人模块和视频翻译模块;其特征在于, 所述图片生成数字人模块:用于对原始图像进行预处理,得到参考图像;对参考图像进行处理生成得到3D面部模型;基于3D面部模型生成运动系数;以及, 将输入文本转换为第一音频信号;基于脸部渲染器和外观编码器将运动系数和第一音频信号生成第一数字人;其中,运动系数包括面部表情系数和头部姿态系数,头部姿态系数包括头部旋转系数和头部位移系数; 所述视频生成数字人模块:用于对第二音频信号和第一视频进行处理得到关键点序列;将关键点序列渲染为第二视频;将文本内容转换为第三音频信号;将第三音频信号与第二视频进行合成得到第二数字人;其中,关键点序列包括嘴部和下颌的关键点; 所述视频翻译模块:用于从原始视频中提取出指定时长的音频并标记为原始音频;将原始音频输入至语音识别模型生成对应的文本信息,并对文本信息进行翻译,得到翻译文本;将翻译文本转换为对应的目标音频;将目标音频的音色调整为原始视频中说话者的音色;将目标音频与原始视频合成为翻译视频; 所述对第二音频信号和第一视频进行处理得到关键点序列,包括: A1:提取第二音频信号和第一视频; A2:通过Mel-spectrogram算法提取第二音频信号的音频特征;其中,a表示输入的第二音频信号;是Mel-spectrogram特征向量,用于表示第二音频信号的频谱信息; A3:根据姿态编码器和参考编码器分别从姿态先验和参考图像的关键点中提取相应的嵌入向量: ;; 其中,为姿态先验,即初始视频中的头部姿态信息,通常由关键点表示,是参考图像的关键点信息;是姿态先验的嵌入向量,由姿态编码器提取;是参考图像的嵌入向量,由参考编码器提取; A4:将、、与位置编码和模态编码相加后,输入到多层Transformer模块中,通过自注意力机制捕捉它们之间的复杂关系,生成最终的嘴部和下颌关键点序列k: ; 其中,k表示生成的嘴部和下颌的关键点序列;Transformer表示多层Transformer模型; A5:通过重构损失和连续性正则化损失进行损失函数优化: ; ; 其中,表示实际的嘴部和下颌的关键点序列,为重构损失,用于最小化生成的关键点序列与真实关键点之间的误差,为连续性正则化损失,用于确保关键点序列在时间上的平滑性以及减少帧间不连续的变化; 所述将关键点序列渲染为第二视频,包括: M1:通过对齐模块将参考图像与目标面部的姿态和表情对齐,对齐过程为: ; 其中,表示对齐后的参考图像,表示输入的参考图像,Align为对齐模块,利用姿态先验的嵌入向量对参考图像进行变换; M2:将关键点序列输入至草图生成网络得到目标面部草图: ; 其中,S1表示生成的目标面部草图,SketchNet表示草图生成网络; M3:利用空间自适应归一化层和自适应实例归一化层将对齐后的参考图像与目标面部草图融合,生成最终的面部图像: ; 其中,表示生成的面部图像;SPADE表示空间自适应归一化层,用于将草图与参考图像特征融合; M4:在渲染过程中通过感知损失和对抗损失来优化生成的面部图像: ; ; 其中,表示预训练的卷积网络的第i层;表示真实的面部图像;为感知损失,用于衡量生成的面部图像和真实的面部图像在高层特征空间的差异;为对抗损失,用于训练生成器使其生成的图像能够欺骗判别器; 提取翻译文本和原始视频的时长,通过edge-tts算法将翻译文本转换为目标音频,并根据原始视频的时长调整目标音频的播放速率,使得目标音频与原始视频的播放速率同步。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥人工智能与大数据研究院有限公司,其通讯地址为:230000 安徽省合肥市蜀山区金寨路91号立基大厦A座18楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励