南京理工大学王康侃获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京理工大学申请的专利一种可语音交互的三维数字人生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120931773B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511445211.0,技术领域涉及:G06T13/20;该发明授权一种可语音交互的三维数字人生成方法及系统是由王康侃;曾凡昱;李绍园设计研发完成,并于2025-10-11向国家知识产权局提交的专利申请。
本一种可语音交互的三维数字人生成方法及系统在说明书摘要公布了:本发明属于三维重建技术领域,公开了一种可语音交互的三维数字人生成方法及系统。本发明根据输入的目标文本和采样人声音频的语言不同,自动生成不同语言的全新说话音频;使用多模型联合估计与时序损失函数保障了三维人体运动的时序稳定性与细节还原能力,利于准确估计图像中面部表情细节和手部姿态。在估计得到的高精度三维人体模型后,基于语音驱动进行人体动作表情生成,实现语音生成的动作与表情的精准同步,准确生成符合全新说话音频的面部表情运动和身体姿态运动即全身三维人体模型;最后使用三维神经渲染模型将全身三维人体模型渲染为可语音交互的真人数字人。本发明利于实现从单张人物图片输入到高精度三维数字人的生成和语音交互。
本发明授权一种可语音交互的三维数字人生成方法及系统在权利要求书中公布了:1.一种可语音交互的三维数字人生成方法,其特征在于,包括如下步骤: 步骤1.将输入的采样人声音频转换为梅尔频谱图,并进行采样量化得到离散音色特征;然后根据输入的目标文本和得到的离散音色特征,生成保留指定音色特征的语义token;最后将语义token转换为全新说话音频即原始音频;原始音频拥有采样人声音频的音色特征和输入目标文本的全新说话内容; 步骤2.将输入的单目视频分割为图像序列;使用多个模型联合从图像序列中估计得到初始化的三维人体参数模型,分别对应图像中人物的身体姿态、手部姿态和面部表情;对初始化得到的三维人体参数模型进行分部位优化,针对三维人体参数模型的头部轮廓、面部表情和手部姿态进一步精细优化,最终估计得到三维人体模型; 对初始化得到的三维人体参数模型进行分部位优化,针对面部表情、手部姿态以及身体形状中的头部进一步精细优化,估计得到三维人体模型,优化过程为: 使用人体掩膜估计工具DeepLabV3根据图像生成的身体轮廓掩膜与初始化的三维人体模型进行损失计算以优化身体形状β;使用面部特征点检测工具MediaPipe的面部特征点信息和人体头部参数估计模型MICA的面部形状信息与初始化的三维人体模型的面部特征点与面部顶点进行损失计算,以优化身体形状β和面部表情;使用人体关节特征点检测工具OpenPose的手部关节特征点与初始化的三维人体模型的手部关节特征点进行损失计算,以优化手部姿态;同时使用三维人体模型参数与可优化面部纹理渲染面部图像,得到的图像和输入的单帧图像之间的进行颜色损失计算以更好地捕获人脸细节,结合时序损失保证全身包括手部动作的时序一致性,得到面部表情丰富真实、手部动作清晰的三维人体模型SMPL-X序列;,为表情参数,为眼睛姿势,为下颚姿势; 优化过程中综合损失如下:;其中为t时刻图像先验;为MediaPipe的面部特征点信息的损失;为三维人体模型的面部形状与MICA的面部形状间的损失;为得到的图像和输入的单帧图像之间的颜色损失;和为对身体与手部以及人体关节运动的平滑损失;为DeepLab生成的身体轮廓掩膜与初始化的三维人体模型轮廓之间的损失;为防止双手相互渗透引入的碰撞惩罚损失,、为对应损失的权重系数; 步骤3.利用面部生成器基于原始音频和说话者标识生成富有表情的面部动作,利用身体和手部生成器基于原始音频和说话者标识输入,分别生成逼真且多样的身体动作和手部动作,从而得到对应于全新说话音频的全身三维人体模型;该全身三维人体模型参数拥有对应于全新说话内容的面部表情、身体姿态和手部姿态; 步骤4.利用估计得到的三维人体模型和图像序列得到三维人体模型的顶点着色文件;然后利用顶点着色文件将全身三维人体模型着色后,通过三维神经渲染模型渲染得到生成的真人三维数字人图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市玄武区孝陵卫街200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励