山东女子学院郭延辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东女子学院申请的专利一种基于深度学习的语音驱动3D数字人生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120431222B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510927244.2,技术领域涉及:G06T13/20;该发明授权一种基于深度学习的语音驱动3D数字人生成方法是由郭延辉;田睿;王勤芬;于谦设计研发完成,并于2025-07-07向国家知识产权局提交的专利申请。
本一种基于深度学习的语音驱动3D数字人生成方法在说明书摘要公布了:本发明公开了一种基于深度学习的语音驱动3D数字人生成方法,涉及深度学习音频处理技术领域,包括以下步骤:步骤1:采集音频数据和对应的面部数据,并进行预处理;步骤2:利用预处理后的音频数据和面部数据对MetaFormer模型进行训练,获得面部预测模型;步骤3:采集待转换音频并输入至面部预测模型,获得预测面部数据;步骤4:将预测面部数据通过客户端传输至UE5引擎,生成数字人。本发明能够实现语音驱动3D数字人嘴型数据预测,提高预测数据的通用性,以及数字人渲染效率。
本发明授权一种基于深度学习的语音驱动3D数字人生成方法在权利要求书中公布了:1.一种基于深度学习的语音驱动3D数字人生成方法,其特征在于,包括以下步骤: 步骤1:采集音频数据和对应的面部数据,并进行预处理; 步骤2:利用预处理后的音频数据和面部数据对MetaFormer模型进行训练,获得面部预测模型;采用Wav2Vec模型对音频数据进行预处理,提取初步特征,获得音频向量;MetaFormer模型包括线性层、特征对齐层、动作编码器、周期性位置编码器、目标掩码层、内存掩码层和动作解码器; 线性层,设置角色向量并转换为角色特征; 特征对齐层,将音频向量转换为以帧为单位的向量,并与面部数据中的每一帧图像一一对应; 周期性位置编码器,采用改进正弦位置编码方法为预测的预测帧图像进行编码,获得周期性位置编码加入预测帧图像,并将周期性位置编码编码成可渲染格式; 目标掩码层,根据预测帧图像生成目标掩码矩阵; 内存掩码层,根据预测帧图像生成内存掩码矩阵; 动作解码器,根据对齐后的音频向量和面部数据、角色特征、目标掩码矩阵和内存掩码矩阵进行推理预测,生成预测帧图像并进行编码,所有预测帧图像构成预测面部数据; 目标掩码层根据当前的预测帧图像生成目标掩码矩阵,目标掩码矩阵表示为: 其中,p表示时间周期;i表示矩阵的列,j表示矩阵的行,BFi,j表示第j行第i列的目标码权重; 内存掩码层根据当前的预测帧图像生成内存掩码矩阵,内存掩码矩阵BA表示为: 其中,k表示当前连续帧的数量;i表示矩阵的列,j表示矩阵的行,BAi,j表示第j行第i列的内存权重; 改进正弦位置编码方法表示为: PPEt,2α=sintmodp100002αdτ PPEt,2α+1=costmodp100002αdτ 其中,τ表示缩放参数;t为当前帧时间;d为模型维度;α为维度指数;p为时间周期;PPEt,2α表示偶数预测帧图像对应的周期性位置编码;PPEt,2α+1表示奇数预测帧图像对应的周期性位置编码;mod表示计算相除后的余数;在预测帧图像中加入周期性位置编码表示为: 其中,Sn表示当前预测帧图像;Wf为权重,bf为偏差,为上一帧预测帧图像的向量值;x表示循环次数k大于1,且小于或等于总帧数T的预测帧图像;fx表示推理出的所有预测帧图像;ft表示t时刻的预测帧图像;表示加入周期性位置编码后的t时刻的预测帧图像; 步骤3:采集待转换音频并输入至面部预测模型,获得预测面部数据; 步骤4:将预测面部数据通过客户端传输至UE5引擎,生成数字人。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东女子学院,其通讯地址为:250300 山东省济南市长清区大学科技园大学路2399号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。