湖北大学黄佳文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖北大学申请的专利一种基于语音驱动的唇型生成方法、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120708647B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510480512.0,技术领域涉及:G10L21/10;该发明授权一种基于语音驱动的唇型生成方法、设备及介质是由黄佳文;李志飞;张淼;肖奎;黄志芳;余敦辉;张䶮;王时绘设计研发完成,并于2025-04-17向国家知识产权局提交的专利申请。
本一种基于语音驱动的唇型生成方法、设备及介质在说明书摘要公布了:本申请提供了一种基于语音驱动的唇型生成方法、设备及介质,涉及计算机视觉领域,方法包括:获取原始目标视频的音频信号;构建音频‑表情系数映射网络;将音频信号输入音频‑表情系数映射网络进行训练,得到目标人物的混合变形系数;音频‑表情系数映射网络包括:特征提取模块、自注意力增强模块以及个性化表情转换模块;构建目标人物的3D渲染面部图像;对3D渲染面部图像进行神经纹理映射,生成特征图;通过特征图,渲染3D渲染面部图像的嘴部区域,得到高分辨率的嘴部渲染图像;通过高分辨率的嘴部渲染图像,结合背景合成网络,得到基于语音驱动的唇型生成视频。本申请的技术方案能够显著降低训练成本,并有效解决静默音时的唇形抖动。
本发明授权一种基于语音驱动的唇型生成方法、设备及介质在权利要求书中公布了:1.一种基于语音驱动的唇型生成方法,其特征在于,方法包括以下步骤: S1:获取原始目标视频的音频信号; S2:构建音频-表情系数映射网络;将音频信号输入音频-表情系数映射网络进行训练,得到目标人物的混合变形系数; 音频-表情系数映射网络包括:特征提取模块、自注意力增强模块以及个性化表情转换模块; 步骤S2包括: S21:通过特征提取模块以及自注意力增强模块,提取音频信号的音频特征;音频特征包括:时序信息和发音内容;特征提取模块为基于循环神经网络的语音识别框架,采用多尺度卷积核; S22:将音频特征映射到目标人物的面部表情空间,得到面部表情系数; S23:通过个性化表情转换模块,将面部表情系数映射到面部表情空间中的目标人物的个性化表情空间,得到目标人物的混合变形系数; S24:通过时间滤波器,对当前帧的面部表情空间进行平滑 S3:基于混合变形系数,构建目标人物的3D渲染面部图像; 步骤S3包括: S31:构建目标人物的个性化3D面部模型,具体步骤包括:构建统计3D人脸模型,使用混合变形系数调整统计3D人脸模型的唇形和表情,得到个性化3D面部模型; S32:基于原始目标视频的头部姿态,对个性化3D面部模型的嘴部区域进行变形; S33:计算个性化3D面部模型的UV纹理坐标;基于UV纹理坐标,将目标人物的变形后的面部映射到个性化3D面部模型的3D面部网格,得到低分辨率的3D渲染面部图像; S4:对3D渲染面部图像进行神经纹理映射,生成特征图; 步骤S4包括: S41:构建神经纹理,具体步骤包括:通过3D渲染面部图像的3D面部网格以及目标人物的所述面部表情系数,生成高维的神经纹理; 神经纹理用于存储目标人物的个性化面部细节;个性化面部细节包括:皮肤质感、皱纹以及嘴部动态变化特征; S42:使用个性化3D面部模型的UV纹理坐标,结合神经渲染网络以及多分辨率的动态纹理映射方法,将神经纹理映射到3D渲染面部图像的2D图像空间,生成特征图; S5:通过特征图,渲染3D渲染面部图像的嘴部区域,得到高分辨率的嘴部渲染图像; S6:通过高分辨率的嘴部渲染图像,结合背景合成网络,得到基于语音驱动的唇型生成视频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖北大学,其通讯地址为:430062 湖北省武汉市武昌区友谊大道368号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励