中山大学李冠彬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中山大学申请的专利语音驱动的说话视频生成方法、系统、设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116634242B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310521219.5,技术领域涉及:H04N21/81;该发明授权语音驱动的说话视频生成方法、系统、设备和存储介质是由李冠彬;钟伟至;林倞设计研发完成,并于2023-05-09向国家知识产权局提交的专利申请。
本语音驱动的说话视频生成方法、系统、设备和存储介质在说明书摘要公布了:本发明公开了语音驱动的说话视频生成方法、系统、设备和存储介质,包括将语音数据、参考关键点和人脸姿势先验关键点输入关键点预测模型,得到第一人脸关键点,将第一人脸关键点和人脸姿势先验关键点进行组合,得到目标轮廓图;从原始说话视频数据中提取原始人脸图,将原始人脸图、目标轮廓图和语音数据输入关键点渲染模型进行图像扭曲和图像合成,得到与所述目标轮廓图相对应的合成人脸图;使用合成人脸图对原始人脸图进行逐帧替换,并对替换后的视频帧进行高斯平滑和帧合并,得到说话视频数据。本发明能够准确预测人脸关键点,并能够将关键点轮廓渲染成真实的说话视频,本发明保留了更多ID信息,使生成的人脸更加真实逼真,视频效果更加真实。
本发明授权语音驱动的说话视频生成方法、系统、设备和存储介质在权利要求书中公布了:1.一种语音驱动的说话视频生成方法,其特征在于,包括: 获取语音数据和原始说话视频数据,从所述原始说话视频数据中提取参考关键点和人脸姿势先验关键点;所述参考关键点是能够代表整张人脸的关键点;所述人脸姿势先验关键点是能够代表人脸姿势的上半脸关键点; 将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测,得到第一人脸关键点,并将所述第一人脸关键点和所述人脸姿势先验关键点进行组合,得到目标轮廓图;其中,所述关键点预测模型包括参考编码器、语音编码器、姿态编码器和Transformer编码器;所述参考编码器和所述姿态编码器均由一维卷积神经网络组成,所述语音编码器由二维卷积神经网络组成; 从所述原始说话视频数据中提取原始人脸图,将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成,得到与所述目标轮廓图相对应的合成人脸图,其中,所述关键点渲染模型包括光流子模型和轮廓转换子模型; 使用所述合成人脸图对所述原始说话视频数据中的原始人脸图进行逐帧替换,并对替换后的视频帧进行高斯平滑和帧合并,得到与所述语音数据相匹配的说话视频数据; 其中,所述将所述语音数据、所述参考关键点和所述人脸姿势先验关键点输入预先训练好的关键点预测模型进行关键点预测,得到第一人脸关键点的步骤包括: 将所述语音数据输入所述语音编码器,将所述参考关键点输入所述参考编码器,将所述人脸姿势先验关键点输入所述姿态编码器,分别得到语音特征向量、参考特征向量和姿态特征向量; 根据所述语音特征向量、所述参考特征向量和所述姿态特征向量,生成对应的位置编码和模态编码,并将所述参考特征向量、所述语音特征向量、所述姿态特征向量、所述位置编码和所述模态编码输入所述Transformer编码器进行关键点预测,得到第一人脸关键点,所述第一人脸关键点包括嘴巴关键点和下巴关键点; 所述将所述原始人脸图、所述目标轮廓图和所述语音数据输入预先训练好的关键点渲染模型进行图像扭曲和图像合成,得到与所述目标轮廓图相对应的合成人脸图的步骤包括: 随机选取若干张原始人脸图作为人脸参考图,并对所述人脸参考图进行轮廓提取,得到参考轮廓图; 将所述人脸参考图、所述参考轮廓图和所述目标轮廓图输入所述光流子模型进行光流预测,得到光流场和权重值; 根据所述光流场对所述人脸参考图和中间特征图进行扭曲,并根据所述权重值分别对扭曲后的人脸参考图和扭曲后的中间特征图进行加权求和,得到扭曲参考图和扭曲特征图,所述中间特征图由所述光流子模型对所述人脸参考图进行编码得到; 对所述原始人脸图的下半脸进行遮蔽,得到人脸遮蔽图,将所述人脸遮蔽图、所述目标轮廓图、所述语音数据、所述扭曲参考图和所述扭曲特征图输入所述轮廓转换子模型进行轮廓图像转换,得到与所述目标轮廓图相对应的合成人脸图。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中山大学,其通讯地址为:510275 广东省广州市新港西路135号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励