当前位置 : 首页 > 专利喜报 > 国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司吴伟玲获国家专利权

国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司吴伟玲获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司申请的专利一种音频驱动面部动画生成方法、系统、设备及介质获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120259503B 。

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510696915.9，技术领域涉及：G06T13/40；该发明授权一种音频驱动面部动画生成方法、系统、设备及介质是由吴伟玲;洪健山;林少娃;沈然;朱林;王姝晏;侯素颖;章一新;李伊玲设计研发完成，并于2025-05-28向国家知识产权局提交的专利申请。

本一种音频驱动面部动画生成方法、系统、设备及介质在说明书摘要公布了：本发明公开了一种音频驱动面部动画生成方法、系统、设备及介质。本发明采用的音频驱动面部动画生成方法，包括：利用来自两个预训练音频编码器的组合嵌入进行音频特征提取；将提取到的音频特征馈入扩散模型的音频注意力和时间步嵌入；以音频输入和身份帧为条件，扩散模型以低帧率生成关键帧序列；以关键帧序列中两个连续帧为条件，扩散模型在关键帧之间进行插值；结合RGB空间和潜在特征空间的损失函数优化扩散模型。本发明将关键帧生成与插值相结合，利用扩展的时间上下文，可以生成随着时间的推移保持高质量并捕获长期时间依赖关系的视频，有效地保持长序列的时间一致性和真实感。

本发明授权一种音频驱动面部动画生成方法、系统、设备及介质在权利要求书中公布了：1.一种音频驱动面部动画生成方法，其特征在于，包括：步骤1，利用来自两个预训练音频编码器的组合嵌入进行音频特征提取；步骤2，将提取到的音频特征馈入扩散模型的音频注意力和时间步嵌入；步骤3，以音频输入和身份帧为条件，扩散模型以低帧率生成关键帧序列；步骤4，以关键帧序列中两个连续帧为条件，扩散模型在关键帧之间进行插值；步骤5，结合RGB空间和潜在特征空间的损失函数优化扩散模型；所述步骤1中，所述的两个预训练音频编码器为WavLM和BEATs，所述的WavLM从语音中捕获语言内容，所述的BEATs经过训练从包括非语音声音的声学信号中提取特征；所述步骤2中，将音频特征馈入扩散模型的机制包括： 2.1音频注意力：组合嵌入作为U-Net架构内交叉注意层中的键和值；其中，表示WavLM预训练音频编码器，表示BEATs预训练音频编码器； 2.2时间步嵌入：将添加到时间步嵌入中，因此，表示时间步嵌入与音频特征的融合特征，MLP表示全连接神经网络；所述步骤5中优化扩散模型的具体过程为： 5.1将潜在特征空间解码回RGB空间以获得解码帧，在解码帧和地面实况帧之间应用L2损失，并将其添加到潜在特征空间和之间的L2损失中，表示地面实况特征空间； 5.2在反向传播过程中优化扩散模型的参数。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司，其通讯地址为：311100 浙江省杭州市余杭区云联路138号5幢；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

国网浙江省电力有限公司营销服务中心;国网浙江省电力有限公司吴伟玲获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务