当前位置 : 首页 > 专利喜报 > 北京理工大学张磊获国家专利权

北京理工大学张磊获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉北京理工大学申请的专利一种基于音视频结构对齐的演讲视频生成方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116567365B 。

龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310386924.9，技术领域涉及：H04N21/81；该发明授权一种基于音视频结构对齐的演讲视频生成方法是由张磊;董彪;黄华设计研发完成，并于2023-04-12向国家知识产权局提交的专利申请。

本一种基于音视频结构对齐的演讲视频生成方法在说明书摘要公布了：本发明公开的一种基于音视频结构对齐的演讲视频生成方法，属于虚拟数字人领域。本发明包括音频分割模块、音频转化模块、音频编码模块、视频编码模块、视频融合解码模块。音频转化模块用于将分割的音素，根据傅里叶变换转化为更符合人耳频率范围的梅尔频谱图。在音频编码过程中，将相同音素的帧作为一个连续的时间模块，并将时间模块作为时间一致性来约束嘴唇的变化，通过时间一致性约束在音素级别实现对口唇细粒度控制。在视频编码中，将输入视频中多姿态变化的人脸的部分区域设置为蒙版区域，通过蒙版区域作为空间一致性精确控制嘴唇变化幅度，对齐演讲者嘴唇位置，减轻视频的视觉伪影，优化面部细节，生成音画同步的高质量演讲视频。

本发明授权一种基于音视频结构对齐的演讲视频生成方法在权利要求书中公布了：1.一种基于音视频结构对齐的演讲视频生成方法，其特征在于：包括以下步骤：步骤一、音频分割；将输入音频分割为音素，通过将音频分割细粒度的音素提取音频特征信息，使提取音频特征信息具有更丰富的音频细节特征；步骤二、音素转化；将音素根据傅里叶变换转化为更符合人耳频率范围的梅尔频谱图；傅里叶变换转化为梅尔频谱图的公式如下： Fω表示梅尔频谱图，ft表示音素，e-iωt表示复变函数；将上述得到的每个音素的梅尔频谱图通过时序性划分为各自的时间模块，每个时间模块包含一个音素的梅尔频谱图，通过划分时间模块准确建立音素与视频的映射关系，通过所述映射关系提高音频到演讲者嘴唇的准确率；每个时间模块与所包含的梅尔频谱图表示如下式： B＝{bj|1≤j≤N} B表示时间模块的集合，M表示梅尔频谱图总帧数，bj表示梅尔频谱图，j表示梅尔频谱图当前帧数；步骤三、音频编码；基于步骤二构建的映射关系进行音频编码，在音频编码过程中，将相同音素的帧作为一个连续的时间模块，并将时间模块作为时间一致性来约束嘴唇的变化，通过时间一致性约束在音素级别实现对口唇细粒度控制；步骤四、视频编码；通过输入视频中多姿态变化人脸的面部关键点进行视频编码，在视频编码中，将输入视频中多姿态变化的人脸的部分区域设置为蒙版区域，通过蒙版区域作为空间一致性精确控制嘴唇变化幅度，对齐演讲者嘴唇位置，减轻视频的视觉伪影，优化面部细节；步骤五、视频解码；通过步骤三得到时间一致性音频编码和步骤四得到空间一致性视频编码进行视频融合解码，在视频解码中，采用中心对称的插值计算将口唇填充至蒙版区域，在准确的唇部同步和逼真的面部细节方面基础上，生成音画同步的高质量演讲视频。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人北京理工大学，其通讯地址为：100081 北京市海淀区中关村南大街5号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

北京理工大学张磊获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务