Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学位纪伟获国家专利权

电子科技大学位纪伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种基于大模型可学习文本潜码的说话数字人生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119516054B

龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411540741.9,技术领域涉及:G06T13/40;该发明授权一种基于大模型可学习文本潜码的说话数字人生成方法是由位纪伟;刘科;袁瑞淇;柴瑞坤;何仕远;周雨阳;杨阳设计研发完成,并于2024-10-31向国家知识产权局提交的专利申请。

一种基于大模型可学习文本潜码的说话数字人生成方法在说明书摘要公布了:本发明公开了一种基于大模型可学习文本潜码的说话数字人生成方法,根据实际需要获取若干人脸语音视频并提取训练样本构成训练样本集,每个训练样本包括参考视频和所对应的梅尔频谱图序列、嘴部参考图像;构建基于可学习文本潜码的通用说话数字人生成模型,并采用训练样本集进行训练;当需要生成说话数字人视频时,先对待生成语音数据进行分帧并提取梅尔频谱图序列,根据实际情况设置嘴部参考图像、参考视频,一并输入训练好的通用说话数字人生成模型,生成待生成语音数据对应的说话数字人视频。本发明从不同说话者的嘴部参考图像中持续学习稳健的文本潜码,用于指导通用说话数字人视频的合成过程,提高说话数字人生成模型的质量。

本发明授权一种基于大模型可学习文本潜码的说话数字人生成方法在权利要求书中公布了:1.一种基于大模型可学习文本潜码的说话数字人生成方法,其特征在于,包括以下步骤: S1:根据实际需要获取若干人脸语音视频,从每个人脸语音视频中提取语音数据,然后去除语音数据后得到人脸视频数据,对得到的若干对语音数据和人脸视频数据进行处理得到训练样本,具体方法为: 对于每对语音数据和人脸视频数据,提取其人脸视频数据中每个视频帧上的感兴趣区域,将每个视频帧的感兴趣区域归一化至预设尺寸,得到处理后的人脸视频数据V;从人脸视频数据V中选取N帧视频帧,从中选择一张作为嘴部参考图像Mr,将N帧视频帧的下半部分进行遮掩处理后作为姿势参考帧构成姿势参考视频Pr;然后从剩余视频帧中选取N帧视频帧作为身份参考帧构成身份参考视频Ir;将姿势参考视频Pr和身份参考视频Ir沿着通道维度拼接得到参考视频F; 对语音数据进行分帧,提取每个语音帧的梅尔频谱图构成梅尔频谱图序列S; 将每个参考视频F和所对应的梅尔频谱图序列S、嘴部参考图像Mr构建一个训练样本,从而得到训练样本集; S2:构建通用说话数字人生成模型,包括语音编码器,人脸编码器,图像编码器,文本编码器,文本特征学习模块,语音联合学习空间模块,人脸联合学习空间模块,特征拼接模块和人脸生成器,其中: 语音编码器用于对梅尔频谱图序列S进行特征提取,从得到的语音特征矩阵中筛选出姿势参考视频Pr所对应语音帧的特征向量构成语音特征ws发送至语音联合学习空间模块; 人脸编码器用于对包含2N个人脸视频帧的拼接视频F进行特征提取,将得到的人脸特征wf发送至人脸联合学习空间模块; 图像编码器用于对嘴部参考图像Mr进行特征提取,将得到的嘴部图像特征cm发送至文本特征学习模块; 文本编码器用于对预设的嘴部文本提示T进行特征提取,将得到的嘴部文本特征ct发送至文本特征学习模块; 文本特征学习模块用于根据嘴部图像特征cm和嘴部文本特征ct提取得到文本潜码c并分别发送至语音联合学习空间模块和人脸联合学习空间模块; 语音联合学习空间模块用于采用下述公式将文本潜码c注入语音特征ws得到优化语音特征并发送至特征拼接模块; 人脸联合学习空间模块用于采用下述公式将文本潜码c注入人脸特征wf得到优化人脸特征并发送至特征拼接模块; 特征拼接模块用于将优化语音特征和优化人脸特征进行拼接,然后将拼接特征W发送至人脸生成器; 人脸生成器用于根据拼接特征W生成N个说话人脸视频帧,构成说话数字人视频; S3:采用步骤S1得到的训练样本集对步骤S2构建的通用说话数字人生成模型进行训练,得到训练好的通用说话数字人生成模型; S4:当需要生成说话数字人视频时,先对待生成语音数据进行分帧并提取每个语音帧的梅尔频谱图,对语音帧序列划分为长度为N的子序列,得到每个子序列的梅尔频谱图序列S′;根据实际情况设置N个人脸视频帧,将这些帧的下半部分进行遮掩处理后作为姿势参考帧构成姿势参考视频Pr′,另外选择N个相同人员的人脸视频帧作为身份参考帧构成身份参考视频Ir′;将梅尔频谱图序列S′、姿势参考视频Pr′和身份参考视频Ir′输入训练好的通用说话数字人生成模型,生成长度为N的说话数字人视频,然后拼接得到待生成语音数据对应的说话数字人视频。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。