Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华南师范大学梁艳获国家专利权

华南师范大学梁艳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华南师范大学申请的专利一种基于音视频的多模态语音增强系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119380742B

龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411563116.6,技术领域涉及:G10L21/0272;该发明授权一种基于音视频的多模态语音增强系统是由梁艳;彭敏轩设计研发完成,并于2024-11-05向国家知识产权局提交的专利申请。

一种基于音视频的多模态语音增强系统在说明书摘要公布了:本发明公开了一种基于音视频的多模态语音增强系统,该增强系统包括数据采集模块,通过麦克风采集目标音频以及背景噪声和干扰音;利用摄像头同步采集环境视觉信息,包括说话者的面部表情和口型,对噪声和干扰音进行归一化处理,确保与目标音频的动态范围匹配;数据分析模块,对采集到的音频进行预处理,包括噪声抑制和语音增强,应用深度学习模型提高语音的清晰度;提高语音清晰度:该发明通过降噪和语音增强技术,能够有效减少背景噪声的干扰,使语音更加清晰。这样,听众能更容易听懂讲话内容,尤其是在嘈杂的环境中,如公共交通工具或繁忙的街道;改善语音识别准确率:该发明可以提高语音信号的质量。

本发明授权一种基于音视频的多模态语音增强系统在权利要求书中公布了:1.一种基于音视频的多模态语音增强系统,其特征在于:该增强系统包括 数据采集模块,通过麦克风采集目标音频以及背景噪声和干扰音;利用摄像头同步采集环境视觉信息,包括说话者的面部表情和口型,对噪声和干扰音进行归一化处理,确保与目标音频的动态范围匹配; 数据分析模块,对采集到的音频进行预处理,包括噪声抑制和语音增强,应用深度学习模型提高语音的清晰度;分析摄像头捕获的视觉信息,辅助音频处理,以提高语音识别和增强的准确性;提取音频特征,进行数据融合处理,综合利用音频和视觉信息优化语音增强效果,并评估和优化处理结果; 交互界面,用于浏览对比采集到的初始音视频和经过语音增强后的音视频; 所述数据采集模块包括数据采集部分和数据预处理部分; 所述数据分析模块包括语音增强模型,用于捕获说话者面部运动与声音序列的时序动态特征; 所述数据预处理部分对视频部分的处理过程如下: S1、将长视频进行分段处理,去除首尾帧,避免干扰因素的影响; S2、使用3D人脸模型技术对图片帧和标记点进行旋转、平移和缩放操作,确保不同图片帧中的面部标记点对齐到相似的位置; S3、对图片帧进行标准化处理,将像素值从[0,1]范围转换到[-1,1]范围; S4、通过中心裁剪操作,使头部位于图像中心,并将图像大小调整为224×224像素,再将部分视频帧中的唇部添加方块遮挡物,并将清晰帧与遮挡帧的量保持在3:1的比例; 所述数据预处理部分对音频部分的处理过程如下: 将采样的目标音频分别与AudioSet中的环境噪声音频信号、以及包含一个说话者的干扰音频信号按照噪声占20%,干扰音频占30%,目标音频占50%的比例进行混合,同时根据混合音频的最大振幅进行归一化处理,将混合后的音频信号保存为wav文件,作为包含噪声的混合音频; 所述语音增强模型分为时空特征提取模块和特征融合模块,其中 时空特征模块利用卷积块提取音频、视频以及面部外观的特征信息作为异构模态信息,而特征融合模块利用Transformer模型将异构模态信息进行融合,利用多模态信息有效将目标说话者的声音从其他噪声中分离出来; 所述语音增强模型对音频处理后,一维卷积神经网络组成的U-Net的编码器部分,编码器和解码器网络各有L层,并且解码器的层按照相反的顺序编号,编码器网络将原始波形作为输入,并输出潜在表示;网络的每一层都包含一个线性整流激活函数层、卷积层和门控线性单元激活层; 所述语音增强模型对视频帧经过处理后,使用一个由三维卷积层和ResNet-18组成的特征提取网络,提取说话者面部运动的时空特征,再通过使用ResNet-18网络,从人脸轨迹中随机抽取单张人脸图像作为输入,通过提取相应维数的人脸嵌入以编码说话者的面部属性,之后沿时间维度复制,得到面部属性特征; 所述数据采集模块中的麦克风采样率为44.1kHz,而摄像头为1080p分辨率、30fps,文件保存为.npy格式用于后续分析; 所述环境噪声音频信号类型包括音乐、笑声、哭声、发动机声、风声。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南师范大学,其通讯地址为:510631 广东省广州市天河区中山大道西55号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。