北京策腾数字科技集团有限公司李永获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京策腾数字科技集团有限公司申请的专利基于语音处理的发音识别学习辅助方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120356485B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510827741.5,技术领域涉及:G10L25/51;该发明授权基于语音处理的发音识别学习辅助方法及系统是由李永设计研发完成,并于2025-06-20向国家知识产权局提交的专利申请。
本基于语音处理的发音识别学习辅助方法及系统在说明书摘要公布了:本发明公开了基于语音处理的发音识别学习辅助方法及系统,涉及语音发音识别技术领域,包括如下步骤:通过语音识别对用户的输入语音进行识别,提取输入文字;构建发音特征提取模型;通过发音特征提取模型提取输入语音与输入文字的发音特征,分别得到语音特征以及文字特征;对用户进行发音训练,同时对比语音特征以及文字特征的差异,判断用户的发音是否标准;本发明用于解决现有的语音发音识别技术还存在对用户的发音是否标准的判断方式不够合理以及分析过程中的数据不具备特征性,导致无法有效的帮助用户进行发音学习和校正的问题。
本发明授权基于语音处理的发音识别学习辅助方法及系统在权利要求书中公布了:1.基于语音处理的发音识别学习辅助方法,其特征在于,包括如下步骤: 通过语音识别对用户的输入语音进行识别,提取输入文字; 构建发音特征提取模型,将待分析语音转换为语谱图并提取语谱图中的发音特征; 通过发音特征提取模型提取输入语音与输入文字的发音特征,分别得到语音特征以及文字特征; 对用户进行发音训练,同时对比语音特征以及文字特征的差异,判断用户的发音是否标准; 构建发音特征提取模型,将待分析语音转换为语谱图并提取语谱图中的发音特征包括如下子步骤: 对待分析语音进行预处理后,获取待分析语音的时域图,对其进行分帧,将时域图划分为不同的帧数据; 对帧数据进行短时傅里叶变换转换为帧数据的频谱,命名为帧频谱,基于帧频谱将输入语音转换为语谱图; 基于语谱图提取待分析语音的发音特征; 所述对待分析语音进行预处理后,获取待分析语音的时域图,对其进行分帧,将时域图划分为不同的帧数据包括如下子步骤: 构建发音特征提取模型,将输入发音特征提取模型的语音命名为待分析语音; 通过一阶高通滤波器对待分析语音进行滤波后,获取待分析语音的时域图; 设定帧长,标记为n,获取待分析语音的语音时长,标记为T,计算T,将计算结果标记为m,所述m采用进一法保留整数; 将时域图均匀划分为m个部分,每个部分即为一个帧数据,将帧数据标记为Fn,m,Fn,m表示时域图中处于[n×m‑n,n×m]时间范围内的波形; 所述对帧数据进行短时傅里叶变换转换为帧数据的频谱,命名为帧频谱,基于帧频谱将输入语音转换为语谱图包括如下子步骤: 对Fn,m进行短时傅里叶变换转换为Fn,m的帧频谱,标记为Sn,m,所述帧频谱具体为一个X轴为频率,Y轴为幅度值的二维坐标系; 获取幅度值的最小值与最大值,分别标记为A1和A2,组成范围[A1,A2],命名为幅度范围; 将幅度范围均匀划分为256个子范围,命名为幅度子范围,按照从小到大的顺序对幅度子范围进行排序编号,通过符号Pi表示,其中,i为正整数且i为P的序号; 存在色值0到255,0表示黑,255表示白,将Pi的色值设置为Ci,所述Ci为256‑i; 将Sn,m中的波形命名为待转波,将待转波在X轴上的长度标记为L,构建长度为L,宽度为n的线条,命名为语谱线,将语谱线录入Sn,m,且语谱线与待转波首尾对齐; 针对Sn,m中任意X的取值,将X对应的幅度值命名为目标幅值,查找目标幅值所属的Pi对应的Ci,标记为CDi,将语谱线上处于X处的像素点的色值更改为CDi,对X的每个取值进行分析,最终得到的语谱线为一条带有色彩变化的线段; 提取Sn,m的语谱线,将其逆时针旋转90°,得到Qn,m; 以m为横轴,频率为纵轴建立二维坐标系,命名为语谱图,将Qn,m录入语谱图; 所述基于语谱图提取待分析语音的发音特征包括如下子步骤: 按照从左到右的顺序对输入文字进行编号,通过符号Wj表示,其中,j为正整数且j为W的序号; 在将输入语音转换为输入文字时,标记Wj的发音时间,在语谱图中查找处于发音时间内的帧数据,标记为字发音数据; 所述字发音数据即为Wj的发音特征; 判断用户的发音是否标准包括如下子步骤: 将输入语音与标准语音中同一个Wj的语音特征和文字特征归纳为一组字特征组; 针对任意字特征组进行分析,将字特征组中的语音特征和文字特征分别标记为第一特征和第二特征; 按照从左到右的顺序对第一特征中的帧数据进行编号,通过符号Z1h表示,按照从左到右的顺序对第二特征中的帧数据进行编号,通过符号Z2h表示,其中,h为正整数且h为Z1和Z2的序号; 按照从下到上的顺序提取Z1h和Z2h中的CDi,并构成一个一维的矩阵,分别标记为G1h和G2h; 计算G1h‑G2h,将计算结果标记为G3h,并将G3h中的所有数值取绝对值,得到G4h,按照从左到右的顺序对G4h中的数值进行编号,通过符号K1h,t表示,按照从左到右的顺序对G2h中的数值进行编号,通过符号K2h,t表示,其中,t为正整数且h,t为K1和K2的序号; 计算,将计算结果命名为发音准确度,其中,max为最大值运算符; 寻找第一数量的志愿者,要求志愿者进行第二次数的发音训练并统计每次训练的发音准确度,命名为常规准确度,查找常规准确度的最小值,命名为准确度阈值; 计算用户的输入语音的发音准确度,命名为输入准确度,将输入准确度与准确度阈值进行比对,若输入准确度小于准确度阈值,则标记用户的输入语音不符合标准语音,否则标记用户的输入语音符合标准语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京策腾数字科技集团有限公司,其通讯地址为:100080 北京市海淀区上地三街9号B座2层B310;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。