北京华控智加科技有限公司吕志强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京华控智加科技有限公司申请的专利一种基于预训练神经网络的任意采样率声音分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119905110B 。
龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510126540.2,技术领域涉及:G10L25/51;该发明授权一种基于预训练神经网络的任意采样率声音分析方法是由吕志强;姜安柏;曹宏;刘德广;刘加设计研发完成,并于2025-01-27向国家知识产权局提交的专利申请。
本一种基于预训练神经网络的任意采样率声音分析方法在说明书摘要公布了:本发明公开了一种基于预训练神经网络的任意采样率声音分析方法,涉及声音分析技术领域。包括以下步骤,获取输入音频,转化语谱图,将输入音频进行短时傅里叶变换得到语谱图。本发明解决对采样率跨度差异较大的各种声音信号如8KHz‑192KHz统一建模困难的问题。不同于传统的基于重采样的方法,本发明提出在时频域的语谱图上进行固定频段的子带切分,对子带进行建模,可以将任意采样率的语谱图分解为子带图的组合,对子带图提取高维表征后进行向量拼接,得到最终信号表征。在高维表征层面进行向量距离计算判断声音片段之间的相似度。该方法不仅适用于声音,对高频振动等数字信号同样适用。
本发明授权一种基于预训练神经网络的任意采样率声音分析方法在权利要求书中公布了:1.一种基于预训练神经网络的任意采样率声音分析方法,其特征在于:包括以下步骤: 步骤1:获取输入音频; 步骤2:转化语谱图,将输入音频进行短时傅里叶变换得到语谱图,语谱图横轴为时间,纵轴为分析频率,设定若干分析窗,定义窗长和窗移,短时傅里叶变换窗长25ms,窗移10ms; 步骤3:将建模粒度由整张语谱图改为对语谱图子带进行建模,将语谱图进行子带划分,通过神经网络学习每个子带的深层次信息,为保证同一个模型能处理所有采样率数据,将子带宽度设定为固定宽度,在训练过程中,从语谱图中随机选取固定宽度的子带输入神经网络训练; 步骤4:自监督预训练,神经网络训练采用Encoder-Decoder结构,Encoder输出建模了原始子带语谱图的绝大部分信息,在推理阶段,将任意采样率为sr的声音进行短时傅里叶变换后,语谱图频率区间为,将该频率区间划分为的子带组合,不足一个子带的截取取整为一个子带,基于随机掩蔽从每个子带取中间隐层表征; 步骤5:将每个子带进行向量拼接,提取任意采样率声音的高维表征,再基于高维表征进行判断验证; 一对多信号具体为一个采样端获取多个音源的采样信号,一对多信号的预处理具体包括以下步骤: 步骤101:频率滤波,设定滤波器和滤波范围,人声主要频率范围在80Hz-10kHz,采样率声音的高维表征主要应用于声纹的验证分析,因此使用滤波器将一对多信号按照滤波范围进行过滤得到第一信号,这里的Hf为第一信号,f为采样信号的频率,滤波器的传输函数为: ; 其中,为下截止频率,为上截止频率; 步骤102:谐波分析,将第一信号进行谐波分析得到第二信号; 步骤103:响度分析,将第二信号进行响度分析分离成若干输入音频; 进一步地,多对一信号具体为多个采样端获取一个音源的采样信号,多对一信号的预处理具体包括以下步骤: 步骤104:获取采样端数量,采样端数量等于2时,两个采样端不足以通过计算相位差得到音源的具体位置,因此需要计算声音强度来辅助配合,才能确定音源的具体位置,跳转至步骤106,反之,采样端数量大于2时,进行下一步骤105; 步骤105:将每个采样端俩俩对比计算相位差,相位差的计算公式为: ; 其中,为采样端A和采样端B之间的间距,λ为波长,波长λ通过声速除以采样端A或采样端B采样信号的频率获得,通过对比采样端之间的相位差,得到音源的位置信息,将音源的位置信息转化为每个采样信号的相对位置,相对位置包括音源距离采样端的距离和角度,将相对位置与对应采样端的采样信号绑定得到输入音频; 采样端数量等于2时,包括以下步骤: 步骤106:计算两个采样端之间的相位差,计算公式与步骤105一致,两个采样端的相位差比值乘以间距得到采样端对应的第一分量; 步骤107:分析采样信号的声音强度,将声音强度转换为第二分量; 步骤108:将采样端的第一分量与第二分量相加得到对应的音源位置信息; 步骤109:将音源的位置信息转化为每个采样信号的相对位置,相对位置包括音源距离采样端的距离和角度,将相对位置与对应采样端的采样信号绑定得到输入音频; 多对多信号具体为多个采样端获取多个音源的采样信号,多对多信号的预处理具体包括以下步骤: 步骤110:将采样端的采样信号与另一个距离最远的采样端的采样信号进行相位相减得到第三信号,第三信号可以突出靠近距离最远的采样端附近的音源; 步骤111:重复步骤110得到每个采样端对应的第三信号,将第三信号输入波束形成计算公式得到每个采样端的第四信号,波束形成的计算公式如下: ; 其中,M为采样端的数量,为第m个采样端的权重系数,为第m个采样端在时间t接收到的采样信号,这里的采样信号为最初采集的原始信号,为第m个采样端的相位相减获得的第三信号,计算获得的第四信号即为靠近距离最远的采样端附近的音源的预处理信号; 步骤112:计算第四信号与每个采样端的采样信号的相位差,相位差的计算公式与步骤105一致,获取采样端与另一个距离最远采样端的间距标记为标准间距,将相位差乘以标准间距得到第四信号对应音源的第三分量; 步骤113:计算两个相邻采样端的第四信号的比值,将比值乘以相邻采样端之间的间距得到第四分量; 步骤114:将第三分量与第四分量相加得到对应的音源位置信息,将音源的位置信息转化为与每个采样端的相对位置,相对位置包括音源距离采样端的距离和角度,将相对位置与对应采样端的采样信号绑定得到输入音频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京华控智加科技有限公司,其通讯地址为:100000 北京市海淀区王庄路1号院清华同方科技大厦D座19层1911;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励