中国科学技术大学孔常青获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种基于多维置信度的小语种数据质检方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115906003B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211572851.4,技术领域涉及:G06F18/25;该发明授权一种基于多维置信度的小语种数据质检方法是由孔常青;谢智鹏;胡郁;杜俊设计研发完成,并于2022-12-08向国家知识产权局提交的专利申请。
本一种基于多维置信度的小语种数据质检方法在说明书摘要公布了:本发明公开一种基于多维置信度的小语种数据质检方法,包括:步骤S1,构建格式化数据:将音频与对应标注文本构建成音频文本对数据;步骤S2,标注文本属性质检:提取标注文本,用预先训练好的文本属性置信度模型得出文本置信度得分,若大于预设阈值,则质检合格,否则人工质检;步骤S3,音频属性质检:提取音频,用预先训练好的音频属性置信度模型得出音频置信度得分,若大于预设阈值,则质检合格,否则人工质检;步骤S4,字音一致性质检:将音频文本对数据用预先训练好的语音识别置信度模型得出字音一致性置信度得分,若大于预设阈值,则质检合格,否则人工质检。该方法能提高成品数据库或者大规模标注数据的质检质量及质检效率,节省质检员时间。
本发明授权一种基于多维置信度的小语种数据质检方法在权利要求书中公布了:1.一种基于多维置信度的小语种数据质检方法,其特征在于,包括: 步骤S1,构建格式化数据: 将待质检的音频数据和与该音频数据对应的标注文本数据进行匹配,构建成格式化的音频文本对数据; 步骤S2,标注文本属性质检: 提取所述步骤S1构建的音频文本对数据中的标注文本数据,送入标注文本属性检测模块,所述标注文本属性检测模块利用预先训练好的文本属性置信度模型,计算出标注文本数据的标注文本属性的文本置信度得分,若文本置信度得分大于预先设定的文本合格阈值,则确定标注文本数据质检合格,对质检合格的标注文本数据对应的音频文本对数据进行音频属性质检;若文本置信度得分小于预先设定的文本合格阈值,则确定标注文本数据质检不合格,对质检不合格的标注文本数据进行人工质检,若人工质检合格,则对质检合格的标注文本数据对应的音频文本对数据进行音频属性质检,若人工质检不合格,则将质检不合格的标注文本数据对应的音频文本对数据确定为质检不合格数据; 所述步骤S2中,按以下方式利用预先训练好的文本属性置信度模型,计算出标注文本数据的标注文本属性的置信度得分,包括: 提取标注文本数据的文本置信度特征,作为预先训练好的文本属性置信度模型的输入,通过所述文本属性置信度模型计算得出输入文本置信度特征对应的置信度得分; 提取的标注文本数据的文本置信度特征是:将获取的标注文本的领域信息特征、标注文本的词汇信息特征、标注文本的句式结构特征和标注文本的敏感词特征进行拼接构成文本置信度特征;其中, 所述标注文本的领域信息特征按以下公式计算得出,公式为: ,; 其中,N是质检的所有标注文本涉及的领域的总个数,领域的总个数由语言专家人工确定;是预先训练好的领域分类模型预测的标注文本属于第i个领域的概率,所述领域分类模型是基于文本领域训练集数据,通过LSTM或者BERT神经网络构建的分类模型;是第i个领域的标注文本在训练集上统计得到的标注准确性的难度系数,用已采集领域的文本数据量与全部文本训练集总量的占比表示;是所述领域分类模型的Softmax函数之前的隐层向量,表征不同领域的信息特征; 所述标注文本的词汇信息特征按以下公式计算得出,公式为: ; 其中,N表示标注文本的句子中词的个数;表示标注文本对应语种文本训练集中词汇的最高词频;表示标注文本的句子中第i个词的词频;表示本土化词汇列表的总词数;表示标注文本中命中本土化词汇表中的词频总和;和是超参数,在文本属性置信度模型训练过程中通过参数调整确定具体的值; 所述标注文本的句式结构特征按以下公式计算得出,公式为: ; 其中,和分别表示标注文本的句子的句法分析树和语义依存树的深度;和分别表示标注文本的句子的句法分析树和语义依存树的广度;和分别表示标注文本的句子的句法分析树和语义依存树中不同节点标签的个数;和是超参数,在文本属性置信度模型训练过程中通过参数调整确定具体的值; 所述标注文本的敏感词特征按以下公式计算得出,公式为: ; 其中,f是预先训练好的敏感词分类模型的输出层之前的隐层向量特征,表示标注文本的敏感词的概率预测结果;所述敏感词分类模型基于采集的敏感词文本的训练数据训练NLP模型得到,NLP模型采用常用的BERT模型结构;为标注文本中每个词的embedding表达;为命名实体识别预测的标注文本中每个词的词性特征; 采用基于转移的语法分析算法构建标注文本的句子的句法分析树和语义依存树; 能判断句式重复率的标注文本的句式结构特征按以下公式计算得出,公式为: ; 其中,N为待质检的数据中标注文本的句式特征聚类后的总聚类个数;是聚类中心的特征表示;是当前聚类中,距离满足预设相近阈值的句子计数总和;表示当前聚类中,所有的句子数总和; 步骤S3,音频属性质检: 提取所述步骤S2质检合格的音频文本对数据对中的音频数据,送入音频属性质检模块,所述音频属性质检模块利用预先训练好的音频属性置信度模型,计算出音频数据的音频属性的音频置信度得分,若音频置信度得分大于预先设定的音频合格阈值,则确定音频数据质检合格,将质检合格的音频数据对应的音频文本对数据进行字音一致性质检;若音频置信度得分小于预先设定的音频合格阈值,则确定音频数据质检不合格,对质检不合格的音频数据进行人工质检,若人工质检合格,则对质检合格的音频数据对应的音频文本对数据进行字音一致性质检,若人工质检不合格,则将质检不合格的音频数据对应的音频文本对数据确定为质检不合格数据; 所述步骤S3中,按以下方式利用预先训练好的音频属性置信度模型,计算出音频数据的音频属性的置信度得分,包括: 提取音频数据的音频置信度特征,作为预先训练好的音频属性置信度模型的输入,通过所述音频属性置信度模型计算得出输入音频置信度特征对应的音频置信度得分; 提取的音频数据的音频置信度特征包括: 音频的口音特征和音频的质量特征;其中, 所述音频的口音特征按以下公式计算得出,公式为: ; 其中,N是数据库中已采集的音频数据所包含的口音的总个数;是预先训练好的分类不同口音的声学分类模型预测的第i种口音的概率,所述声学分类模型是基于采集并标注不同口音的训练数据训练NN神经网络模型获得,NN神经网络模型采用cnn模型、transformer模型、conformer模型中的任一种;是第i种口音在分类不同口音的声学分类模型的训练集上统计得到的每种口音的难度系数,用数据库中已采集的音频数据量与全部音频训练集总量的占比表示; 所述音频的质量特征按以下公式计算得出,公式为: ; 其中,表示音频质量分类模型输出层之前的隐层向量特征;所述音频质量分类模型,用于进行音频质量的特征建模,该音频质量分类模型结构复用ASR识别相关的cnn、transformer或者conformer模型中的任一种,通过预先构建质量不达标的音频数据进行语音质量分类模型的训练,质量不达标音频数据包括前后截断、发音人喷麦、背景噪声过大、口吃、结巴的音频数据;x表示音频数据的输入特征,为滤波器组特征、梅尔频率倒谱系数特征、感知线性预测特征中的任一种; 步骤S4,字音一致性质检: 将所述步骤S3质检合格的音频文本对数据送入字音一致性质检模块,所述字音一致性质检模块利用预先训练好的语音识别置信度模型,计算出音频文本对数据的音频和文本一致性对齐关系的字音一致性置信度得分,通过字音一致性置信度得分,若字音一致性置信度得分大于预先设定的字音一致性合格阈值,则确定音频文本对数据质检合格,若字音一致性置信度得分小于预先设定的字音一致性合格阈值,则确定音频文本对数据质检不合格,将质检不合格的音频文本对数据的音频和文本一致性对齐关系进行人工质检,若人工质检合格,则确定音频文本对数据质检合格,若人工质检不合格,则将质检不合格的音频文本对数据确定为质检不合格数据; 所述步骤S4中,按以下方式利用预先训练好的语音识别置信度模型,计算出音频文本对数据的音频和文本一致性对齐关系的对齐置信度得分,包括: 提取所述步骤S3质检合格的音频文本对数据的音频数据的音频特征,作为预先训练好的语音识别置信度模型的输入,通过所述语音识别置信度模型计算得出的音频文本对数据的音频和文本一致性对齐关系的对齐置信度得分; 将提取的音频特征和对应的标注文本作为输入,通过已有的语音识别基线系统抽取得到对应的语音识别信息,所述语音识别信息包括:每个词的声学模型得分、语言模型得分、后验概率得分和每个词的持续时间; 将得到的每个词的声学模型得分、语言模型得分、后验概率得分和每个词的持续时间作为语音识别置信度模型的输入,每个词是否标注正确作为输出,每个词是否标注正确的输出经过softmax函数处理后得出对应的字音一致性的置信度得分。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励