Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜恒玄科技(上海)股份有限公司方静宜获国家专利权

恭喜恒玄科技(上海)股份有限公司方静宜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜恒玄科技(上海)股份有限公司申请的专利语音数据集的筛选处理方法、筛选处理装置和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115966201B

龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211730524.7,技术领域涉及:G10L15/02;该发明授权语音数据集的筛选处理方法、筛选处理装置和存储介质是由方静宜;陈锦明;刘英子设计研发完成,并于2022-12-30向国家知识产权局提交的专利申请。

语音数据集的筛选处理方法、筛选处理装置和存储介质在说明书摘要公布了:本申请涉及语音数据集的筛选处理方法、筛选处理装置和存储介质。筛选处理方法包括对各条语音数据,基于时频特征利用关键词检测模型,执行多次的标签预测处理,来确定各次的预测失准次数序列;对多次的预测失准次数序列求平均,来得到平均预测失准次数序列;基于平均预测失准次数序列,来确定预测失准次数阈值;获取平均预测失准次数序列中该条语音数据的平均预测失准次数,与预测失准次数阈值进行比较,如果大于后者则判定为脏语音数据并删除,反之则保留存入清洁语音数据集。如此,通过将平均预测失准次数与预测失准次数阈值进行比较,能够极大地提高筛选出脏语音数据的鲁棒性以及准确性。

本发明授权语音数据集的筛选处理方法、筛选处理装置和存储介质在权利要求书中公布了:1.一种语音数据集的筛选处理方法,筛选处理后的语音数据集用于关键词检测模型的训练,其特征在于,包括如下步骤,由处理器: 获取待筛选处理的原始语音数据集,其中各条语音数据包含语音信号数据及其关键词标签; 基于所述原始语音数据集,确定有效语音数据集; 为所述有效语音数据集中的每条语音数据计算时频特征; 分步执行关键词检测模型的训练和调参,并确定该条语音数据各步的预测失准次数增量,具体包括,对于各步: 抽取所述有效语音数据集中的一组语音数据的时频特征; 基于所抽取的一组语音数据的时频特征及其关键词的标签,执行反向传播算法来调节所述关键词检测模型的参数,从而得到调参后的关键词检测模型; 基于该条语音数据的时频特征,利用调参后的关键词检测模型来预测标签; 将预测标签与对应语音数据的关键词标签进行比较,来确定该步的标签预测是否准确; 如果该步的标签预测错误而上一步的标签预测正确,则预测失准次数增量为1,否则预测失准次数增量为0; 通过为该条语音数据累计各步的预测失准次数增量,得到该次的预测失准次数序列中该条语音数据的预测失准次数,来确定各次的预测失准次数序列,该预测失准次数序列的各个元素按照语音数据顺序排列,且表示对应语音数据在该次的预测失准次数; 对多次的预测失准次数序列求平均,来得到平均预测失准次数序列,该平均预测失准次数序列的各个元素按照语音数据顺序排列,且表示对应语音数据多次的平均预测失准次数; 基于所述平均预测失准次数序列,来确定预测失准次数阈值; 对于每条语音数据执行如下的失准筛选处理,来得到清洁语音数据集以用于关键词检测模型的训练:获取所述平均预测失准次数序列中该条语音数据的平均预测失准次数,与所述预测失准次数阈值进行比较,如果大于后者则判定为脏语音数据并删除,反之则保留存入清洁语音数据集。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人恒玄科技(上海)股份有限公司,其通讯地址为:201306 上海市浦东新区自由贸易试验区临港新片区环湖西二路800号904室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。