飞狐信息技术(天津)有限公司赵子厚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉飞狐信息技术(天津)有限公司申请的专利一种直播字幕生成方法及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119865669B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510357222.7,技术领域涉及:H04N21/488;该发明授权一种直播字幕生成方法及相关装置是由赵子厚;杨松;杨波设计研发完成,并于2025-03-25向国家知识产权局提交的专利申请。
本一种直播字幕生成方法及相关装置在说明书摘要公布了:本发明公开了一种直播字幕生成方法及相关装置,涉及直播领域,包括:获取直播音频流数据,并进行流式语音识别得到流式字幕文本,基于音频短时能量和语音活动检测置信度对直播音频流数据切分得到多个音频分块,并进行离线语音识别得到离线字幕文本,将流式字幕文本和离线字幕文本进行时间戳对齐得到目标流式字幕文本和目标离线字幕文本,利用目标离线字幕文本对目标流式字幕文本进行校正得到直播字幕。本申请先利用流式语音识别技术对直播音频流数据进行初步识别,然后利用离线语音识别得到离线字幕文本对流式语音识别结果进行校正,实现流式识别语音的实时响应与离线高精度校正语音识别结果的协同输出,使直播字幕在实时性和准确率上达到平衡。
本发明授权一种直播字幕生成方法及相关装置在权利要求书中公布了:1.一种直播字幕生成方法,其特征在于,包括: 获取直播音频流数据; 对所述直播音频流数据进行流式语音识别得到流式字幕文本; 基于音频短时能量和语音活动检测置信度对所述直播音频流数据进行切分得到多个音频分块,并对每个所述音频分块进行离线语音识别得到离线字幕文本; 将所述流式字幕文本和所述离线字幕文本进行时间戳对齐,得到目标流式字幕文本和目标离线字幕文本; 利用所述目标离线字幕文本对所述目标流式字幕文本进行校正,得到最终的直播字幕; 其中,基于音频短时能量和语音活动检测置信度对所述直播音频流数据进行切分得到多个音频分块,并对每个所述音频分块进行离线语音识别得到离线字幕文本,包括: 基于所述音频短时能量和所述语音活动检测置信度将所述直播音频流数据切分为多个所述音频分块,每个所述音频分块为:表征语音活跃区域的第一音频分块或是表征多个连续语音不活跃区域合并后得到的第二音频分块; 采用最近最少使用—K次算法的缓存管理策略,将所有的所述第二音频分块中连续相邻的K个所述第二音频分块进行舍弃,得到由剩余的所述第二音频分块和所有的所述第一音频分块构成的音频分块集合; 对所述音频分块集合中的每个音频分块进行离线语音识别,得到所述离线字幕文本; 所述对所述音频分块集合中的每个音频分块进行离线语音识别,得到所述离线字幕文本,包括: 对所述音频分块集合中的每个所述音频分块采用语音活动检测处理方法得到静音概率,其中,静音概率高的音频分块为潜在语音尾点; 确定所述音频分块集合中的每个所述音频分块的梅尔频率倒谱系数MFCC特征之间的余弦相似度,其中,余弦相似度低的音频分块为潜在语音尾点; 对所述音频分块集合中的每个所述音频分块进行基频连续性分析确定是否存在基频突变,其中,存在基频突变的音频分块为潜在语音尾点; 基于所述音频分块集合中每个所述音频分块对应的所述静音概率、所述余弦相似度以及是否存在所述基频突变确定多模态特征综合得分; 针对所述多模态特征综合得分超过特征综合得分阈值的第一目标音频分块,触发离线语音识别模型对所述第一目标音频分块进行离线语音识别,得到对应的离线字幕文本; 针对所述多模态特征综合得分未超过所述特征综合得分阈值的连续累积的n个第二目标音频分块,强制启动所述离线语音识别模型对每个所述第二目标音频分块进行离线语音识别,得到对应的离线字幕文本,n为正整数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人飞狐信息技术(天津)有限公司,其通讯地址为:300280 天津市滨海新区经济技术开发区第一大街79号泰达MSD-C区C3座21层2102单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。