广东超腾信息科技有限公司王宇森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东超腾信息科技有限公司申请的专利一种具有打断处理功能的低延迟流式语音交互系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120636409B 。
龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511010209.0,技术领域涉及:G10L15/26;该发明授权一种具有打断处理功能的低延迟流式语音交互系统是由王宇森设计研发完成,并于2025-07-22向国家知识产权局提交的专利申请。
本一种具有打断处理功能的低延迟流式语音交互系统在说明书摘要公布了:本发明提供了一种具有打断处理功能的低延迟流式语音交互系统,涉及人工智能的技术领域,本发明通过实时声学处理模块进行必要的预处理和声学特征提取,通过鲁棒性增强技术对抗交互信道引入的失真和复杂环境噪声;流式声学解码模块通过实时并行进行声学建模、语言模型应用和解码,输出超低延迟的文本转写结果流;实时声学处理模块结合信号处理技术负责高精度、超低延迟地检测用户语音活动,尤其是在AI播放语音期间的用户语音活动来判断用户的实时语音活动状态;系统各模块之间以及与通信平台之间采用高效、低延迟的双向流式网络传输方式,确保音频流、声学特征流、文本流和控制信号能够以极低的端到端延迟进行实时传输和处理。
本发明授权一种具有打断处理功能的低延迟流式语音交互系统在权利要求书中公布了:1.一种具有打断处理功能的低延迟流式语音交互系统,其特征在于,包括依次连接的: 语音输入模块,用于采集用户的原始数字音频流,并发送到实时声学处理模块中; 实时声学处理模块,用于对所述原始数字音频流进行预处理和基于深度学习模型进行实时声学特征提取,得到实时声学特征序列流; 流式声学解码模块,用于通过所述实时声学特征序列流构建基于Transducer的因果流式架构声学模型,输出实时文本转写结果流; 语音活动与打断检测模块,用于根据用户的原始数字音频流和系统实时播放的音频信号,判断用户的实时语音活动状态,所述实时语音活动状态包括用户正在说话和用户静音,当所述语音活动与打断检测模块判断用户正在说话时,输出打断事件信号并将所述打断事件信号发送到对话管理模块; 对话管理模块,用于根据所述实时文本转写结果流,结合上下文进行意图识别,理解用户意图;所述对话管理模块在接收到所述打断事件信号时,立即向语音输出模块发送停止指令,强制终止当前语音交互信息的播放; 语音输出模块,用于输出带有时间戳和用户标识的完整通话转写文本,通过音频播放器根据所述完整通话转写文本输出实时交互语音; 所述语音活动与打断检测模块包括实时语音活动检测子模块和打断处理子模块,所述实时语音活动检测子模块用于判断用户音频中是否存在来自用户端输入的语音流;所述打断处理子模块用于输出打断事件信号; 所述语音活动检测子模块包括双输入神经网络模型:所述双输入神经网络模型用于预测用户语音的存在概率,通过抑制或忽略用户音频中与AI参考音频高度相关的成分,只对用户的输入语音做出响应; 所述打断处理子模块输出打断事件信号的逻辑如下: 当系统在播放语音时,所述语音活动与打断检测模块通过高置信检测到用户语音活动时,所述语音活动与打断检测模块立即触发一个优先级极高的打断事件信号,并通过双向流式网络传输发送给对话管理模块,所述打断事件信号的生成延迟小于100毫秒,远快于所述流式声学解码模块输出第一个词所需的时间,确保系统及时做出反应,立即停止输出实时交互语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东超腾信息科技有限公司,其通讯地址为:510623 广东省广州市天河区黄埔大道西100号之二2406室(仅限办公);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励