Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 广东超腾信息科技有限公司王宇森获国家专利权

广东超腾信息科技有限公司王宇森获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉广东超腾信息科技有限公司申请的专利一种基于大模型的实时语音交互方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120853551B

龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511136462.0,技术领域涉及:G10L15/18;该发明授权一种基于大模型的实时语音交互方法及系统是由王宇森设计研发完成,并于2025-08-14向国家知识产权局提交的专利申请。

一种基于大模型的实时语音交互方法及系统在说明书摘要公布了:本发明提供一种基于大模型的实时语音交互方法及系统,采集用户的多轮历史对话数据,能够对上下文进行深度理解,根据历史对话内容演进调整后续的策略。通过动态上下文的精准构建和大模型的强大语义理解能力,系统能更好地理解用户意图和对话逻辑,生成的回复更符合人类语言习惯,大幅提升了交互自然度。基于强化学习算法和人类反馈对大模型的智能决策进行优化,使得大模型能在实时交互中不断学习,根据用户反馈和对话进展调整回复策略,提高回复的相关性、连贯性和用户满意度。通过设置打断机制,在实时语音交互过程中,能够有效处理用户的打断意图,保证了实时语音交互的有效性,以此提高实时语音交互的准确性与流畅性。

本发明授权一种基于大模型的实时语音交互方法及系统在权利要求书中公布了:1.一种基于大模型的实时语音交互方法,其特征在于,包括以下步骤: S1:获取用户的历史对话数据进行预处理,所述对话数据包括语音数据、文本数据、以及对应的转录和交互数据; S2:对预处理后的数据提取音频特征,所述音频特征包括MFCC特征和韵律特征,并输入到ASR模型中转换为文本流数据,基于文本流数据构建动态上下文,所述动态上下文包括对话历史、当前对话的场景信息、用户画像信息和ASR模型的置信度; S3:基于构建的动态上下文,结合预先配置的参数加载大模型进行微调训练,基于强化学习算法和人类反馈对大模型的智能决策进行优化; S4:根据当前场景中用户语音数据构建的动态上下文,结合用户对话进展实时更新的大模型参数,生成最新的回复文本,并基于TTS模型合成语音,设置打断机制判断播放时机进行语音的实时交互; 步骤S2中,所述ASR模型为基于Transformer架构的端到端模型,将MFCC特征和韵律特征的融合特征序列输入到ASR模型中,ASR模型通过对融合特征序列进行时序建模和声学建模,将其转换为对应的文本流数据; 步骤S2中,设计动态上下文更新机制,实时更新各字段内容: 对于对话历史字段,将处理后的用户文本流和系统回复添加到对话历史中,并标记对应的时间戳,形成用户输入-系统输出的时序记录; 对于场景信息字段,根据从文本流中提取的场景切换关键词,结合预设的场景识别规则更新场景标签,并同步从预先构建的知识库中加载新场景对应的业务知识,若未检测到场景切换,保持当前场景信息不变,根据对话进展补充场景相关的实时业务知识,所述知识库包括但不限于关系型数据库、文档型数据库和向量数据库; 对于用户画像字段,将从文本流中提取的新用户属性信息添加到用户画像信息字段中,若与已有的用户信息冲突,通过预设规则处理; 对于ASR模型置信度字段,将ASR模型输出的当前文本流对应的置信度记录到该字段中,便于后续系统根据置信度高低采取不同策略; 步骤S2中,基于滑动窗口机制管理对话历史长度,当对话轮次较多导致历史记录过长时,保留最近的N轮关键对话内容,删除早期冗余信息,确保上下文信息在大模型的输入长度限制内,过滤场景信息和用户画像信息中的无效内容,在每轮对话结束后,对动态上下文的完整性和一致性进行校验; S3的执行过程,包括以下步骤: 构建训练样本,所述训练样本包括动态上下文样本和人类反馈数据样本,所述反馈数据样本为排序数据、评分数据和修正数据; 以动态上下文为核心,待优化的大模型作为智能体,定义强化学习框架的要素,所述要素包括状态、动作和环境,并设计多维度奖励函数,包括相关性奖励、连贯性奖励、任务完成度奖励、用户满意度奖励和ASR置信度关联奖励; 选择大模型加载预设参数作为初始策略模型,以动态上下文-理想回复作为训练数据,对初始策略模型进行微调监督训练; 以人类反馈数据样本为训练样本,训练用于评估回复质量的奖励模型,输出为奖励值; 以初始策略模型为基础,结合强化学习输出的奖励与奖励模型输出的奖励作为奖励信号,通过PPO算法迭代优化策略模型,使其生成的回复更符合动态上下文需求及人类偏好; 在实时语音交互的过程中设置打断机制,包括以下步骤: 在播放语音时,并行开启ASR识别,结合VAD实时检测用户的语音活动,以判断用户是否存在打断意图; 若检测到用户存在打断意图,则立即停止当前TTS语音的播放,并执行以下策略: a.保存未播放的回复文本,并生成简单响应; b.基于用户的打断内容,重新生成一个整合了未播放内容和用户新意图的回复; c.忽略未播放内容,直接响应用户的打断内容; 若未检测到用户存在打断意图,则待当前TTS语音播放完毕后,自动开启ASR,等待用户的下一轮输入。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东超腾信息科技有限公司,其通讯地址为:510623 广东省广州市天河区黄埔大道西100号之二2406室(仅限办公);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。