苏州元脑智能科技有限公司王鹏飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉苏州元脑智能科技有限公司申请的专利基于语言模型的改进近端策略的优化方法和装置、电子设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120068993B 。
龙图腾网通过国家知识产权局官网在2026-02-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510225050.8,技术领域涉及:G06N3/092;该发明授权基于语言模型的改进近端策略的优化方法和装置、电子设备是由王鹏飞设计研发完成,并于2025-02-27向国家知识产权局提交的专利申请。
本基于语言模型的改进近端策略的优化方法和装置、电子设备在说明书摘要公布了:本申请公开了一种基于语言模型的改进近端策略的优化方法和装置、电子设备,所述方法包括:确定问题数据对应的多个回答,并基于多个回答确定每个回答中单个词汇的第一概率值;基于语言模型中的参考模型确定每个回答中单个词汇的第二概率值,并基于第一概率值和第二概率值确定KL散度;基于语言模型中的奖励模型和目标奖励信号确定每个回答的即时奖励;基于问题数据、回答、第一概率值、即时奖励和KL散度确定目标损失函数,以基于目标损失函数对语言模型的策略模型进行更新。本申请的方法,能够缓解近端策略训练过程中的内存占用问题,减少内存使用,以提高并发,加速回答的生成和训练过程。
本发明授权基于语言模型的改进近端策略的优化方法和装置、电子设备在权利要求书中公布了:1.一种基于语言模型的改进近端策略的优化方法,其特征在于,所述方法包括: 确定问题数据对应的多个回答,并基于所述多个回答确定每个回答中单个词汇的第一概率值; 基于所述语言模型中的参考模型确定每个回答中单个词汇的第二概率值,并基于所述第一概率值和所述第二概率值确定KL散度; 基于所述语言模型中的奖励模型和目标奖励信号确定每个回答的即时奖励; 基于所述问题数据、所述回答、所述第一概率值、所述即时奖励和所述KL散度确定目标损失函数,以基于所述目标损失函数对所述语言模型的策略模型进行更新; 所述基于所述语言模型中的奖励模型和目标奖励信号确定即时奖励,包括: 基于所述奖励模型确定每个回答中单个词汇的第一奖励; 基于所述目标奖励信号确定每个回答的第二奖励; 基于所述第一奖励和第一预设系数的乘积与所述第二奖励和第二预设系数的乘积之和确定所述即时奖励; 所述目标奖励信号包括第一领域的奖励信号和第二领域的奖励信号,其中,所述第一领域为数学领域,所述第二领域为代码领域,所述基于所述目标奖励信号确定每个回答的第二奖励,包括: 在所述问题数据属于所述第一领域的情况下,若从回答中提取的信息包括正确的答案以及计算过程,则确定所述第二奖励为第一预设阈值,若从回答中提取的信息包括正确的答案未包括计算过程,则确定所述第二奖励为第二预设阈值,若从回答中提取的信息未包括正确的答案和计算过程,则确定所述第二奖励为零,其中,所述第一预设阈值大于所述第二预设阈值; 在所述问题数据属于所述第二领域的情况下,若从回答中提取的代码能够使用本地编译器编译并执行通过,则确定所述第二奖励为所述第一预设阈值,若从回答中提取的代码编译失败或执行失败,则确定所述第二奖励为零。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人苏州元脑智能科技有限公司,其通讯地址为:215000 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励