中国人民解放军国防科技大学许凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利智能体学习训练方法、装置、计算机设备和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121390197B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511967618.X,技术领域涉及:G06N3/092;该发明授权智能体学习训练方法、装置、计算机设备和存储介质是由许凯;倪雨;秦龙;曾俊杰;胡越;黄鹤松;曾云秀;尹路珈;康夏涛;李亦韩设计研发完成,并于2025-12-24向国家知识产权局提交的专利申请。
本智能体学习训练方法、装置、计算机设备和存储介质在说明书摘要公布了:本申请涉及智能体学习训练方法、装置、计算机设备和存储介质,该方法包括:采用LLM模型将高层的意图转换为可执行代码,得到克隆数据集,将智能驾驶场景构建为马尔科夫决策过程并构建指令空间;构建智能体策略模型;将训练目标解耦为行为克隆和强化学习的目标并进行加权求和,根据最终训练目标对智能体进行训练,通过从克隆数据集采样,对智能体策略模型参数进行更新,然后从环境交互轨迹中采样,采用PPO方式对智能体策略模型参数进行更新。由于高层意图‑指令‑策略的链路更接近人类可理解的决策层级,便于对智能体行为进行调试、审计与回溯,从工程落地角度提升可维护性,并为后续接入安全护栏、形式化约束或规则校验提供更清晰的接口。
本发明授权智能体学习训练方法、装置、计算机设备和存储介质在权利要求书中公布了:1.一种智能体学习训练方法,其特征在于,所述智能体是自动驾驶系统,将实时感知的环境数据和交互信息输入到训练好的智能体中,实现车辆的自动驾驶;所述智能体学习训练方法包括: 基于DIFY平台采用LLM模型将驾驶员的意图转换为可执行代码,得到人类示范轨迹;将人类示范轨迹作为克隆数据集,也作为强化学习的输出策略;所述意图表达方式为自然语言指令动作; 将智能驾驶场景构建为一个马尔科夫决策过程,所述马尔科夫决策过程包括状态空间、动作空间、状态转移概率、初始状态分布、奖励函数、折扣因子以及最大时间步; 根据所述状态空间、指令空间以及所述动作空间,构建智能体策略模型;所述指令空间中每个语言指令对应高层意图或低级操作指令; 将目标解耦为行为克隆目标和强化学习目标,并进行加权求和,得到最终训练目标;其中,所述最终训练目标为: 其中,为最终训练目标,为动态权重因子,为根据语言指令的服从性建模的行为克隆损失,为强化学习过程的损失,为模型参数; 所述动态权重因子为: 其中,是Sigmoid函数,控制灵敏度,为状态情况下RL阶段采取的策略,为状态情况下BC阶段采取的策略,KL表示KL正则化处理; 根据所述最终训练目标对智能体策略模型进行多轮训练,得到训练好的智能体;其中,在每轮训练过程中先根据克隆数据集进行BC阶段的学习,然后根据环境交互轨迹采用PPO近端策略优化。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励