Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆大学胡春强获国家专利权

重庆大学胡春强获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆大学申请的专利一种基于流匹配与动态奖励调度的模仿学习方法以及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120874953B

龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511011656.8,技术领域涉及:G06N3/092;该发明授权一种基于流匹配与动态奖励调度的模仿学习方法以及装置是由胡春强;丁令超;吴昊;陈芋文;蒲誉文;蔡斌设计研发完成,并于2025-07-22向国家知识产权局提交的专利申请。

一种基于流匹配与动态奖励调度的模仿学习方法以及装置在说明书摘要公布了:本发明涉及深度学习技术,揭露了一种基于流匹配与动态奖励调度的模仿学习方法,包括:获取专家演示轨迹,并利用流匹配模型提取专家演示轨迹中专家特征序列;获取智能体策略网络执行任务的策略状态序列并转换为策略特征;利用专家特征序列和策略特征构造奖励函数;计算奖励结果并优化智能体策略网络中值函数网络;根据优化后的值函数网络优化智能体策略网络后采样当前策略的动作序列;根据动作序列生成轨迹片段,并将轨迹片段作为训练样本迭代优化智能体策略网络,迭代优化完成后得到目标智能体策略网络。本发明还提出一种基于流匹配与动态奖励调度的模仿学习装置、设备及存储介质。本发明可以提高模仿学习中状态建模效率以及奖励结构的稳定性。

本发明授权一种基于流匹配与动态奖励调度的模仿学习方法以及装置在权利要求书中公布了:1.一种基于流匹配与动态奖励调度的模仿学习方法,其特征在于,所述方法包括: 获取专家演示轨迹,并利用流匹配模型提取专家演示轨迹中的每个专家状态的动态特征,整合每个专家状态的动态特征得到专家特征序列; 获取智能体策略网络执行任务的策略状态序列,并利用所述流匹配模型将状态序列转换为策略特征,其中,环境状态包括自动驾驶场景中车辆的位置、速度、航向角、加速度以及转向角的传感器原始数据,其智能体策略网络是SoftActor-Critic网络,智能体策略网络中策略为车辆自动驾驶场景下选择动作的规则,动作是车辆接下来在自动驾驶场景下的具体路径规划,奖励是给当前动作奖励是自动驾驶场景下动作的即时反馈的标量信号,其策略状态序列是指在智能驾驶场景下融合车辆位置速度、交通规则、车辆行驶历史轨迹以及路径规划的多维度规则的集合; 根据智能体策略网络所处的训练阶段,利用专家特征序列和策略特征构造奖励函数,其中,所述根据智能体策略网络所处的训练阶段,利用专家特征序列和策略特征构造奖励函数,包括: 识别训练阶段的所处阶段,其中,所处阶段包括初期阶段、中期阶段及后期阶段; 在初期阶段时,利用余弦调度函数和赋予第一权重的均方误差函数构建第一奖励函数; 在中期阶段,利用均方误差构建第二奖励函数; 在后期阶段,利用样本对比损失函数和赋予第二权重的均方误差函数构建第三奖励函数; 根据训练阶段的所处阶段,利用第一奖励函数计算初期阶段的奖励值,利用第二奖励函数计算中期阶段的奖励值以及利用第三奖励函数计算后期阶段的奖励值; 根据奖励函数计算奖励结果,并利用奖励结果优化智能体策略网络中值函数网络; 根据优化后的值函数网络优化智能体策略网络,并从优化后的智能体策略网络中采样当前策略的动作序列,其中,动作序列是指自动驾驶系统在连续决策过程中生成的底层控制指令序列; 根据动作序列生成轨迹片段,并将轨迹片段作为训练样本迭代优化智能体策略网络,迭代优化完成后得到目标智能体策略网络。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆大学,其通讯地址为:400030 重庆市沙坪坝区沙正街174号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。