西北工业大学黄攀峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种利用失败数据提升性能的模仿学习训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116011557B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310000084.8,技术领域涉及:G06N3/094;该发明授权一种利用失败数据提升性能的模仿学习训练方法是由黄攀峰;武曦;马志强;刘正雄;常海涛;刘星设计研发完成,并于2023-01-01向国家知识产权局提交的专利申请。
本一种利用失败数据提升性能的模仿学习训练方法在说明书摘要公布了:本发明公开了一种利用失败数据提升性能的模仿学习训练方法,首先收集专家演示轨迹,然后对部分专家演示轨迹做成功与否的标记,接下来根据已标签数据训练鉴别器,最后进行生成对抗模仿学习以获得目标策略。本发明可以获得比专家演示平均成功率更高的控制策略。
本发明授权一种利用失败数据提升性能的模仿学习训练方法在权利要求书中公布了:1.一种利用失败数据提升性能的模仿学习训练方法,其特征在于,包括以下步骤: 步骤1:收集专家演示轨迹; 根据问题模型设计状态和动作;定义为当前状态,为当前动作,为下一时刻状态,将定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹,进行训练之前需要收集专家演示轨迹;其中,当前状态为机械臂当前关节角,当前动作为机械臂位移; 步骤2:对部分专家演示轨迹做成功与否的标记; 将步骤1所获得的所有专家演示轨迹归入专家演示区;根据具体演示轨迹是否成功完成任务,将轨迹中所有点加上标记:当轨迹成功完成任务时,加入的标记;当轨迹没有成功完成任务时,加入的标记; 专家演示区的数据根据是否加入标记分为有标记的专家演示和没有标记的专家演示; 步骤3:根据已标签数据训练鉴别器; 用一个关于参数的神经网络构建鉴别器,以帮助判断未标记数据是否符合成功标准;使用步骤2中得到的有标记的专家演示,最小化如下损失函数: 其中状态-动作对从有标记的专家演示中采样获得,为第个状态-动作对是否属于成功轨迹的标签,为有标记的专家演示中的轨迹数量,为鉴别器的参数; 步骤4:进行生成对抗模仿学习以获得目标策略; 所述生成性对抗模仿学习包括鉴别器和生成器; 生成器由关于参数的神经网络构成,根据输入状态生成对应动作,可得到生成样本;鉴别器由关于参数的神经网络构成,试图区分状态-动作对是来自专家还是来自经过训练的策略;生成器与鉴别器在训练时交替更新,互相对抗,可以实现互相提升的效果; 生成器的参数通过下式更新: 其中,代表关于参数的鉴别器;代表生成策略的分布,使用中即代表从生成器生成的样本集中采样;代表的对数值;代表从生成数据中采样时的期望值;代表取最小值时的值; 鉴别器的参数通过下式更新: 其中,代表专家策略的分布,使用中即代表从专家演示中采样;代表的对数值;代表从生成数据中采样时的期望值;代表从专家演示中采样时的期望值;代表取最大值时的取值; 同时,生成器的参数更新等同于将作为奖励进行强化学习,循环若干次之后生成器网络所代表的策略即为最终所得目标策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市友谊西路;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。