Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 江南大学杨杰龙获国家专利权

江南大学杨杰龙获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉江南大学申请的专利一种基于专家状态学习的机械臂无奖励强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119526382B

龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411417122.0,技术领域涉及:B25J9/16;该发明授权一种基于专家状态学习的机械臂无奖励强化学习方法是由杨杰龙;闫平;黄道缘;钟石峰设计研发完成,并于2024-10-11向国家知识产权局提交的专利申请。

一种基于专家状态学习的机械臂无奖励强化学习方法在说明书摘要公布了:本发明提供一种基于专家状态学习的机械臂无奖励强化学习方法,属于自动化技术领域,特别关注于机器人手臂的操作控制,所述的方法包括两个核心模块:期望状态预测网络和无奖励策略网络。期望状态预测网络用于预测状态转换,而无奖励策略网络在没有奖励信号的情况下,通过期望状态预测网络的预测状态与专家提供的目标状态之间的误差来优化动作;这种方法使机械臂能够直接从专家观测的状态数据中学习有效的抓取策略,既避免了复杂的奖励函数设计,又无需依赖专家动作数据,从而提升了对抓取任务动态特性的理解,增强了动作预测的准确性。

本发明授权一种基于专家状态学习的机械臂无奖励强化学习方法在权利要求书中公布了:1.一种基于专家状态学习的机械臂无奖励强化学习方法,其特征在于:包括, 采集机械臂环境中的状态st、动作at和下一状态st+1数据得到数据集Buffer; 构建适用于在当前状态下执行给定动作后状态变化的期望状态预测网络模型; 所述期望状态预测网络模型包括,状态动作融合网络模块和预测输出网络模块; 所述状态动作融合网络模块包括,状态处理阶段和动作注入阶段; 在建立的期望状态预测网络模型中,训练采集的Buffer数据,得到训练好的权重; 采集专家观测的状态数据,得到Expertbuffer 构建适用于在无奖励无专家动作情况下,预测机械臂动作的无奖励策略网络模型; 根据当前状态st和无奖励策略网络模型预测的动作at通过网络参数冻结的期望状态预测网络模型得到预测的下一状态并得到下一状态与专家目标状态的误差dt,随后采集到通过数据训练无奖励策略网络模型; 所述无奖励策略网络模型包括策略网络,误差网络,目标策略网络和目标误差网络; 所述通过数据训练无奖励策略网络模型包括,初始化策略网络、误差网络、目标策略网络和目标误差网络参数; 对于每一回合,RFSNet将当前状态st作为RFSNet的输入,并通过策略网络输出预测动作: 其中,θμ代表策略网络的参数,μst|θμ代表策略网络输出的动作,代表高斯噪声; 将当前状态st与策略网络得到的动作at放入冻结参数的ESP网络中,得到此时预测的新状态, 其中,f代表网络参数被冻结,将得到的预测的新状态与专家目标状态的负均方误差记为当前回合与目标的误差: 其中,为专家到达目标的最终状态; 通过误差网络计算当前状态-动作对的误差Ewst,at; 通过目标策略网络输出预测下一动作值: at+1=μ′si+1|θμ′ 其中,μ′代表目标策略网络,θμ′代表目标策略网络的参数; 通过目标误差网络得到下一时刻的状态-动作对的误差得到当前状态下的误差, 通过最小化损失值来更新策略网络的参数,网络更新时的损失函数为: 其中,N表示每个周期总步数,i表示该周期内的第i步。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江南大学,其通讯地址为:214000 江苏省无锡市梁溪区通沙路898号南楼七层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。