长春工业大学赵彬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉长春工业大学申请的专利基于示范数据增强的稀疏奖励环境优化学习识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121157051B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511694994.6,技术领域涉及:B25J9/16;该发明授权基于示范数据增强的稀疏奖励环境优化学习识别方法及系统是由赵彬;刘畅;李何为;楚存堡;李晓瑞;庞玉鹏设计研发完成,并于2025-11-19向国家知识产权局提交的专利申请。
本基于示范数据增强的稀疏奖励环境优化学习识别方法及系统在说明书摘要公布了:本发明涉及机械臂优化学习技术领域,公开了基于示范数据增强的稀疏奖励环境优化学习方法及系统,该方法包括:获取机械臂抓取任务的专家示范数据,通过轨迹分段时序插值与状态空间邻域扩展生成增强示范样本,构建示范经验回放缓冲区;搭建含策略网络和值网络的强化学习框架,利用增强示范学习最优抓取策略;设计轻量化协同知识融合模型监测动作变化率,超阈值时输出平滑动作;构建含任务目标与动态约束的奖励函数,融合模型激活时叠加知识融合奖励,实现奖励稀疏性补偿与策略优化。本发明改善了机械臂执行的稳定性与安全性,提升了参数更新的准确性与训练收敛速度。
本发明授权基于示范数据增强的稀疏奖励环境优化学习识别方法及系统在权利要求书中公布了:1.基于示范数据增强的稀疏奖励环境优化学习方法,其特征在于,包括: 获取专家示范数据,所述专家示范数据包含机械臂抓取任务中的状态序列、动作序列以及稀疏奖励信号; 对所述专家示范数据进行增强处理,通过轨迹分段时序插值和状态空间邻域扩展生成增强示范样本,构建示范经验回放缓冲区,所述轨迹分段时序插值将专家示范轨迹按关键决策点分割为多个子轨迹并在子轨迹间生成中间状态-动作对,所述状态空间邻域扩展对示范状态施加小幅度扰动生成邻近状态并推导对应的合理动作; 搭建包括策略网络和值网络的强化学习框架,并基于所述示范经验回放缓冲区生成机械臂关节动作概率分布并学习最优抓取策略; 构建轻量化协同知识融合模型,实时监测机械臂多维连续动作空间的变化情况,通过差分计算动作变化率,当任一维度的动作变化率超过变化阈值时激活所述轻量化协同知识融合模型,由所述轻量化协同知识融合模型替代策略网络输出平滑的关节动作向量; 构建包含机械臂抓取任务目标与动态约束的奖励函数,当轻量化协同知识融合模型激活时进行奖励稀疏性补偿,在基础奖励上叠加知识融合项奖励形成综合奖励信号,并将所述综合奖励信号反馈至策略网络和值网络的参数更新过程; 由所述轻量化协同知识融合模型替代策略网络输出平滑的关节动作向量时,包括: 所述轻量化协同知识融合模型包含可训练的权重矩阵和偏置向量,所述权重矩阵建立状态空间到动作空间的映射关系,所述偏置向量在状态映射上校准动作偏移,使所述轻量化协同知识融合模型在零状态输入时能输出非零动作;所述轻量化协同知识融合模型引入惯性因子,根据历史动作状态生成平滑替代动作;所述轻量化协同知识融合模型的参数优化目标与原始策略保持一致,通过权衡系数平衡当前状态和历史动作状态的影响,采用指数衰减记忆机制保持模型适应性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春工业大学,其通讯地址为:130012 吉林省长春市朝阳区延安大街2055号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励