Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 乒乓动量机器人(昆山)有限公司季云峰获国家专利权

乒乓动量机器人(昆山)有限公司季云峰获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉乒乓动量机器人(昆山)有限公司申请的专利基于阶段奖励的端到端机器人强化学习击球策略实现方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115946137B

龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211639730.7,技术领域涉及:B25J11/00;该发明授权基于阶段奖励的端到端机器人强化学习击球策略实现方法是由季云峰;胡晓屹;毛越设计研发完成,并于2022-12-20向国家知识产权局提交的专利申请。

基于阶段奖励的端到端机器人强化学习击球策略实现方法在说明书摘要公布了:本发明公开了一种基于阶段奖励的端到端机器人强化学习击球策略实现方法,该方法将实现机器人击球任务的学习划分为了三个阶段,依次为上述接球训练、打球训练以及目标点击打训练,通过设置每个阶段的训练目标与学习任务奖励,可以依次完成能接到球、能将球回给对手侧并成功过网、以及使乒乓球落到对手台面区域,层层递进地完成击球策略模型的构建。本发明提出了单个端到端的策略系统即可实现的乒乓球机器人强化学习,这种方法相比于多系统协调的方案将具有更低的系统延迟以及更高的鲁棒性;本发明提出了轨迹状态的定义,以及分阶段的强化学习奖励函数的设置,这种做法可以保证机器人能学会复杂的打乒乓球任务,从而更好的与人进行互动。

本发明授权基于阶段奖励的端到端机器人强化学习击球策略实现方法在权利要求书中公布了:1.基于阶段奖励的端到端机器人强化学习击球策略实现方法,其特征在于,所述方法包括: 获取机器人的状态信息与乒乓球的状态信息作为强化学习的观察项; 基于第一阶段的训练目标以及学习任务奖励进行接球训练的强化学习,得到第一预训练模型;其中,所述第一阶段的训练目标为使球拍与球接触; 基于所述第一预训练模型、第二阶段的训练目标以及学习任务奖励进行打球训练的强化学习,得到第二预训练模型;其中,所述第二阶段的训练目标为球拍击出的球朝向对手桌面且乒乓球可以飞过网; 基于所述第二预训练模型、第三阶段的训练目标以及学习任务奖励,进行目标点击打训练的强化学习,得到输出结果,所述输出结果包括机器人各关节的关节参数,所述关节参数包括关节位置与关节速度;其中,所述第三阶段的训练目标为机器人打回的乒乓球的落点处于预设目标区域内; 所述第一阶段的学习任务奖励为: ; 所述第二阶段的学习任务奖励为: ; 所述第三阶段的学习任务奖励为: ; 其中:τs为轨迹状态,τs=0、1、2、3分别代表对手发球轨迹、机器人接球轨迹、机器人反击轨迹以及对手接球轨迹;τ代表轨迹状态τs的改变,(τ:0→1)、(τ:1→2)、(τ:2→3)分别代表乒乓球在机器人所在侧台面上发生碰撞的时刻、机器人的球拍成功接到乒乓球的时刻、机器人成功把球打到对手台面上的时刻; r为稀疏奖励,d为连续奖励; rrab为机器人本体躲避乒乓球奖励,其仅在τs=0时需考虑;drb为球拍和球的距离奖励; rrhb为机器人打中球的奖励;vrhb_x为机器人打中球时朝向对手桌面的拍速; rrho为机器人把球击打至对手面的奖励;rdlt为机器人将球打中至对手桌面时,球的落点与目标点的距离。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人乒乓动量机器人(昆山)有限公司,其通讯地址为:215300 江苏省苏州市玉山镇祖冲之南路1699号综合楼北楼辅楼1-007号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。