Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 东华大学刘华山获国家专利权

东华大学刘华山获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉东华大学申请的专利一种基于深度强化学习的机器人投掷运动控制方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119283018B

龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411240456.5,技术领域涉及:B25J9/16;该发明授权一种基于深度强化学习的机器人投掷运动控制方法及装置是由刘华山;邢逸飞;王崇;梁浩天;杨景鹏;郑逸鉴;肖新杰设计研发完成,并于2024-09-05向国家知识产权局提交的专利申请。

一种基于深度强化学习的机器人投掷运动控制方法及装置在说明书摘要公布了:本发明涉及一种基于深度强化学习的机器人投掷运动规划方法,包括以下步骤:通过虚拟仿真环境构建机器人投掷任务的数据集;将数据集用于训练神经网络预测投掷物体的落点;基于深度强化学习算法,通过机器人与预测落点的深度神经网络不断试错学习,以获得投掷行为的物理参数;将网络输出投掷行为的物理参数直接部署到实物环境中,进而控制机器人执行实际的投掷任务。本发明通过一个深度神经网络去拟合虚拟仿真环境的投掷行为,避免了强化学习中采用虚拟仿真环境训练时间过长的问题。虚拟仿真环境与实物环境1:1还原,既能避免直接在实物机器人训练的安全问题,能将训练好的模型直接迁移到实物平台上,实现了机器人自主执行投掷任务。

本发明授权一种基于深度强化学习的机器人投掷运动控制方法及装置在权利要求书中公布了:1.一种基于深度强化学习的机器人投掷运动控制方法,其特征在于,包括以下步骤: S1:通过虚拟仿真环境,构建机器人投掷任务的数据集; S2:将所述的数据集训练神经网络预测机器人投掷物体的落点,其中,神经网络的输入为投掷物体的投掷位置和投掷速度,输出为落点位置; S3:基于深度强化学习算法,通过机器人与神经网络拟合的环境不断试错学习,以获得投掷行为的物理参数,具体包括以下步骤: S31:确定投掷任务的参数,包括状态s、动作a和奖励函数r,其中,状态s包括关节角、关节角速度、末端执行器的位置、末端执行器的速度、目标点的位置、位置误差,则一个状态表示为: 其中,[θ1,θ2,θ3,θ4,θ5,θ6]为六个关节角角度值,[w1,w2,w3,w4,w5,w6]为六个关节角角速度,[ex,ey]为目标位置与落点位置的误差;动作包含投掷时的关节角和关节角速度; 一个动作a表示为:at=[θ1,θ2,θ3,θ4,w1,w2,w3,w4]; 奖励函数r取决于位置误差,表示为 S32:初始化阶段,构造四个神经网络,包括在线策略网络μst;θμ、在线价值网络Qs,a;θQ以及目标策略网络和目标价值网络,其中,θμ为在线策略网络的网络参数,θQ为在线价值网络的网络参数;初始化在线策略网络和在线价值网络,将在线策略网络以及在线价值网络的网络参数复制给对应的目标策略网络以及目标价值网络,初始化经验回放池R; S33:经验数据收集阶段,初始化随机过程以进行动作探索,环境初始化获取初始状态值,在线策略网络μst;θμ根据下式选择一个动作: 其中,行为策略是根据当前在线策略网络μst;θμ和随机噪声生成的随机过程,并从该随机过程采样获得动作值at,环境执行产生的动作at,并返回奖励rt和新的状态st+1,智能体将环境的状态转换过程产生的四元组st,at,rt,st+1存储在经验回放池R中,作为在线策略网络的训练数据集; S34:网络训练阶段,智能体从经验回放池R中随机采用N个转换经验样本,作为在线策略网络μst;θμ、在线价值网络Qs,a;θQ的小批量训练样本数据,计算在线价值网络Qs,a;θQ的梯度LθQ,如下式所示: 其中,N为在随机梯度下降更新参数时从经验回放池R中随机抽取历史经验数据的数量,在线价值网络Qs,a;θ的损失函数采用均方误差,y为目标Q值,通过下式计算得到: =r+ρQ′si+1,μ′si+1;θμ′;θQ′ 其中,ρ为折扣因子,是介于[0,1]之间的常数,Q′为更新后的在线价值网络,μ′为更新后的在线策略网络; 用随机梯度下降法更新在线价值网络的网络参数θ和在线策略网络的网络参数θ,策略梯度的公式为: 其中,为价值网络输出价值对动作a的导数,为策略网络输出动作对策略网络θ的导数; 最后使用软更新的方法更新目标策略网络和目标价值网络,如下式所示: 其中,θμ′为更新后的在线策略网络的网络参数,θQ′为更新后的在线价值网络的网络参数,τ为权重; S4:将神经网络输出投掷行为的物理参数直接部署到实物环境中,进而控制机器人执行实际的投掷任务。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东华大学,其通讯地址为:200051 上海市长宁区延安西路1882号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。