当前位置 : 首页 > 专利喜报 > 中国科学院声学研究所郝程鹏获国家专利权

中国科学院声学研究所郝程鹏获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国科学院声学研究所申请的专利基于深度强化学习的AUV船体归坞方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120745739B 。

龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510750167.8，技术领域涉及：G06N3/092；该发明授权基于深度强化学习的AUV船体归坞方法是由郝程鹏;庞舟岐;林晓波设计研发完成，并于2025-06-06向国家知识产权局提交的专利申请。

本基于深度强化学习的AUV船体归坞方法在说明书摘要公布了：本发明公开了一种基于深度强化学习的AUV船体归坞方法，包括：s1：实时采集当前状态st，利用当前的参数化策略网络采样动作at，将at的概率密度值记为pat；s2：将at代入动力学方程，计算出下一时刻状态st+1和奖励函数rt，组成元组存入经验池；s3：当经验池中元组数量满足条件转s4，否则转s1；s4：将经验池中的st，st+1输入到状态价值网络得到函数值，并计算优势函数，从经验池中采样bs个元组，利用时序差分误差对状态价值网络的参数进行梯度下降，实现策略评估；s5：从经验池中采样bs个元组，引入回滚机制对策略网络的参数进行梯度下降，实现策略改进；s6：AUV满足终止条件结束，否则转s1。

本发明授权基于深度强化学习的AUV船体归坞方法在权利要求书中公布了：1.一种基于深度强化学习的AUV船体归坞方法，包括：步骤1：基于声纳和自身惯导信息实时采集AUV当前的状态，利用当前的参数化策略网络采样动作，并将在策略分布中对应的概率密度值记为；步骤2：将动作代入到AUV动力学方程，并结合船坞状态计算出下一时刻的状态和奖励函数，将元组存入经验池；所述奖励函数为：；其中，表示实时奖励，表示终端奖励，表示基于角度的惩罚项；；其中，为两个超参数，用于控制实时奖励的大小；为上一个更新时刻AUV和船坞之间的距离；为当前时刻AUV和船坞之间的距离；；其中，为奖励函数的超参数，为当AUV到达船坞时其姿态和期望姿态的差值；为m的最大值，为一常数，表征不同的终端情况：；；；其中，，，分别为距离阈值、俯仰角阈值以及航向角阈值；；其中，和分别为上一时刻AUV的航向角以及当前时刻AUV的航向角，和分别为上一时刻AUV的俯仰角和当前时刻AUV的俯仰角；步骤3：当经验池中元组数量满足参数更新条件时，执行步骤4，否则，转至步骤1；步骤4：将经验池元组数据中的当前状态，下一时刻状态输入到状态价值网络得到状态价值函数值，并利用其计算优势函数，从经验池中采样个元组，利用时序差分误差对状态价值网络的参数进行梯度下降，实现策略评估；步骤5：再从经验池中采样个元组，引入回滚机制对策略网络的参数进行梯度下降，实现策略改进；步骤6：当AUV满足终止条件，结束，否则，转至步骤1。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国科学院声学研究所，其通讯地址为：100190 北京市海淀区北四环西路21号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

中国科学院声学研究所郝程鹏获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务