Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院自动化研究所丘腾海获国家专利权

中国科学院自动化研究所丘腾海获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院自动化研究所申请的专利面向多任务的智能体训练方法和决策方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119988988B

龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510477428.3,技术领域涉及:G06F18/214;该发明授权面向多任务的智能体训练方法和决策方法及装置是由丘腾海;冯锦元;蒲志强;孙晓强;赵于前设计研发完成,并于2025-04-16向国家知识产权局提交的专利申请。

面向多任务的智能体训练方法和决策方法及装置在说明书摘要公布了:公开了一种面向多任务的智能体训练方法和决策方法及装置,训练方法包括:将训练样本中初始任务状态输入混合编码器获取预估任务特征;将预估任务特征输入共享策略网络生成预估初步动作;将预估任务特征和预估初步动作输入动作校正策略网络生成预估校正动作;将预估初步动作和预估校正动作输入动作校正模块得到预估下一步动作;执行预估下一步动作获取预估下一任务状态;基于初始任务状态、预估下一任务状态和目标任务状态确定稀疏奖励和密集奖励;将预估下一任务状态作为初始任务状态并返回获取预估任务特征步骤,直至完成训练样本中任务;基于每个训练样本所有稀疏奖励、所有密集奖励,更新共享策略网络、动作校正策略网络和混合编码器的参数。

本发明授权面向多任务的智能体训练方法和决策方法及装置在权利要求书中公布了:1.一种面向多任务的智能体训练方法,其特征在于,所述智能体包括混合编码器、共享策略网络、动作校正策略网络和动作校正模块,所述训练方法包括: 获取一个轮次的训练样本集,其中,所述训练样本集中的每个训练样本包含一个任务的初始任务状态和目标任务状态; 对所述训练样本集中的每个训练样本,执行如下处理: 将训练样本中的初始任务状态输入所述混合编码器,获取预估任务特征; 将所述预估任务特征输入所述共享策略网络,生成针对所述初始任务状态的预估初步动作; 将所述预估任务特征和所述预估初步动作输入所述动作校正策略网络,生成针对所述初始任务状态的预估校正动作; 将所述预估初步动作和所述预估校正动作输入所述动作校正模块,得到所述针对所述初始任务状态的预估下一步动作; 执行所述预估下一步动作,获取所述训练样本中的任务的预估下一任务状态; 基于所述预估下一任务状态和所述目标任务状态,确定稀疏奖励; 基于所述初始任务状态、所述预估下一任务状态和所述目标任务状态,确定密集奖励; 将所述预估下一任务状态作为所述初始任务状态并返回获取预估任务特征的步骤,直至完成所述训练样本中的任务; 响应于所有训练样本均执行完上述处理,基于所有稀疏奖励、所有密集奖励,更新所述共享策略网络、所述动作校正策略网络和所述混合编码器的参数; 其中,所述智能体应用于无人车、无人机或人形机器人, 在所述智能体应用在人形机器人时,所述任务包括控制所述人形机器人的机械手到达目标地点,拿取目标物体或投送目标物体,或者,控制所述人形机器人的机械手打开抽屉; 在所述智能体应用于无人机时,所述任务包括控制所述无人机向目标地点投递物资,或者,控制所述无人机排列固定队形; 在所述智能体应用于无人车时,所述任务包括控制所述无人车载物资去往目标地点。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院自动化研究所,其通讯地址为:100190 北京市海淀区中关村东路95号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。