中国科学技术大学朱进获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种适应多环境任务的无人机强化学习训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116151365B 。
龙图腾网通过国家知识产权局官网在2026-03-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310057840.0,技术领域涉及:G06N3/092;该发明授权一种适应多环境任务的无人机强化学习训练方法是由朱进;王璇;杜春晖设计研发完成,并于2023-01-19向国家知识产权局提交的专利申请。
本一种适应多环境任务的无人机强化学习训练方法在说明书摘要公布了:本发明涉及一种适应多环境任务的无人机强化学习训练方法。首先,设定伯努利分布参数p,初始化训练环境集Λtrain、重放环境集Λseen、全局环境分数S、全局环境时间戳C、全局回合计数值c、无人机策略π和经验池其次,根据p生成随机参数d∈{0,1}并结合训练环境集Λtrain中是否存在未交互环境进行判断:若d=0且Λtrain存在未交互的环境,则随机采样Λtrain中的新环境作为交互环境li;否则,计算重放分布Preplay,采样重放分布Preplay得到交互环境li。然后,无人机与交互环境li交互一个回合,并更新li的环境分数Si、环境时间戳Ci以及经验池最后,从经验池中采样,通过任意合适的强化学习算法更新策略π。采用本方法对无人机进行训练,既可以有效提高无人机策略对环境的泛化性,又能增强无人机在未知环境中的快速适应能力。
本发明授权一种适应多环境任务的无人机强化学习训练方法在权利要求书中公布了:1.一种适应多环境任务的无人机强化学习训练方法,其特征在于,包括: 步骤S1:设定伯努利分布参数,初始化训练环境集、重放环境集、全局环境分数、全局环境时间戳、全局回合计数值、无人机交互策略和经验池; 步骤S2:根据伯努利分布参数,生成随机参数或; 若且,从训练环境集中所有未交互过的环境中随机采样环境作为交互环境,并将添加到重放环境集中;初始化新环境的的环境分数和环境时间戳; 若或,计算重放环境集的重放分布,根据重放分布从重放环境集中采样得到环境作为交互环境; 步骤S3:无人机与交互环境交互一个完整回合后,更新所交互环境的环境分数、环境时间戳以及经验池; 步骤S4:对经验池进行采样,根据采样得到的经验样本,使用强化学习算法更新无人机交互策略,重复步骤S2-S4,直至训练完成,得到适应多环境任务的无人机策略; 步骤S2:具体实现为: 判断: 若且,执行步骤S21-S23: S21:从训练环境集里未交互的环境中随机采样一个新的交互环境: ,其中定义为交互环境的索引值; S22:将新的交互环境存入到重放环境集中; S23:初始化的环境分数,环境时间戳并保存到全局环境分数和全局环境时间戳中;更新全局回合计数值; 若或,执行步骤S24-S29: S24:根据无人机交互策略与重放环境集的所有环境最近一次的交互轨迹,计算中每个环境分数,如式1所示: 1 其中,为轨迹的总时间步,超参数为奖励折扣因子,是一个GAE表达式,是强化学习领域通用的策略梯度估计公式,超参数控制GAE的方差和偏差均衡,为时间步时的1步TD误差,如式2所示: 2 其中,为第时间步的即时奖励,和分别为状态和状态的状态价值; S25:使用优先级函数对环境分数即全局环境分数里面的每个元素进行处理,如式3所示: 3 全局环境分数是个数组,里面存放了重放环境集中所有环境的分数,其中是环境分数在全局环境分数中按降序排序的排名; S26:归一化优先级函数,得到环境的优先分布,如式4所示: 4 其中为调整分布的温度参数; S27:根据全局回合计数值和全局环境时间戳得到环境的陈旧优先分布,如式5所示: 5 S28:根据和,计算重放环境的重放分布,如式6所示: 6 其中,为超参数,取值范围为; S29:采样重放分布,得到交互环境;更新全局回合计数值,加1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励