Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学辛斌获国家专利权

同济大学辛斌获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利基于多智能体分层强化学习的多无人机空战决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115291625B

龙图腾网通过国家知识产权局官网在2025-11-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210831674.0,技术领域涉及:G05D1/695;该发明授权基于多智能体分层强化学习的多无人机空战决策方法是由辛斌;郑逸凡;李莉;焦科名;赵智信设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。

基于多智能体分层强化学习的多无人机空战决策方法在说明书摘要公布了:本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:基于实际多无人机空战场景构建的仿真环境,包括环境约束模型、无人机个体约束模型和对抗影响规则;将多无人机空战问题建模为半马尔可夫博弈模型,单个无人机的决策过程抽象为代表高层和底层策略的两个智能体,分别定义各智能体的状态空间表示、动作、奖励函数和动作终止条件;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机高层和底层策略智能体;完成训练后无人机基于底层策略智能体的策略网络和局部观测进行决策;该方法可实现空战环境下多无人机的自主无人协同决策,无需人类驾驶员介入,具有较好的即时性和鲁棒性。

本发明授权基于多智能体分层强化学习的多无人机空战决策方法在权利要求书中公布了:1.一种基于多智能体分层强化学习的多无人机空战决策方法,其特征在于,所述方法包括:基于实际空战场景构建多无人机协同空战仿真对抗环境; 将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体; 采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体;其中,所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略,所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略; 基于所述底层策略智能体的策略网络和局部观测进行决策; 其中,所述基于实际空战场景构建多无人机协同空战仿真对抗环境,包括: 基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境; 其中,所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体,包括: 采用多智能体分层强化学习方法,将多无人机空战协同决策问题构建为半马尔可夫博弈模型;所述半马尔可夫博弈模型由元组进行描述; 其中,为所有智能体的有限集合,包括代表高层策略智能体的子集和代表底层策略智能体的子集为联合状态空间;为状态转移概率;为联合动作空间;为奖励;为上层决策的n步终止条件; 其中,所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体,包括: 所述高层策略智能体Hi采用双深度Q网络算法训练,神经网络QAs,a|θA和QBs,a|θB根据经验回放池中的样本计算损失函数并反向传播梯度,交替更新网络参数θA和θB;其中,ST和ST+1为向量化的全局状态;和为Hi的奖励和动作; 所述底层策略智能体Li采用多智能体近端策略优化算法训练,Critic神经网络ViS,a1,a2,...,an|θV根据样本计算价值函数的损失并反向传播梯度更新网络参数θV;其中,St和St+1为全局状态;为此时高层策略动作;和为Li的奖励和动作;Actor神经网络πioi|θπ根据样本计算策略函数的损失并反向传播梯度更新网络参数θπ;其中,和为向量化的局部观测; 第一阶段:敌方无人机采用基于专家规则的策略:确定目标后加速至最大速度;确定目标后保持和目标同一高度;采用以下优先级函数确定攻击目标: 其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量和在x-y平面投影的夹角;εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度;ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数;为无人机i的速度向量;为无人机i和无人机j的相对位姿向量; 第二阶段:自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:201804 上海市嘉定区曹安公路4800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。