当前位置 : 首页 > 专利喜报 > 中国科学院大学吕科获国家专利权

中国科学院大学吕科获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国科学院大学申请的专利基于深度强化学习的无人机集群协同作战博弈方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115903903B 。

龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211527865.4，技术领域涉及：G05D1/46；该发明授权基于深度强化学习的无人机集群协同作战博弈方法及系统是由吕科;赵琳;薛健;郭靖;宏晨;向贤财;王泳设计研发完成，并于2022-12-01向国家知识产权局提交的专利申请。

本基于深度强化学习的无人机集群协同作战博弈方法及系统在说明书摘要公布了：本发明涉及一种基于深度强化学习的无人机集群协同作战博弈方法及系统，其包括：构造混合关系多无人机集群决策模型中状态空间、动作空间；将公共物品博弈引入决策模型中，构建引导无人机“搭便车”行为的奖励函数，无人机输出动作后环境依据奖励函数返回对应奖励；设置MADDPG的初始参数及网络结构，对决策模型进行训练，输出策略。本发明融入了公共物品博弈，利用深度强化学习平衡了混合关系中利益冲突问题，混合关系包括了无人机集群与地面防空力量的对抗关系，无人机集群间的合作关系，以及智能集群内部无人机之间的竞争关系。本发明可以在多无人机集群控制领域中应用。

本发明授权基于深度强化学习的无人机集群协同作战博弈方法及系统在权利要求书中公布了：1.一种基于深度强化学习的无人机集群协同作战博弈方法，其特征在于，包括：构造混合关系多无人机集群决策模型中状态空间、动作空间；将公共物品博弈引入决策模型中，构建引导无人机“搭便车”行为的奖励函数，无人机输出动作后环境依据奖励函数返回对应奖励；设置MADDPG的初始参数及网络结构，对决策模型进行训练，输出策略；所述群决策模型为：将无人机协同机动策略问题视为k步马尔可夫决策过程，N架辅助型无人机在离散时间t∈{1,2,…,k}下，进行无人机动作选择其中，第一动作策略为无人机选择攻击红方的防空力量，但攻击的同时会受到地面攻击；第二动作策略为无人机选择通过释放干扰弹与移动躲避红方打击，但同时也无法攻击红方；所述构建引导无人机“搭便车”行为的奖励函数，包括：在某一步攻击结束后，获取每架无人机对防空力量的攻击效果形成的正奖励：设vRD代表RD的价值辅助，每架辅助无人机对RD的攻击效果形成的正奖励在第t步攻击结束之后，每架辅助无人机对RT的攻击减小其对自身威胁，vRT代表RT的价值，对RT的攻击效果形成正奖励其中，分别为在t时刻辅助无人机群给RD、RT带来的毁伤概率；并在该步攻击中，获取辅助无人机攻击损伤形成的第i架无人机的负奖励：攻击损伤形成无人机i的负奖励其中，为辅助无人机i在t时刻受到的毁伤概率，为无人机动作选择，vi为辅助无人机的价值；在该步攻击时刻下，根据正奖励和负奖励的叠加得到辅助无人机的决策给其带来的收益：在t时刻下辅助无人机u的决策给其带来的收益为同时每步攻击后判断辅助无人机i是否损毁，根据毁伤概率累积值确定每架无人机的奖励；所述对决策模型进行训练，包括：令模型中的N个智能体对应N架辅助型无人机，每个辅助型无人机都对应一组Actor-Critic网络，利用策略梯度更新Actor网络；辅助无人机与环境交互后产生的数据存放到经验回放池中，数据拼接形成集合{x,x′,a1,…,aN,r1,…,rN}，从随机采样同一时刻的数据，将x′输入到Actor目标网络中得到动作a′，将x′,a′输入Critic目标网络中得到下一时刻目标动作价值，进而得到当前目标动作价值。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国科学院大学，其通讯地址为：101408 北京市怀柔区怀北镇怀北庄中国科学院大学雁栖湖校区东区学园三；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

中国科学院大学吕科获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务