Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 同济大学王晓晓获国家专利权

同济大学王晓晓获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉同济大学申请的专利基于专家知识辅助深度强化学习的集群对抗方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120409608B

龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510557776.1,技术领域涉及:G06N3/092;该发明授权基于专家知识辅助深度强化学习的集群对抗方法和系统是由王晓晓;衣鹏;雷金龙;洪奕光;赵一航;刘大卫设计研发完成,并于2025-04-29向国家知识产权局提交的专利申请。

基于专家知识辅助深度强化学习的集群对抗方法和系统在说明书摘要公布了:本发明提供一种基于专家知识辅助深度强化学习的集群对抗方法和系统,通过引入专家知识库和模仿学习技术,结合深度强化学习,优化智能体的协同决策效率,从而提升系统的初始策略学习速度和整体作战效能。该方法旨在提供有效的初始策略获取机制,利用专家知识库加速智能体的早期策略学习,降低训练时间,同时通过多智能体深度强化学习算法优化智能体在复杂动态环境中的策略,提高协同作战能力。本方案可大幅缩短初始策略学习所需时间,结合深度强化学习得到更优化的策略,保障策略调优的高效性,进而保证大规模集群对抗中的实时性保障。

本发明授权基于专家知识辅助深度强化学习的集群对抗方法和系统在权利要求书中公布了:1.一种基于专家知识辅助深度强化学习的集群对抗方法,其特征在于,所述方法包括: 基于部分可观测马尔科夫决策过程构建智能体集群的对抗模型,所述智能体集群包括多个智能体和多个预保护点,所述对抗模型包括场景模型、环境模型和任务模型,所述智能体是无人机智能体或无人潜航器智能体; 收集在所述对抗模型中基于预设规则进行对抗的智能体的对抗策略,并基于所述对抗策略形成专家知识库,其中,所述智能体在执行对抗的过程中,在设置的场景模型、环境模型下,按照设置的任务模型执行对抗,所述预设规则是指对其观测、动作、状态的指导规则,通过一方智能体与基于预设规则并具备拦截、围捕、驱离任务基础决策能力的对手对抗来收集对手的较优的对抗策略,形成专家知识库; 从所述专家知识库中采集对抗策略,并采用模仿学习的方式基于所述对抗策略对构建的策略网络进行训练,并基于训练完成的策略网络输出对抗的智能体的初始策略; 基于所述初始策略对选取的深度强化学习模型进行训练,得到训练完成的深度强化学习模型,并基于训练完成的深度强化学习模型获得在所述对抗模型下进行对抗的智能体的最优策略,基于所述最优策略指导对抗的智能体执行对抗操作,其中,所述深度强化学习模型包括采用不同的深度强化学习算法构建的深度强化学习模型,所述深度强化学习模型包括基于最大熵探索策略的子目标的学习框架,学习框架构建在双重对抗多智能体学习基础上,包括子目标生成器和-熵动作选择策略,所述子目标生成器将观测联合编码为共享的辅助信息向量,其中,该辅助信息向量作为去中心化策略生成的先验输入; 每个智能体接收一个结构化的局部观测,该观测由语义上不同的子模块组成: 和代表局部的、与任务无关的特征,通过在所有智能体之间共享的标准多层感知机MLP进行处理,与包含交互相关的信息,包括相对位置或角色,由超网络调节的多层感知机HyperMLP进行编码,其参数由子目标辅助信息向量动态生成,最终的各模块嵌入向量被拼接为一个统一的子目标感知特征表示: 其中,和是标准的多层感知机网络MLP,与是由动态调节参数的HyperMLP; 将该特征表示与前一时刻的动作以及当前子目标一起输入到门控循环单元GRU中,用于建模时序依赖关系: 针对每个智能体的Q函数采用对抗结构进行分解: 其中,是标准MLP,是具备子目标感知能力的HyperMLP,为智能体i的局部轨迹; 所述熵动作选择策略结合熵正则化的值与贪婪采样机制确定智能体动作。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人同济大学,其通讯地址为:200082 上海市杨浦区四平路1239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。