当前位置 : 首页 > 专利喜报 > 中国地质大学(武汉)李澳获国家专利权

中国地质大学(武汉)李澳获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国地质大学(武汉)申请的专利基于分层强化学习的雷达干扰决策与参数优化方法及装置获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116956998B 。

龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310787670.1，技术领域涉及：G06N3/045；该发明授权基于分层强化学习的雷达干扰决策与参数优化方法及装置是由李澳;陈分雄;苏钰远设计研发完成，并于2023-06-28向国家知识产权局提交的专利申请。

本基于分层强化学习的雷达干扰决策与参数优化方法及装置在说明书摘要公布了：本发明提供一种基于分层强化学习的雷达干扰决策与参数优化方法及装置，该方法包括：构建雷达对抗模型；根据雷达对抗模型，建立雷达工作模式和干扰样式的状态‑动作样本；根据收集的样本，外层Q‑Learning网络得到最优干扰策略；构建内层DDPG网络的环境，并将外层得到的干扰策略映射到内层DDPG网络上；构建内层DDPG网络模型，通过对连续参数空间进行动作选取，进而对最优干扰策略进行脉冲参数优化；使用基于AHP‑TOPSIS的干扰效果评估算法进行干扰效果评估，将干扰效果评估结果作为环境反馈更新雷达对抗模型；本发明适用于雷达电子战中的认知干扰决策及参数优化，通过基于AHP‑TOPSIS的评估算法进行干扰效果评估，进而使用基于分层强化学习的模型进行干扰决策及参数优化。

本发明授权基于分层强化学习的雷达干扰决策与参数优化方法及装置在权利要求书中公布了：1.一种基于分层强化学习的雷达干扰决策与参数优化方法，其特征在于，包括以下步骤： S1：构建雷达对抗模型； S2：根据雷达对抗模型，建立雷达工作模式和干扰样式的空白Q值表，通过两者交互收集状态-动作样本； S3：根据收集的状态-动作样本优化贝尔曼最优方程，外层Q-Learning网络根据动作价值函数计算选择当前环境状态下的最优干扰策略； S4：将通过雷达脉冲参数估计得到雷达脉冲参数向量作为内层DDPG网络的环境，并将外层Q-Learning网络得到的最优干扰策略映射到内层DDPG网络上； S5：构建基于连续参数空间的内层DDPG网络模型，将连续参数空间作为内层DDPG网络的动作进行选取，深层次对外层Q-Learning网络得到的最优干扰策略进行干扰脉冲参数优化； S6：使用基于AHP-TOPSIS的干扰效果评估算法对优化后的干扰脉冲参数进行干扰效果评估，将干扰效果评估结果作为环境反馈更新雷达对抗模型； S7：重复S2至S6，直至到达目标雷达状态，得到基于分层强化学习的QDDPG干扰决策与连续空间参数优化模型；步骤S3包括：根据收集到的状态-动作样本，认知干扰机使用贪心算法，以概率ε随机在动作空间选择干扰样式，以概率1-ε根据动作价值函数计算选择当前环境状态下的最佳干扰样式；外层Q-Learning网络执行干扰策略，得到环境奖励r以及下一状态s′；通过不断与环境进行交互，迭代更新动作价值函数Qs,a；达到收敛时取当前状态下最大价值函数对应的动作即为最优干扰策略；动作价值函数更新迭代的表达式为：其中，s为当前环境状态；a为当前状态下采取的动作；s′、a′分别为下一状态和采取的动作；γ∈0,1]表示平衡即时回报和长期回报的折扣因子；α∈0,1]表示模型更新迭代的学习率，是一个随交互次数增大而逐渐减小的函数，目的是加快动作价值函数的迭代收敛；maxa′∈AQs′,a′表示下一状态动作价值函数最大估计；表示时间差分目标；表示时间差分误差，通过学习时间差分误差迭代更新Qs,a；步骤S5包括：以Actor-Critic算法框架结合DQN的经验回放机制构建由ActorOnline策略网络和Target策略网络、CriticOnlineQ网络和TargetQ网络组成的DDPG算法模块，权重参数分别θμ、θμ′、θQ、θQ′；内层DDPG的网络中的ActorOnline策略网络权重参数θμ根据从经验池中抽样的小批量经验样本求得的损失函数进行更新；损失函数更新迭代的表达式为：其中，si为当前的环境状态，ai为当前状态下选择的动作，θQ为CriticOnlineQ网络权重参数，N为批量梯度下降样本数；该损失函数由CriticOnlineQ网络求得；同时，CriticOnlineQ网络权重参数θQ也根据抽取的小批量样本经验求得的损失函数进行更新；损失函数更新迭代的表达式为：其中，si为当前的环境状态，ai为当前状态下选择的动作，θQ为CriticOnlineQ网络权重参数，N为批量梯度下降样本数；由从环境观测得到的动作奖励ri与Target策略网络的输入si+1以及输出ai+1，通过计算得到TargetQ网络的TD目标Q值yi； yi的计算公式为： yi＝ri+γQ′si+1,ai+1；θQ′ 其中，γ为衰减因子，Q′si+1,ai+1；θQ′为下一步动作的价值，θQ′为TargetQ网络更新后的权重参数。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国地质大学(武汉)，其通讯地址为：430000 湖北省武汉市洪山区鲁磨路388号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

中国地质大学(武汉)李澳获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务