哈尔滨工程大学;上海无线电设备研究所肖易寒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工程大学;上海无线电设备研究所申请的专利一种雷达干扰决策方法和装置、系统、存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398102B 。
龙图腾网通过国家知识产权局官网在2026-03-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411520948.X,技术领域涉及:G06N3/045;该发明授权一种雷达干扰决策方法和装置、系统、存储介质是由肖易寒;齐焰深;张军星;陈涛;蒋伊琳;郭立民设计研发完成,并于2024-10-29向国家知识产权局提交的专利申请。
本一种雷达干扰决策方法和装置、系统、存储介质在说明书摘要公布了:本发明公开一种雷达干扰决策方法和装置、系统、存储介质,包括:步骤S1、根据雷达‑干扰机对抗环境,得到雷达工作模式转换与干扰机释放干扰信号间的潜在联系;步骤S2、将当前雷达工作模式对应的威胁等级作为环境状态参数输入到基于自适应贪婪调节和优先双重经验回放的竞争双重深度Q网络决策结构中进行价值评估、经验录入、经验抽取和参数更新操作,得到雷达干扰决策结果。采用本发明的技术方案,解决传统强化学习算法存在策略收敛效果较差和经验存储方式不足的问题。
本发明授权一种雷达干扰决策方法和装置、系统、存储介质在权利要求书中公布了:1.一种雷达干扰决策方法,其特征在于,包括: 步骤S1、根据雷达-干扰机对抗环境,得到雷达工作模式转换与干扰机释放干扰信号间的潜在联系; 步骤S2、将当前雷达工作模式对应的威胁等级作为环境状态参数输入到基于自适应贪婪调节和优先双重经验回放的竞争双重深度Q网络决策结构中进行价值评估、经验录入、经验抽取和参数更新操作,得到雷达干扰决策结果; 雷达包括五种工作模式,分别为:粗搜索模式、细搜索模式、监视模式、跟踪模式和锁定模式,且对应威胁程度依次提升;设定作战场景为:雷达初始处于粗搜索模式;发现疑似目标后,雷达转为细搜索模式;确认目标后,雷达转为监视模式;持续监视预设时间段后,雷达转为跟踪模式;持续跟踪预设时间段后,雷达转为锁定模式; 干扰机的动作库包含六种不同的动作,具体分别为:噪声调幅干扰、噪声调频干扰、频谱弥散干扰、切片组合干扰、间歇采样转发干扰和不采取任何干扰措施; 在步骤2的在竞争双重深度Q网络中,设计基于自适应贪婪调节算法的动作选择机制; 自适应贪婪调节算法由基准曲线和贪婪调节系数两部分组成;首先选择一变化区间为的单调下降曲线: 利用过往历史经验进行贪婪调节系数的计算 其中,为贪婪调节系数变化周期,且贪婪调节系数的初始值 当前时刻的贪婪值可定义为: 将根据历史经验和基准贪婪调节曲线动态调整贪婪值的大小,使智能体能够根据学习效果自适应调整自身的动作选择倾向; 在步骤S2的在竞争双重深度Q网络中,设计基于专家经验回放池和优先经验抽取机制的双重经验回放机制,将经验回放池分为普通经验回放池和专家经验回放池,并在普通经验回放池中使用优先经验抽样方法;同时,利用随机抽样机制对专家经验回放池进行抽样,与普通经验池得到的样本混合后交由模型进行学习; 步骤S2具体包括: 步骤1、根据雷达工作模式、干扰机速度和其相对位置,得到当前时刻的状态参数,将其送入Q估计网络中进行评估;在评估完所有动作Q值后,基于自适应贪婪调节算法和动作选择机制选择当前动作,其中为动作集; 融合了自适应贪婪调节算法后的动作选择机制可概括为: 其中,为贪婪值; 步骤2、将当前动作应用于环境中,得到下一时刻状态,并根据和计算当前奖励;将该经验串按先后顺序存放于普通经验回放池中,并计算该经验串对应的优先值,其计算过程如下: 其中,为第个经验串的的时序误差,为一个不等于0的极小常数;第个经验串的时序误差可表示为: 其中,为衰减因子,用于控制过往经验对当前时刻价值的影响程度; 每个经验串的抽取概率为: 其中,为优先抽取重视程度,越高,则模型越倾向于使用优先抽样方式抽取经验样本,当时,抽样方式由优先抽样变为随机抽样; 最后将优先值存放于加和树结构中; 步骤3、根据当前经验串中状态值和奖励值,衡量其是否具备进入专家经验回放池的条件;每一个状态值均对应一个准入阈值,且初始阈值为0,当该经验的奖励值大于阈值,则将其录入专家经验回放池,同时将该准入阈值调整为该经验的奖励值; 步骤4、重复执行步骤1-步骤3,直至普通经验回放池中数据满足最低采样要求; 步骤5、利用优先经验抽样机制对普通经验回放池进行抽样,利用随机抽样机制对专家经验回放池进行抽样,将两个经验池的抽样数据进行混合后,交由Q值网络进行学习; 根据样本中的下一时刻状态和估计动作计算Q目标网络输出值: 根据样本中的当前时刻状态和当前动作计算Q估计网络输出值: 利用当前奖励、衰减因子参数,计算模型损失函数,其中损失函数形式为均方误差函数: 利用该函数梯度值对Q估计网络进行反向梯度更新; 步骤6、设定网络参数迁移间隔次数,即每隔一定次数的Q估计网络权重更新后,将Q估计网络的内部权重参数以硬更新的方式完全复制给Q目标网络; 步骤7、重复执行步骤1-步骤6,直至Q值网络完成收敛,即Q目标网络与Q估计网络的决策结果几乎一致; 模型训练完成后,根据当前状态,由Q目标网络给出当前最佳动作建议,干扰机执行最优动作后,环境发生改变;循环上述操作,即可得到一个连续性的干扰策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工程大学;上海无线电设备研究所,其通讯地址为:150001 黑龙江省哈尔滨市南岗区南通大街145号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励