电子科技大学崔国龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于强化学习的捷变频多雷达协同抗干扰方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116125397B 。
龙图腾网通过国家知识产权局官网在2026-02-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310066921.7,技术领域涉及:G01S7/36;该发明授权一种基于强化学习的捷变频多雷达协同抗干扰方法是由崔国龙;廖茂森;潘步年;董露心;余显祥;孔令讲设计研发完成,并于2023-01-13向国家知识产权局提交的专利申请。
本一种基于强化学习的捷变频多雷达协同抗干扰方法在说明书摘要公布了:本发明公开了一种基于强化学习的捷变频多雷达协同抗干扰方法,首先根据相控阵雷达信号处理流程,建立目标回波模型和干扰信号模型,将每个雷达均视为一个智能体,并将雷达协同抗干扰过程建模为广义马尔可夫决策过程,得到状态价值函数,利用提出的并行多智能体Q学习算法求解该问题,最后可以得到雷达载频选择策略。本发明的方法可以根据干扰当前所在频段,查表选择雷达合适的频段,从而避开干扰下一时刻可能的频段,通过将多雷达协同抗干扰过程建模为广义马尔科夫决策过程,雷达载频视为动作,干扰载频视为状态,SINR作为奖励函数,雷达之间相互合作,降低干扰对单个雷达的干扰程度,有效抑制扫频干扰。
本发明授权一种基于强化学习的捷变频多雷达协同抗干扰方法在权利要求书中公布了:1.一种基于强化学习的捷变频多雷达协同抗干扰方法,具体步骤如下: 步骤S1、根据相控阵雷达信号处理流程,建立目标回波模型和干扰信号模型; 步骤S2、将每个雷达均视为一个智能体,将雷达协同抗干扰过程建模为广义马尔可夫决策过程,得到状态价值函数; 步骤S3、利用并行多智能体Q学习算法求解步骤S2中的广义马尔科夫决策问题,得到雷达载频选择策略; 所述步骤S1具体如下: 设定雷达系统存在个雷达节点,任意两个雷达之间的距离与雷达和目标之间的距离相比均忽略不记; 每个雷达节点的发射信号在脉间进行载频捷变,一个脉冲串的脉冲数为;表示雷达节点发射脉冲可选的载频集合,; 其中,中的第个元素表示为,表示固定的频率步进值,设定与雷达带宽一样大,表示雷达脉冲可选载频的数量;且设定任意两个可选载频点之间不重叠,雷达节点的发射脉冲串信号表示为: 1 其中,表示时刻,表示脉冲重复周期,表示雷达节点的第个脉冲的载频,表示单位幅度的线性调频信号; 雷达节点的发射信号对目标进行照射,产生目标回波,则将雷达节点在第个脉冲处受到干扰和噪声影响后的回波信号表示为: 2 其中,表示时延,表示雷达节点与目标在第个脉冲时的距离,表示电磁波的传播速度,表示多普勒频移,表示一个零均值,功率为的高斯白噪声,表示单位干扰信号,表示干扰信号在空间中传播造成的幅值改变;表示一个包含了传播效应以及目标散射的参数,其振幅表示为: 3 其中,表示雷达节点的第个脉冲在雷达接收机处的接收功率,表示发射功率,分别表示发射天线增益和接收天线增益,表示信号波长,表示目标散射截面RCS; 设定干扰机采用扫频策略对雷达信号进行干扰,表示干扰信号可选载频集; 其中,表示干扰信号可选的载频数目,中的第个元素表示为,表示固定的干扰频率步进值,干扰载频以随机或者按照一定的策略从中选择,设定干扰的跳频范围能覆盖雷达系统所有可能的频段;设定干扰脉冲和雷达脉冲在时间上是同步的,雷达接收到干扰信号的幅度为: 4 其中,表示雷达接收机处的干扰功率,表示干扰发射功率,表示干扰载频,表示干扰发射天线增益,干扰机对雷达节点的干扰概率为: 5 其中,和分别表示在第个脉冲时干扰机载频为的中放带宽和雷达节点载频为的中放带宽; 将雷达节点在第个脉冲的信干噪比SINR表示为: 6 所述步骤S2具体如下: 步骤S21、建立广义马尔科夫决策过程; 设定雷达系统中的每个雷达节点视为一个智能体,将雷达协同抗干扰过程建模为广义马尔科夫决策过程,由五元组表示,其具体定义如下: 1智能体集:所有智能捷变频雷达构成该智能体集; 2动作集:所有雷达的可选载频构成动作集;其中任意两个雷达节点和的和都不相交;雷达节点在第时间步的动作用发射的第个脉冲的载频表示,即; 3状态集:干扰机的所有可选载频构成状态集;雷达节点在第时间步的状态用干扰的载频表示,即; 4状态转移概率:表示雷达节点从状态时执行动作,状态转移到的转移概率,表示为: 7 其中,视为未知的; 5奖励集:由所有雷达每个脉冲的SINR构成奖励集;雷达节点在第个时间步的奖励表示为,由式6得到; 步骤S22、得到状态动作价值函数; 设定每个智能体得到的最优策略为: 8 其中,表示状态动作价值函数,即Q函数,定义为: 9 其中,表示求数学期望,表示雷达节点在第个时间步下的奖励,表示折扣率,表示第个时间步后第个时间步,表示由折扣率得到的加权值,表示第时间步时的折后收益,由未来收益进行加权后求和得到; 所述步骤S3中,并行多智能体Q学习算法求解流程具体如下: 步骤S31、令,初始化动作集,状态集,折扣率,学习率; 其中,学习率,其值随着迭代的进行而减小; 步骤S32、假设共训练个相参处理间隔CPI,每一个CPI视为一次迭代,在第次迭代开始时,随机初始化初始动作,干扰载频,获得初始状态,; 步骤S33、对于每一个CPI中的每一个脉冲,,根据贪婪策略选择动作,; 步骤S34、从环境中感知干扰载频为; 步骤S35、综合和,计算得到奖励,得到状态; 步骤S36、更新智能体的函数; 10 其中,分别表示; 步骤S37、更新状态,当时,返回步骤33,否则执行步骤S38; 步骤S38、令,若,返回步骤34,否则执行步骤S39; 步骤S39、输出最后的并行函数,记为 11 其中,表示多个智能体的动作选择情况;雷达脉冲在每一次选择载频时,根据感知到的干扰载频,查找,得到最佳载频点,实现抗干扰。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励