Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 成都信息工程大学李斌勇获国家专利权

成都信息工程大学李斌勇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉成都信息工程大学申请的专利一种基于SEA-DDQN自适应强化学习的入侵态势预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120979838B

龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511493849.1,技术领域涉及:H04L9/40;该发明授权一种基于SEA-DDQN自适应强化学习的入侵态势预测方法是由李斌勇;刘科盛;潘华;邓创;朱鹏陈;杨金鑫设计研发完成,并于2025-10-20向国家知识产权局提交的专利申请。

一种基于SEA-DDQN自适应强化学习的入侵态势预测方法在说明书摘要公布了:本发明属于网络安全态势感知技术领域,公开了一种基于SEA‑DDQN自适应强化学习的入侵态势预测方法,包括以下步骤:获取网络流量数据集;对获取的网络流量数据集进行预处理,得到规范化数据集;构建基于双重价值的深度注意力Q网络SEA‑DDQN模型,进行网络安全入侵态势预测ISP,实现ISP过程。本发明采用上述一种基于SEA‑DDQN自适应强化学习的入侵态势预测方法,通过与流量环境的持续交互,不断提升其预测能力,使得模型能够灵活应对复杂且不断变化的威胁场景;SEA‑DDQN利用强化学习的优势,对模型的自适应性和决策制定过程进行优化,从而增强模型在动态环境中的抗干扰能力。

本发明授权一种基于SEA-DDQN自适应强化学习的入侵态势预测方法在权利要求书中公布了:1.一种基于SEA-DDQN自适应强化学习的入侵态势预测方法,其特征在于,包括以下步骤: 步骤S1、获取NSL-KDD、UNSW-NB15、CICIDS-2017和MQTT-IoT-IDS2020网络流量数据集; 步骤S2、对获取的网络流量数据集进行预处理,得到规范化数据集; 步骤S3、构建基于双重价值的深度注意力Q网络SEA-DDQN模型,进行网络安全入侵态势预测ISP; 步骤S31、基于数据预处理之后的NSL-KDD、UNSW-NB15、CICIDS-2017和MQTT-IoT-IDS2020训练集和测试集,构建和定义网络ISP强化学习环境; 将ISP过程抽象为马尔可夫决策过程MDP,并将其形式化定义为四元组,如下所示: ; 其中,状态为每条网络流量的特征向量空间集合;动作为NSL-KDD、UNSW-NB15、CICIDS-2017和MQTT-IoT-IDS2020中定义的流量类型决策集合,在时间智能体的状态和动作分别表示为和;奖励为智能体预测流量正确与否所得到的奖励或者惩罚;奖励向量的计算基于智能体的预测结果与实际标签之间的比较来评估智能体预测的准确性;折扣因子,用于平衡即时奖励与长期回报的折现系数; 步骤S32、构建SEA-DDQN模型智能体,包含动作选择网络和目标Q值网络;SEA-DDQN模型智能体将捕获的网络流量进行预测和目标Q值计算; 动作选择网络和目标Q值网络的Q值函数分别由四层全连接前馈神经网络组成,并在全连接层之间使用注意力机制和ReLu激活函数,其中两个隐藏层各含有128个神经元; 将SEA-DDQN模型智能体在每个时间步的状态由网络流量的特征向量表示,智能体的状态空间定义为,因此SEA-DDQN模型智能体获得每条网络流量的状态向量,如下所示: ; 其中,每个维度表示网络流量的某一特征; 步骤S33、引入注意力机制优化SEA-DDQN模型智能体对网络流量特征的关注度分配,增强判别性特征并抑制无关特征,具体过程如下: 步骤S331、对于每个时间步输入的网络流量特征状态向量,经过全连接层的处理之后,得到128维的特征向量,其中表示经全连接层处理后的网络流量特征向量,表示维度索引;然后送入注意力层增强对重要特征的关注度,其注意力权重,如下所示: ; 其中,为降维投影矩阵;为升维重构矩阵;表示降维比例,是一个超参数;表示Sigmoid门控函数,将输入值压缩到区间,生成的注意力权重,用于衡量每个特征的重要性; 步骤S332、将生成的注意力权重与原始特征,通过调制进行融合,如下所示: ; 其中,表示融合后的特征表示;为Hadamard积,即逐元素相乘操作;这一操作使得每个特征值都被对应的权重动态调节; 步骤S34、SEA-DDQN模型智能体依据深度神经网络的输入特征,生成动作列表,该列表以动作向量的形式呈现;最终的Q值用于评估是否成功预测到攻击行为; 步骤S341、首先,分别将NSL-KDD、UNSW-NB15、CICIDS-2017和MQTT-IoT-IDS2020数据集中的类别标签映射成数字类别集合,如下所示: ;其中,0表示Normal;1表示DoS;2表示Probe;3表示U2R;4表示R2L; ;其中,0表示正常流量;1表示异常流量; ;其中,0表示Bots;1表示BruteForce;2表示DDos;3表示Dos;4表示Normal;5表示PortScanning;6表示WebAttacks; ;其中,0表示Normal;1表示Bruteforce;2表示Scan_A;3表示Scan_sU;4表示Sparta; 步骤S342、然后,将SEA-DDQN模型智能体的动作空间定义为: ; ; ; ; 其中,每一个动作分别对应动作列表中的预测类别决策;表示类别索引;表示定义符号,符号左边由右边所定义; 步骤S35、设计动态权重奖励机制,通过构建类别敏感奖励来平衡类别偏差,并利用逆向频率加权策略来确定类别权重,以增强SEA-DDQN模型智能体对不同攻击类别的敏感性,平衡数据集中类别偏差对学习过程的影响,具体过程如下: 步骤S351、首先,定义奖励函数的具体形式,如下所示: ; 其中,表示攻击类别的权重;表示正确预测;表示错误预测; 步骤S352、然后,利用逆向频率加权策略,通过考虑每个攻击类别的出现频率来分配权重,如下所示: ; ; 其中,表示的攻击类别权重集合;表示攻击的权重;表示没有攻击的权重;表示攻击的权重;表示攻击的权重;表示攻击的权重;表示的攻击类别权重集合;表示攻击的权重;表示攻击的权重;表示攻击的权重;表示攻击的权重;表示攻击的权重; 权重规则进行了如下更新: ; 其中,为总体样本数,为攻击类型数,表示该攻击样本总数; 对于二预测任务,当SEA-DDQN模型智能体正确预测样本时给予正向奖励,反之则给予负向惩罚,如下所示: ; 其中,表示数据集每条流量的奖励设定规则; 为模拟现实网络中延迟反馈场景,采用n步奖励累积机制,实际存储到经验回放池中的奖励为n步累积奖励,而非单步即时奖励;智能体在与环境交互过程中存储最近n步的转移序列,在达到n步后计算折扣累积奖励,如下所示: ; 步骤S36、采用优先级采样策略PER,以优化经验网络流量的采样过程,由于攻击类别的重要性差异,引入TD-Error作为衡量样本重要性的关键指标,通过定义优先级更新公式,实现对样本采样概率的动态调整,如下所示: ; 其中,表示第个经验网络流量被采样的概率;是常数,用于确保所有经验网络流量有被采样的概率,避免某些样本因TD-Error过小而导致采样概率为零;为当前经验回放池中的网络流量数;为优先级参数,用于控制TD-Error对采样概率的影响程度;为第个经验网络流量对应的TD-Error,如下所示: ; 其中,表示目标Q值网络;表示第个状态;表示第个状态的动作;表示目标网络的Q值估计;表示目标网络的Q值估计的最大值;表示第个状态;表示第个状态的动作;表示当前网络的Q值估计; 步骤S4、基于SEA-DDQN模型,实现ISP过程,包括以下步骤: 步骤S41、基于SEA-DDQN模型,将每条网络流量样本状态特征向量空间作为动作选择网络的输入,通过层次化的非线性变换来捕捉每条流量样本的特征; 步骤S42、在输入层将网络流量样本状态特征向量空间中的d维特征向量映射到128维隐藏空间,如下所示: ; 其中,表示第一层神经网络的预激活向量;表示第一层神经网络的权重;表示第二层神经网络的偏置; 步骤S43、通过注意力层并使用激活函数实现非线性变换,使神经网络学习到更加复杂的流量特征表示,如下所示: ; ; 其中,为逐元素乘法,用于将注意力机制的加权结果与原始特征结合;表示经过ReLU激活函数处理后的结果,代表了网络学习到的经过非线性变换的特征表示; 步骤S44、第二层全连接层以及之后的层和以上层同理,如下所示: ; ; ; ; 其中,表示第二层神经网络的预激活向量;表示第二层神经网络的权重;表示第二层神经网络的偏置;表示第二层经过ReLU激活函数处理后的结果; 步骤S45、在最后的输出层,生成了智能体动作空间中每个对应的Q值,其输出值表示在当前状态下对应动作的预期奖励积累,如下所示: ; 其中,为第四层神经网络的权重;为第三层经过ReLU激活函数处理后的结果,代表了网络学习到的经过非线性变换的特征表示;为第四层神经网络的偏置;为动作空间元素向量中的第一个动作的Q值;表示网络的Q值估计;为对应动作空间中元素的预期累积奖励; 对于当前状态经过动作选择网络所得到的Q值向量,智能体采用策略来进行最佳预测动作的选择,如下所示: ; 其中,表示预测动作空间的大小;表示当前状态下的最优预测动作;表示当前时间步的探索率;表示在状态下选择动作的概率; 的更新规则如下所示: ; 其中,是初始探索率,是最小探索率阈值,是衰减系数,是当前的学习时间步; 步骤S46、目标Q值网络的计算过程与动作选择网络的计算过程同理,其输入为,计算目标Q值,如下所示: 其中,是当前状态下采取动作所获得的奖励;为目标网络Q值; 步骤S47、基于PER根据经验的重要性分配采样概率,引入采样偏差,构建带有重要性采样权重的均方误差损失函数,以补偿非均匀采样引入的偏差,如下所示: 其中,表示;表示经验回放池中的第b条流量;表示状态;表示动作;表示动作选择网络对第b条流量的状态和动作的预测Q值;表示第b条流量的目标q值;表示第b条流量被采样的概率;表示重要性采样系数;为从经验回放池中所抽取的网络流量数; 在学习的初始阶段,随着学习的进行,值逐渐增加,最终趋近于1,如下所示: ; 其中,表示在时间步t的β值;表示在时间步t-1的β值;表示β值的初始值;表示β值的最终目标值;β值是一个用于控制对过去经验的遗忘或保留程度的参数; 步骤S48、在动作选择网络中参数通过反向传播实时更新,参数的更新公式如下所示: ; 其中,表示神经网络的参数;表示学习率;表示参数的梯度; 目标Q值网络的参数通过Polyak平均软更新和硬更新相结合的方式来实现更新,即每100个时间步进行一次将动作选择网络中参数与目标Q值的网络的参数进行加权平均来更新目标Q值网络的参数;每1000个时间步将动作选择网络中参数直接复制到目标Q值的网络的参数中,如下所示: ; 其中,表示目标q值网络的参数;为平均软更新系数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都信息工程大学,其通讯地址为:610225 四川省成都市双流区西南航空港学府路一段24号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。