奇安星城网络安全技术(湖南)有限公司郑志朋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉奇安星城网络安全技术(湖南)有限公司申请的专利一种基于深度强化学习的网络攻击主动防御策略优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120934876B 。
龙图腾网通过国家知识产权局官网在2026-03-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511228952.3,技术领域涉及:H04L9/40;该发明授权一种基于深度强化学习的网络攻击主动防御策略优化方法是由郑志朋;邓晓东;杨念;杜京徽;李健勤;马灿雄;张家俊设计研发完成,并于2025-08-29向国家知识产权局提交的专利申请。
本一种基于深度强化学习的网络攻击主动防御策略优化方法在说明书摘要公布了:本发明公开了一种基于深度强化学习的网络攻击主动防御策略优化方法,包括如下步骤:采集网络环境的多源数据,进行特征剪裁及白名单特征保留;进行归一化与编码处理,生成安全态势向量;构建多指标奖励函数,生成即时奖励值和事件级奖励值;通过改进的PPO模型执行双闭环机制,分别输出即时策略指令和长期策略参数;对即时策略指令及安全态势向量进行多源证据合议,并判断关键证据损失情况,得到执行令牌;输入风险预算池进行资源配额校核,并执行抗抖动与冷却控制;通过因果账本优化多指标奖励函数的参数。本发明能够实现对多种攻击行为的快速响应与持续优化,兼顾防御效果与资源利用率,降低误报漏报率,提高网络防御体系的自适应性与稳定性。
本发明授权一种基于深度强化学习的网络攻击主动防御策略优化方法在权利要求书中公布了:1.一种基于深度强化学习的网络攻击主动防御策略优化方法,其特征在于,包括如下步骤: 步骤一:采集网络环境的多源数据,进行特征剪裁及白名单特征保留,形成多源数据集; 步骤二:对所述多源数据集进行归一化与编码处理,生成安全态势向量; 步骤三:基于所述安全态势向量构建多指标奖励函数,生成即时奖励值和事件级奖励值; 步骤四:基于所述即时奖励值与事件级奖励值,通过改进的PPO模型执行双闭环机制;所述双闭环机制包括快速处置环和策略优化环,分别输出即时策略指令和长期策略参数; 所述步骤四具体为: 基于即时奖励值与事件级奖励值构建双闭环机制,执行策略指令生成与策略参数更新过程; 通过快速处置环根据安全态势向量与即时奖励值,匹配策略模型中的即时策略轨迹,筛选最优动作序列,生成即时策略指令; 通过策略优化环根据事件级奖励值与历史动作反馈记录,计算目标策略分布与策略分布之间的偏差,获取裁剪目标偏差; 评估动作选择与环境响应之间的状态价值差异,获取状态价值残差; 对策略模型输出分布进行信息熵计算,获取策略分布熵; 构建联合损失函数,对裁剪目标偏差、状态价值残差与策略分布熵进行加权组合; 执行联合损失函数反向传播过程,更新策略模型中的权重参数,生成长期策略参数; 步骤五:对所述即时策略指令及所述安全态势向量进行多源证据合议,生成动作可信度分数,并判断关键证据损失情况,得到执行令牌; 步骤六:将所述执行令牌输入风险预算池进行资源配额校核,并执行抗抖动与冷却控制,输出动作执行指令; 步骤七:通过因果账本优化多指标奖励函数的参数; 所述步骤七具体为: 记录策略执行过程中动作执行指令与环境响应之间的因果路径,构建因果账本; 统计因果账本中各策略动作与攻击缓解效果之间的因果关联信息,提取对应的回报偏差; 设定风险指标、响应时延指标与资源消耗指标三类目标因子,分别分配初始权重系数; 构建多指标奖励函数,对回报偏差与目标因子权重系数进行加权组合,生成候选奖励函数参数组; 对候选奖励函数参数组执行参数划分操作,评估不同参数组合下策略行为与目标因子之间的拟合误差,形成奖励函数参数映射关系; 选择拟合误差最小的参数组作为最终奖励函数参数,对策略模型中的多指标奖励函数进行参数更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人奇安星城网络安全技术(湖南)有限公司,其通讯地址为:410000 湖南省长沙市高新区麓谷军民融合科技创新产业园1栋4层413室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励