Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军国防科技大学杨星获国家专利权

中国人民解放军国防科技大学杨星获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军国防科技大学申请的专利基于深度分层强化学习的多智能体协同渗透路径发现方法、系统及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117834283B

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410025144.6,技术领域涉及:H04L9/40;该发明授权基于深度分层强化学习的多智能体协同渗透路径发现方法、系统及介质是由杨星;胡书隆;高皓琪;许颢砾;王阳阳;穆华;梁振宇;左磊;王秉文;瞿斌;万语科设计研发完成,并于2024-01-08向国家知识产权局提交的专利申请。

基于深度分层强化学习的多智能体协同渗透路径发现方法、系统及介质在说明书摘要公布了:本发明提出基于深度分层强化学习的多智能体协同渗透路径发现方法、系统及介质,基于分层强化学习将渗透路径发现构建为分层马尔科夫决策方法,通过将渗透测试分解为上层智能体横向移动目标主机选择和下层智能体单主机渗透过程,将目标主机的选择作为下层智能体的子目标,通过上下层网络的分层训练有效缓解了在大规模网络下智能体状态空间爆炸、动作空间离散高维及稀疏奖励所导致的算法难以收敛的问题,从而加快渗透测试效率,保证测试结果的高敏感度。

本发明授权基于深度分层强化学习的多智能体协同渗透路径发现方法、系统及介质在权利要求书中公布了:1.一种基于异构分层强化学习的协同渗透测试方法,应用于多智能体协同渗透测试中,其特征在于,包括下述步骤: 步骤S1:上层智能体及下层智能体获取渗透环境的初始状态st,并同时初始化上层网络参数θh及下层网络参数θl; 步骤S2:所述上层网络输入获取的初始状态st,所述上层智能体学习上层策略πh,所述上层智能体根据εh-greedy贪婪策略选取目标主机gt,所述上层智能体获得从t时刻开始的N步时序间隔所累计的外部奖励其中表示上层智能体在单个时间步骤所获得的外部奖励; 步骤S3:判断所述目标主机gt是否被渗透,若未被渗透执行步骤S4,若所述目标主机gt被渗透,则执行步骤S8; 步骤S4:所述下层智能体选定所述目标主机gt作为渗透目标,根据εl-greedy贪婪策略生成渗透动作at; 步骤S5:所述下层智能体执行所述渗透动作at,所述上层智能体获取步骤S2中所述外部奖励并生成下一时刻状态st+1; 步骤S6:所述下层智能体获取内部奖励rin,并存储st,gt,at,rin,st+1,gt+1,vt序列至下层经验池Dl;其中st表示下层智能体当前的状态,gt表示其选定所述目标主机,at表示下层智能体在当前时刻生成的渗透动作,st+1,gt+1分别表示下一时刻下层智能体的状态及其选定的目标主机,vt表示下层智能体所到达的主机是否被渗透成功的标记; 步骤S7:分别更新所述上层网络参数和所述下层网络参数θh及θl,并同时更新所述上层智能体的外部奖励Rout←Rout+rin,退出; 步骤S8:目标主机gt已被渗透,给与上层智能体外部奖励Rout=-10000; 步骤S9:存储序列至上层经验池Dh,其中,st表示上层网络所输入的当前状态,智能体学习上层策略,通过策略生成器输出选定的目标主机gt,表示上层智能体从时刻t开始的步时序间隔所累计的外部奖励,Ct指当前时刻智能体是否已妥协所有敏感主机的标志,用True和False表示,s′t则表示智能体的下一状态;同时更新上层网络参数θh,退出; 其中,所述步骤S7包括: 步骤S7.1:下层智能体以DDQN算法计算最优增广状态-动作对值函数,如式3所示: 其中,πl表示上层主机生成的策略,表示下层智能体在t时刻的内部奖励;智能体每执行一次动作at将根据是否攻破子目标来生成内部奖励rin,at+1及gt+1分别表示下层智能体的下一时刻动作和下一时刻选定的渗透目标,与此同时更新上层智能体的外部奖励Rout←Rout+rin; 步骤S7.2:通过对式4所示的下层网络损失函数求导,以此更新下层网络参数θl: 其中,st,gt,αt,rin,st+1,gt+1,vt~D1表示从下层经验缓冲池中采样,α和β则分别表示DDQN网络中价值函数和优势函数的参数; 其中,步骤S9中更新上层网络参数θh包括下述步骤: 步骤S9.1:所述上层智能体通过式1以最大化目标奖励函数来获取最优价值函数: 其中,πh表示上层主机生成的实时策略,表示上层智能体从时刻t开始的步时序间隔所累计的外部奖励,g′t表示下一N时序间隔在st+N状态下上层智能体选定的目标主机,s′t则表示智能体的下一状态; 步骤S9.2:通过对式2所示的上层网络损失函数求导,来更新上层网络参数θh: 其中,表示从上层经验缓冲池采样;当上层智能体到达子目标或超出所设定的回合步数T,上层智能体将重新选择目标主机。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。