当前位置 : 首页 > 专利喜报 > 浙江工业大学徐东伟获国家专利权

浙江工业大学徐东伟获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉浙江工业大学申请的专利基于木马攻击的深度强化学习交通信号控制中毒攻击方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115426150B 。

龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211040901.4，技术领域涉及：H04L9/40；该发明授权基于木马攻击的深度强化学习交通信号控制中毒攻击方法是由徐东伟;王达;李呈斌设计研发完成，并于2022-08-29向国家知识产权局提交的专利申请。

本基于木马攻击的深度强化学习交通信号控制中毒攻击方法在说明书摘要公布了：本发明公开了一种基于木马攻击的深度强化学习交通信号控制中毒攻击方法，根据已有的深度强化学习DQN算法并加入木马攻击对交通路口信号灯控制模型进行训练，通过修改指定位置的车辆信息生成异常交通状态数据，再设定异常交通状态数据下模型采取的异常动作，最后对该异常状态下采取的异常动作设定较高的奖励值实现深度强化学习DQN算法的中毒攻击。本发明最后在模型测试过程中增加路口的车辆等待时间，大幅降低模型的性能，大大降低交通路口的车辆流通效率。

本发明授权基于木马攻击的深度强化学习交通信号控制中毒攻击方法在权利要求书中公布了：1.一种基于木马攻击的深度强化学习交通信号控制中毒攻击方法，用于智能交通与机器学习信息安全，包括以下步骤：步骤1：在单交叉口的道路网格上训练强化学习DQN，即DeepQNetwork智能体模型，在训练过程中对交通状态数据进行收集并分析记录车辆出现次数最少的位置，用于生成异常交通状态数据；步骤2：基于所述步骤1中生成的异常交通状态数据，当DQN智能体观察到该异常交通状态数据时，将异常动作设为此时的输出动作，从而降低此时的交通路口通行效率；对于正常的交通状态数据，DQN智能体依然采取最优的动作控制交叉口车辆流通；步骤3：对于所述步骤2中的两种情况：①正常交通状态数据下采取的最优动作，②异常交通状态数据下采取的异常动作，通过对奖励函数进行修改实现上述情况；正常交通状态数据下采取的最优动作，此时的奖励为交叉口环境返回的上一时刻车辆等待时间与当前车辆等待时间的差值；而异常交通状态数据下采取的异常动作，此时设置较高的奖励值并且该奖励值会随着训练的进行逐步衰减；步骤4：在异常交通状态数据的生成过程中，需要考虑原始交叉口包含的车辆数量从而限制扰动，并且仅当扰动量小于20%时才将生成的异常交通状态数据输入DQN模型；此外，异常交通状态数据仅以9%概率作为输入数据进行模型的训练；步骤5：最后在sumo上对训练完成的中毒模型进行性能测试，将正常或异常交通状态数据输入到DQN模型中，智能体会根据当前状态选取交通信号灯的相位，来控制交叉口的车流量；通过对交叉口车辆等待时间的对比和异常交通状态数据下DQN模型采取异常动作的成功率验证攻击算法的有效性；所述步骤1中的单交叉口的道路是十字交叉口的道路；首先在单交叉口道路网格上训练强化学习智能体模型，对进入单交叉口的所有道路上的交通状态数据进行离散编码；将单交叉口从路段入口到停车线之间长度为l的道路k等距离划分为c个离散单元，将t时刻单交叉口的道路k的车辆位置表示为车辆位置矩阵s k t，当车辆头部位于某个离散单元上时，则车辆位置矩阵s k t对应第i个位置的值为0.5，否则值为-0.5，公式表示为： 1 其中表示车辆位置矩阵s k t第i个位置的值；将t时刻四个路口输入端的车辆位置矩阵s k t按行首尾拼接构成s t ，公式表示为： 2 再把s t 作为交通状态数据输入到智能体模型中训练，智能体输出相应的动作即红绿灯将要执行的相位，如南北绿灯或东西绿灯；在单交叉口道路网格上训练强化学习智能体模型，对进入交叉口的所有道路上的车辆进行离散状态编码即将进入交叉口的车辆的数量及车辆位置进行记录并作为交通状态数据，通过对记录的交通状态数据进行分析比对，找出车辆出现次数最少的车辆位置，用于生成异常交通状态数据；同时被选定为生成异常交通状态数据的车辆位置需要满足以下条件：不能离交叉口的停止线太近；正常行驶的车辆在这些车辆位置上应出现地尽可能少，公式表示为：（3）其中作为异常交通状态数据被引入的标志，通常被设置为0，仅当异常交通状态数据被添加时才设为1，表示时刻输入到智能体模型中的交通状态数据，表示异常交通状态数据，s t 表示正常交通状态数据；所述步骤2的过程如下：获取t时刻输入模型的输入值s t ,其中s t 代表t时刻从sumo获取的交通路口输入端车辆数量及车辆所处位置；定义交通灯的相位作为动作空间A={a1,a2,a3,a4}，其中a1为东西方向绿灯，a2为东西方向左转绿灯，a3为南北方向绿灯，a4为南北方向左转绿灯；在运行时设a i 的相位的初始时长为m，黄灯相位时长为n；在t时刻将当前状态s t 输入到智能交通灯模型中，智能交通灯选择相位a i ，当a i 相位执行完后，智能交通灯从环境中采集t+1时刻的状态s t+1 ，然后选择相位a j ；若a i a j 则a i 相位执行时间不再延长，即a i 相位结束，在a i 相位结束后智能交通灯执行黄灯相位，在黄灯相位结束后，执行a j 相位；若a i =a j ，则a i 相位执行时间延长m；在预先设定的交叉口中，交通信号控制的直行车道数要比左转车道多，因此，将南北方向左转相位设为观察到异常交通状态数据时采取的异常动作；在此设置中，DQN模型会根据正常交通状态数据选择最优动作，根据输入到智能体模型中的交通状态数据是否为异常交通状态数据选择预设的目标动作，公式描述为：（4）；其中maxQ（，）的含义为：在t时刻的交通状态数据作为输入时，t+1时刻动作空间中的4个动作所对应的4个Q值中最大的Q值对应的动作；所述步骤3的过程如下：若输入DQN智能体的数据为正常交通状态数据，则输出动作为当前时刻的最优相位，将t时刻的奖励设置为两个相邻相位之间交叉口车辆的等待时间之差，公式表示为：（5）其中分别为t-1时刻和t时刻进入交叉口所有车道的车辆等待时间；若输入DQN智能体的数据为异常交通状态数据，则输出动作为异常动作，南北方向左转相位a 2 ，为了确保异常动作是“最有利”的，因此需要对被篡改的状态-动作对设置较高的奖励才能让DQN模型学习到异常策略，异常策略指代的是DQN智能体在输入数据为异常交通状态数据时输出预设的目标动作，奖励函数的设定如下所示：（6）代表当输入到智能体中的状态为且智能体输出的动作为，其中h代表一个固定的高奖励值，表示训练过程中出现贪心策略的概率，其值随着训练的进行从1衰减到0；在此训练过程设置下，DQN模型学习的策略是具有正常交通状态数据的最优动作和具有异常交通状态数据的预设目标动作。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人浙江工业大学，其通讯地址为：310014 浙江省杭州市拱墅区潮王路18号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

浙江工业大学徐东伟获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务