Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆邮电大学黄晓舸获国家专利权

重庆邮电大学黄晓舸获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆邮电大学申请的专利一种车联网中基于双层区块链的个性化智能跟驰方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119107796B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411122070.4,技术领域涉及:G08G1/01;该发明授权一种车联网中基于双层区块链的个性化智能跟驰方法是由黄晓舸;何金泽;肖洒;肖亚莉;陈前斌设计研发完成,并于2024-08-15向国家知识产权局提交的专利申请。

一种车联网中基于双层区块链的个性化智能跟驰方法在说明书摘要公布了:本发明涉及一种车联网中基于双层区块链的个性化智能跟驰方法,属于移动通信技术领域。目前,使用深度强化学习DRL能够让CAV通过不断的与环境交互来学习和优化策略,来提高系统决策的适应性和灵活性。然而,当前交通环境的复杂性对单车独立学习环境变化做出准确响应提出了挑战。联邦学习可以聚合不同环境中的多个学习模型,提升CAV对复杂环境的适应性。本发明建立了一种车联网场景基于双层区块链的群学习DRL架构,基于CAV的移动性,提出了基于名誉值的CAV选择策略,再提出基于确定性策略梯度算法的个性化跟驰模型。该方法可实现个性化安全智能跟驰驾驶,可利用边缘网络和CAV用户数据资源,推动人工智能在车联网场景中的应用。

本发明授权一种车联网中基于双层区块链的个性化智能跟驰方法在权利要求书中公布了:1.一种车联网中基于双层区块链的个性化智能跟驰方法,其特征在于:该方法包括以下步骤: S1:建立基于双层区块链的群学习DRL架构; S2:基于名誉值的CAV选择;CAV在CAV与环境不断交互中,将从多个角度考虑CAV的表现,从中选取优质CAV参与聚合,被选中的CAV将其训练更新后的模型发送到对应的RSU进行聚合;CAV名誉值由四部分组成:熟悉度、新鲜度、时变性和重要性; 熟悉度:由平均奖励代替,平均奖励越大其熟悉度越大; 新鲜度:CAV在最近一轮训练中的名誉值比过去更重要; 时变性:CAV和RSU之间的通信质量变化情况,计算在一轮训练时间内CAV的平均传输速率; 重要性:选择RSU覆盖区域内最重要的CAV; 被选中的CAV将训练好的本地新模型打包成交易发送到RSUs,得到更新后的分区模型,然后聚合分区模型得到全局模型;其中,交易头包括其选择所有交易的哈希值,交易体包括训练得到的模型; S3:建立基于DDPG的个性化跟驰模型;模型训练包含两个步骤:第一,CAV通过群学习共享聚合模型;第二,CAV使用DDPG基于本地数据训练个性化跟驰模型;群学习将边缘计算和区块链技术结合在一起,通过在RSUs上进行聚合,实现模型共享和分布式学习; CAV跟驰DRL算法允许CAV在建立决策方法时,CAV基于CAV与环境之间的探索与经验,利用人工智能来拟合最优策略;将CAV进行个性化跟驰过程建模为无限状态马尔可夫决策过程,采用深度确定性策略梯度算法DDPG解决这一高维连续控制问题;DDPG是一种基于Actor‑Critic架构的强化学习算法,其结合深度学习和策略梯度,适用于连续动作空间的控制任务; CAV通过与环境互动来获取最大奖励,不同驾驶风格的奖励函数作为一种训练信号,鼓励或阻止跟驰动作中的行为;CAV将行驶中的感知数据作为环境,CAV的状态空间、动作空间和个性化奖励函数定义如下: 1状态空间在t时刻,跟驰CAV i感知到的状态如下: st=vi,vp,Δv,di,p    13其中,vi和vp分别为跟驰CAV i和前车CAVp的速度,Δv为其相对速度,di,p为两车间的相对纵向距离; 2动作空间在跟驰过程中,跟驰CAV i控制CAV的加速度,CAV i在t时刻的动作空间为: at={ait} 14考虑到乘客的舒适性,加速度选择范围为[‑4,2]ms2; 3奖励函数设计基于激进型、适中型、保守型三种不同风格的跟驰奖励函数,其包括行车安全奖励函数、跟驰距离奖励函数、行车效率奖励函数和舒适性奖励函数; ①行车安全奖励函数跟驰考虑到跟驰过程中的安全性,设定为: Jsafety=‑δ[vit2+a]||{Collsion}    15其中δ和a为权重参数,||{Collsion}表示当碰撞发生时其值为1,其他情况时为0; ②跟驰距离奖励函数跟驰距离奖励函数如下: 其中,x为当前跟驰距离,dideal为偏好跟驰距离,分别选用48m,69m,90m来代表激进型、适中型、保守型三种风格的偏好跟驰距离; ③行车效率奖励函数使用车头时距值TH评估交通效率,TH定义为跟驰CAV i和前车CAVp到达指定点之间经过的时间,行车效率奖励函数如下: 对于激进型风格,奖励函数在TH值较小时具有很高的奖励;对于适中型风格,奖励函数对TH值有一定的敏感度; ④舒适性奖励函数采用归一化方法,将舒适度值调整到[0,1],舒适性奖励函数如下: 其中jerk为急动度值,3600为可允许的最大急动度值的平方; 对于跟驰任务,基于适中、保守或激进型驾驶风格的总奖励函数表示为奖励函数的线性组合: Jstyle=ω1Jsafety+ω2Jideal+ω3Jeffciency+ω4Jcomfort    19其中Jstyle为对应三种风格的总奖励函数;ω1、ω2、ω3、ω4为每种奖励函数的权重系数; DDPG由策略网络Actor和评价网络Critic构成;两个独立的神经网络分别表示DDPG中的Actor和Critic;在t时刻,ActorNetwork将状态st=vi,vp,Δv,di,p作为输入,并输出连续动作at;CriticNetwork的输入则是一个状态‑动作对st,at,其输出是一个标量Q值Qst,at;DDPG将Actor和Critic划分为两个具有相同拓扑结构的子网络:OnlineNet和Target Net,前者采用最新的网络参数,相隔一定时间后对Target网络进行更新;Actor和Critic网络的参数由梯度和最小化损失函数L更新; 执行策略由Actor单元输出,其损失函数为: Critic单元对Actor的输出策略进行评价,其对应损失函数表示如下: yk=rk+γQ'sk+1,μ'sk+1|θμ’|θQ’    22其中,θμ、θμ’分别为Actor中Online和Target的参数,θQ、θQ’分别为Critic中Online和Target的网络参数,rk为当前时刻奖励值,n为每次采样样本数,γ为折扣因子。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区黄桷垭崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。