江苏大学陆思凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏大学申请的专利场景驱动的高泛化性联邦强化学习自动驾驶系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119821428B 。
龙图腾网通过国家知识产权局官网在2026-04-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510211184.4,技术领域涉及:B60W50/00;该发明授权场景驱动的高泛化性联邦强化学习自动驾驶系统及方法是由陆思凯;蔡英凤;王海;刘泽;刘擎超;孙晓强设计研发完成,并于2025-02-25向国家知识产权局提交的专利申请。
本场景驱动的高泛化性联邦强化学习自动驾驶系统及方法在说明书摘要公布了:本发明公开了场景驱动的高泛化性联邦强化学习自动驾驶系统及方法,模仿学习专家从专家演示中学习隐式专家偏好,结合动态驾驶建议实现对强化学习学生特征提取、奖励函数建模、损失函数构建,群体优化多角度指导,针对性解决强化学习目标对齐难题;模仿学习专家,通过交叉注意力增强多学习任务之间的联系,实现场景深度感知和场景语义感知嵌入指导下的鸟瞰图重构过程。通过跨场景优化,实现不同专家数据分布之间的特异性经验共享,训练高普适性模仿学习专家;通过提出的奖励函数解码器输出运动规划、奖励反馈和动态驾驶建议作为强化学习学生训练和优化依据,实现驾驶规则的学习。通过时序处理模块结合知识蒸馏,提高原始图像输入的表征能力。
本发明授权场景驱动的高泛化性联邦强化学习自动驾驶系统及方法在权利要求书中公布了:1.场景驱动的高泛化性联邦强化学习自动驾驶系统,其特征在于,包括:强化学习学生建模部分、训练模仿学习专家部分、以及蒸馏强化学习学生部分; 所述强化学习学生建模部分,首先构建基于反馈的目标对齐模块,然后构建时序处理模块;所述目标对齐模块,通过比较两段轨迹的加权累计奖励来产生二元反馈,建立基于奖励真值和专家演示的偏好模型;所述时序处理模块,首先通过多层感知器对包含车辆速度和车辆行驶命令的独热编码在内的额外输入进行处理,然后将多层感知器处理后输出的特征与骨干网络提取特征堆叠,并且初始化一组可学习的历史查询作为时序处理模块的原始输入,qtemporal与堆叠后的特征顺序经过时序交叉注意力层、自注意力层以及前馈神经网络FFN后输出当前查询 所述训练模仿学习专家部分,首先采用场景深度感知和场景语义感知嵌入指导鸟瞰图重构过程,通过语义-深度启发式解码器输出鸟瞰图查询,并采用速度解码器、运动解码器、鸟瞰图解码器、物体解码器、以及奖励函数解码器分别输出速度预测、运动预测、鸟瞰图预测、物体检测、以及奖励反馈预测,最后通过特异性经验共享模块,训练高适用性模仿学习专家; 所述鸟瞰图重构,是在鸟瞰图预测过程中额外增加深度估计和语义分割两项任务,使用深度信息和语义信息作为标签结合注意力机制,实现深度-语义启发式鸟瞰图重构; 所述深度-语义启发式解码器,包含2个自注意力层3个交叉注意力层,初始化一组可学习的鸟瞰图查询作为原始输入,其中N表示查询的数量,C表示通道数;首先让鸟瞰图查询通过自注意力层以产生查询的内部联系;然后将查询传递给交叉注意力层,输出交互后的鸟瞰图查询,作为聚合嵌入的依据,这个过程可以定义为: Q=w′qq,K=w′kfimage,V=w′vfimage Q′=w″AV 其中Q,K和V分别表示查询、键、以及值,wq′,w′k,wv′和w″表示可学习参数,A表示注意力图,h表示多头注意力的数量,Q′表示输出查询,三个交叉注意力机制相同,为了进一步促进不同任务间的交互,将整个深度-语义启发式模块重复3次,输出充分交互后的鸟瞰图查询,并将鸟瞰图查询拆分为运动查询Qm和预测查询Qp两部分,Qm通过所提出的时序处理模块进行处理,输出处理后的当前运动查询Qcurrent; 所述速度解码器,输出一组权重为的加权四模态速度以获取预测速度,其过程定义为: λv=MLPFFNcrossatenQv=Qcurrent,KvVv=qv 其中,Qcurrent表示当前的运动查询,Qv,Kv和Vv分别表示速度解码器的查询、键、以及值,表示一组可学习的速度查询; 所述运动解码器,输出一组导航点查询并通过门控循环单元GRU输出一组导航点预测,其中T=10表示导航点预测时步,其过程定义为: Qwaypoint=FFNselfattencrossatenQw=Qcurrent,KwVw=qw xt+1=xt+Δxt 其中,Qw,Kw和Vw分别表示运动解码器的查询、键、以及值,表示一组可学习的导航点查询,Δxt表示在t时刻下的期望坐标变化量,xt表示在t时刻下的智能体坐标,xtt表示在t时刻下的智能体目标点,xt+1表示在t+1时刻下的智能体坐标; 所述鸟瞰图解码器由卷积层和上采样层组成,以输出鸟瞰图重构结果其中cb表示类别数量; 所述物体解码器,输出位置热力图预测∈[0,1]64×64,以及回归图预测;其中以及 所述奖励函数解码器,构建基于transformer的奖励函数模型,对查询进一步处理;首先初始一组可学习的奖励查询然后使用一个运动交叉注意力层与一个预测交叉注意力层顺序聚合qr、时序处理模块的输出Qcurrent与预测查询Qp,随后输出查询被传递到自注意力层,用于内部交互聚合,聚合后的查询被传递到前馈神经网络FFN,并通过多层感知器MLP层输出奖励值; 所述特异性经验共享模块,在不同专家演示分布上训练各自的教师模型,训练过程中按照聚合间隔,聚合奖励函数解码器和语义-深度启发式解码器参数,从而在不传输样本的前提下,实现特异性经验共享; 所述蒸馏强化学习学生部分,按照损失函数蒸馏训练强化学习学生,并在完成本地训练后进行参数聚合,其中损失函数包括梯度下降损失、探索损失、蒸馏损失、以及建议损失。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏大学,其通讯地址为:212013 江苏省镇江市京口区学府路301号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励