吉林大学宋东鉴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利一种监督-强化联合微调的端到端自动驾驶策略进化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121706880B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610195372.7,技术领域涉及:G06N3/092;该发明授权一种监督-强化联合微调的端到端自动驾驶策略进化方法是由宋东鉴;张国庆;韩嘉懿;赵健;朱冰;曹伟光;姚明辉设计研发完成,并于2026-02-11向国家知识产权局提交的专利申请。
本一种监督-强化联合微调的端到端自动驾驶策略进化方法在说明书摘要公布了:本发明涉及自动驾驶策略进化领域,具体涉及一种监督‑强化联合微调的端到端自动驾驶策略进化方法,根据反馈层级将用户使用自动驾驶系统的数据样本分为性能缺陷样本、生理心理反馈样本、部分干预样本以及完全接管样本,针对性能缺陷样本和生理心理反馈样本,利用强化学习微调方法实现端到端自动驾驶策略进化;对于部分干预样本和完全接管样本,利用监督学习微调方法实现端到端自动驾驶策略进化;建立动态样本库,根据样本的差异程度动态地更新记忆样本,再根据记忆样本与当前用于微调训练的样本之间的差异程度加权计算记忆样本损失,最终利用记忆样本损失对强化学习微调和监督学习微调进行软约束。本发明充分利用多场景数据样本流且能持续学习。
本发明授权一种监督-强化联合微调的端到端自动驾驶策略进化方法在权利要求书中公布了:1.一种监督-强化联合微调的端到端自动驾驶策略进化方法,其特征在于:包括以下步骤: 首先,对于性能缺陷样本和生理心理反馈样本,合并得到无标签样本库; 通过逆向强化学习构建类人奖励函数,并预训练动作价值估计网络模型,所述类人奖励函数由逆向强化学习构建的类人奖励模型动态生成,确保策略优化方向契合于驾驶人的认知与习惯;所述逆向强化学习的流程中包含了逆向强化学习和正向强化学习的交替迭代过程,该过程在虚拟环境中进行;所述动作价值估计网络模型既用于判断自动驾驶样本的缺陷程度,筛选性能缺陷样本,也作为强化学习的初始动作价值估计网络;再通过正向的强化学习微调方法微调自动驾驶策略以及动作价值估计网络模型; 其次,对于部分干预样本和完全接管样本,合并得到有标签样本库; 监督学习微调视为一个回归任务,部分干预场景和完全接管场景中采集的原始信息为输入,对应时刻的驾驶人行为作为真实标签,其中;监督学习微调的对象为端到端自动驾驶策略,在标注样本集采集完成后,拷贝自动驾驶策略参数并对其微调,训练完成后替换原策略参数,微调的目标为最小化预测标签与真实标签的差异; 最后,在线微调进化过程中,建立动态样本库,根据样本的差异程度动态地更新记忆样本,再根据记忆样本与当前用于微调训练的样本之间的差异程度加权计算记忆样本损失,利用记忆样本损失对强化学习微调和监督学习微调进行软约束; 为了保证策略进化过程中的记忆稳定性,建立记忆约束方法,流程包括以下三部分: 1样本流数据结构化; 记忆库存储的样本数据分为无标签样本和有标签样本两类,无标签样本包含正常自动驾驶样本、性能缺陷样本和生理心理反馈样本,有标签样本包含部分干预样本和完全接管样本;针对无标签样本,记录原始数据以及策略生成的动作;针对有标签样本,记录原始数据和人类动作; 2动态记忆库建立; 为保证自动驾驶策略对旧数据的稳定性,建立动态记忆库,利用记忆库中的旧数据约束策略的更新;在训练过程中,利用状态分布差异对旧数据进行分类,并为不同种类的旧数据分配不同的空间,进而形成动态记忆库;具体过程如下: 利用条件Kullback-Leibler散度表示分布之间的差异,两段样本流分布之间的条件Kullback-Leibler散度定义为: ; 其中,为原始输入;为策略输出;、表示利用混合高斯模型拟合的不同种类样本流分布;为第一段样本流中,原始输入的概率分布;、表示在不同种类样本流中自动驾驶策略或人类根据原始输入条件所输出动作的条件概率;和分别为原始输入与策略输出的积分微元; 采用蒙特卡洛采样计算条件KL散度,条件Kullback-Leibler散度写作: ; 其中,和分别为样本流中原始输入和策略输出的采样数量; 在动态记忆过程初期,所有的条件Kullback-Leibler散度超过阈值时,新的样本流将会作为新的记忆样本种类存储;在动态记忆过程后期,限定记忆库存储的记忆样本种类不得超过限值;当样本种类超过限值后,新的样本流将替代与之差异最小的一组记忆样本; 3记忆样本软约束; 利用动态记忆库内不同种类的记忆样本约束策略更新;在利用当前样本流微调策略时,利用动态记忆样本定义损失函数;记忆样本的损失函数定义如下: ; 其中,为动态记忆库中的样本种类数量;为自动驾驶策略网络的参数;为当前用于训练的样本批次的损失函数,在强化学习微调中,在监督学习微调中,为样本的动作价值,为策略动作与专家动作间的差异,为一个训练批次中样本的数量;为第个种类的样本集计算损失时的权重,定义如下: ; 其中,为当前样本流与第个种类的样本的条件Kullback-Leibler散度; 利用记忆样本的损失函数作为微调更新时的软约束,利用当前样本与记忆样本的损失函数构建综合损失函数: ; 其中,为记忆样本损失的权重,在强化微调和监督微调两种进化方式中采取不同的权重值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市朝阳区前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励