吉林大学赵健获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉吉林大学申请的专利端到端自动驾驶测试的高保真轻量化世界模型构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120909949B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511455644.4,技术领域涉及:G06F11/3668;该发明授权端到端自动驾驶测试的高保真轻量化世界模型构建方法是由赵健;李文旭;朱冰;张培兴;黄殷梓设计研发完成,并于2025-10-13向国家知识产权局提交的专利申请。
本端到端自动驾驶测试的高保真轻量化世界模型构建方法在说明书摘要公布了:本发明涉及一种世界模型构建方法,特别涉及一种端到端自动驾驶测试的高保真轻量化世界模型构建方法,构建高保真世界模型,针对世界模型参数庞大、推理效率低下等问题,对世界模型进行知识蒸馏,在保留世界模型生成能力的基础上降低模型参数,提升推理效率;针对世界模型计算瓶颈部分自定义开发CUDA算子、优化显存分配,并基于单设备多线程调度及多设备协同计算方法,提升高保真世界模型的推理效率。本发明可构建一种面向端到端自动驾驶测试的高保真轻量化世界模型,有效解决现有世界模型多模态信息对齐精度不高、跨视图及跨帧一致性差、推理效率低等问题,提升端到端自动驾驶系统测试进程的置信度,大幅加快端到端自动驾驶系统的测试效率。
本发明授权端到端自动驾驶测试的高保真轻量化世界模型构建方法在权利要求书中公布了:1.一种端到端自动驾驶测试的高保真轻量化世界模型构建方法,其特征在于:包括以下步骤: 步骤1、构建高保真世界模型; 以扩散模型为基础构建世界模型基本骨架,在世界模型基本骨架基础上,构建条件控制模块以实现世界模型多视角图像的可控生成,融入实例控制模块、多视图及时序帧控制模块,引入实例深度及3D掩码,结合实例属性提取实例特征,构建跨视图一致性损失函数及跨帧一致性损失函数,同时设计世界模型训练损失函数,构建高保真世界模型;包括以下步骤: 步骤1.1、构建世界模型基本骨架; 利用扩散模型构建世界模型基本骨架,扩散模型包括正向扩散及反向去噪过程,在正向扩散过程中,逐步向原始数据添加高斯噪声: 式中,N表示高斯分布;qzt|zt-1表示正向扩散过程中的转移概率分布;zt表示潜在变量;I表示单位协方差矩阵;βt表示第t个时间步的噪声方差;根据原始样本x0计算得到任意时间步的潜在变量zt,边缘分布为: 式中,qzt|x0表示正向扩散过程中的边缘分布,αt表示单步信号保留系数,αt=1-βt; 在反向去噪过程中,利用神经网络生成每一步的反向条件分布qzt-1|zt,逐步去噪重建原始样本,训练去噪神经网络εθzt,t预测正向扩散过程中引入的高斯噪声ε,得到预测均值: 式中,μθzt,t表示预测均值,利用该均值构建用于采样的逆向分布pθzt-1|zt: 式中,表示分布的协方差控制项,潜在变量,; 步骤1.2、构建条件控制模块; 在世界模型基本骨架上集成条件控制模块,定义六类并行编码并能够融入世界模型骨架的条件控制信号,分别为场景3D布局L3D、车辆位姿pose、相机传感器参数Mcam、文本提示词prom、道路布局Lroad、参考帧Xref,将这六类条件控制信号表示为综合条件变量c: 为六类条件控制信号分别构建编码器,得到编码后的六类条件控制信息: 式中,e3D、epose、ecam、eprom、eroad、eref分别为3D布局L3D、车辆位姿pose、相机传感器参数Mcam、文本提示词prom、道路布局Lroad、参考帧Xref编码后的条件控制信息,E3D、Epose、Ecam、Eprom、Eroad、Eref分别为3D布局L3D、车辆位姿pose、相机传感器参数Mcam、文本提示词prom、道路布局Lroad、参考帧Xref的编码器; 对条件控制信息进行归一化融合: 式中,ec表示聚合后的综合条件控制信息;f表示条件控制信息聚合器; 将综合条件控制信息ec融入到世界模型骨架网络中; 步骤1.3、构建实例控制模块; 针对实例对象引入实例深度Dk及3D掩码Mk∈0,1H×W,结合实例属性ck,通过多个编码器提取实例特征: 式中,zk表示第k个实例的融合特征向量,Einst、ED、EM分别表示实例属性特征编码器、实例深度特征编码器、3D掩码特征编码器;表示融合映射函数;为增强训练稳定性并提升模型对实例位姿和深度的感知能力,引入实例损失函数Linst: 式中,、表示3D掩码、实例深度的模型预测结果;λm、λd为3D掩码、实例深度的损失权重;BCE表示二元交叉熵损失;K表示实例对象集合; 步骤1.4、构建多视图及时序帧控制模块; 在多视图层面,令第i个视角下的相机矩阵为Pi=Ki[Ri|ti],Ki表示相机内参,Ri、ti分别表示相机外参中的旋转矩阵及平移向量;在世界模型网络结构中引入跨视图注意力机制,通过几何关系对齐不同视角下的实例区域,引导网络在特征层面融合来自其他视图的上下文信息,提升图像在不同相机视角下的一致性与物理可对齐性; 在连续帧层面,在世界模型网络结构中引入跨帧注意力机制,建模实例在连续帧之间的动态演化过程,令帧间自车运动为δ,基于几何变换对特征进行对齐,将t+1时刻的特征图映射到t时刻坐标系中,结合注意力机制实现前后帧间的信息融合,提升生成图像序列的时序一致性与动态稳定性; 引入基于实例表示的监督损失,约束模型生成结果在不同视图与时间帧下的一致性,对每一时刻t、每一视角i下的实例k,通过将实例掩码应用于特征图,提取实例向量表示: 式中,表示时刻t视角i下实例k的语义向量表示,AugPool表示平均池化; 构建跨视图一致性损失函数及跨帧一致性损失函数,分别用于衡量同一时刻多视图间实例的一致性及连续时刻多视图间实例的一致性: 式中,Lview、Ltemp分别表示跨视图一致性损失函数及跨帧一致性损失函数;cos表示余弦相似度;表示第t个时刻、第i个相机视角下的实例集合; 步骤1.5、构建世界模型训练损失函数; 构建世界模型完整的训练损失函数: 式中,Ltotal表示总损失;Lcond表示扩散重建损失函数;Linst表示实例损失函数;Lview表示跨视图一致性损失函数;Ltemp表示跨帧一致性损失函数;λcond、λinst、λview、λtemp分别表示各项损失的权重系数; 步骤2、对世界模型进行知识蒸馏; 构建“教师模型-学生模型”知识蒸馏基本架构,设计知识蒸馏损失函数,将学生模型输出的多视图图像与教师模型输出进行对齐,对步骤1中的高保真世界模型进行轻量化处理,减少世界模型复杂度及推理开销; 步骤3、自定义开发CUDA算子; 定位世界模型中计算资源消耗最大的瓶颈环节,针对性自定义开发CUDA算子,改写关键计算内核,将两个或两个以上连续算子的级联计算融合为单个CUDA核函数,充分发挥GPU的并行计算性能,同时优化线程块划分和共享内存使用方式,在多视图投影计算时,编写专用CUDA内核;引入混合精度计算策略,利用内存复用和及时释放技术,优化显存占用逻辑; 步骤4、单设备多线程调度与多设备协同计算; 针对单设备环境构建多线程并行调度机制,针对多设备环境构建多设备协同计算机制,二者相互配合提升世界模型推理效率。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林大学,其通讯地址为:130012 吉林省长春市前进大街2699号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励