北京航空航天大学;北京交通大学林椿眄获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京航空航天大学;北京交通大学申请的专利一种面向轨道交通的视觉大模型高效微调及语义分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120510387B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510998144.9,技术领域涉及:G06V10/26;该发明授权一种面向轨道交通的视觉大模型高效微调及语义分割方法是由林椿眄;田大新;王尧;段续庭;周建山设计研发完成,并于2025-07-21向国家知识产权局提交的专利申请。
本一种面向轨道交通的视觉大模型高效微调及语义分割方法在说明书摘要公布了:本申请公开了一种面向轨道交通的视觉大模型高效微调及语义分割方法,涉及人工智能深度学习领域中的图像特征处理、视觉大模型微调及语义分割领域,该方法构建轨道运行环境语义分割数据集,并利用轨道运行环境语义分割数据集训练视觉大模型;通过掩码自编码器提取轨道交通图像高维多尺度维特征;将高维多尺度特征输入至记忆注意力模块,得到交叉注意力计算结果;根据提示编码,利用视觉大模型解码器对编码后的图像特征进行掩码解码,确定目标指针列表并初始化掩码解码器的权重,调整视觉大模型,识别待测轨道运行环境图像,实现轨道图像的语义分割。
本发明授权一种面向轨道交通的视觉大模型高效微调及语义分割方法在权利要求书中公布了:1.一种面向轨道交通的视觉大模型高效微调及语义分割方法,其特征在于,所述面向轨道交通的视觉大模型高效微调及语义分割方法包括: 利用自动化标注技术对采集的轨道运行环境图像进行标注,构建轨道运行环境语义分割数据集,并利用所述轨道运行环境语义分割数据集训练视觉大模型;所述视觉大模型包括记忆注意力模块; 在所述视觉大模型的训练过程中,利用所述视觉大模型中的掩码自编码器对所述轨道运行环境语义分割数据集中的轨道运行环境图像进行特征编码,确定编码后的环境图像,并提取所述编码后的环境图像中的多尺度高维特征,具体包括: 利用掩码自编码器预训练的图像编码器,提取所述轨道运行环境图像中的图像特征,得到图像多尺度高维特征信息;所述预训练的图像编码器包括一个带有窗口注意力和四个等间距全局注意力块的ViT-H16模型; 基于所述图像多尺度高维特征信息,采用预训练的图像编码器对所述轨道运行环境图像进行特征编码,确定所述轨道运行环境图像的多尺度高维特征表示;其中,采用MAE预训练的Hiera图像编码器对轨道运行环境图像进行特征编码,分别采用特征编码器第三和第四阶段的输出作为图像的多尺度高维特征表示,即大小为和的图像特征图,以此为每张图像生成嵌入;来自第一阶段和第二阶段采样步长为4和8的特征添加到掩码解码器的上采样层中;所述多尺度高维特征包括提示图像的记忆和目标指针的记忆; 将所述多尺度高维特征输入至所述记忆注意力模块,并利用所述记忆注意力模块中的块对所述提示图像的记忆和所述目标指针的记忆进行交叉注意力计算,得到交叉注意力计算结果; 记忆注意力模块采用4个块,每个块执行自注意力然后对提示图像和目标指针的记忆进行交叉注意力计算并存储在记忆库中,再经过多层感知机进行特征映射;在模块中除了正弦绝对位置嵌入之外,在自注意力层和交叉注意力层中使用二维空间旋转位置嵌入,具体表示为: ; ; ; 其中,为图像二维空间位置的坐标分量;为维向量;为特征维度上的分组索引,取值范围为;为旋转角度;是一个超参数;是经过编码后的向量; 基于所述交叉注意力计算结果,根据提示编码,利用所述视觉大模型中的掩码解码器对所述编码后的环境图像进行掩码解码,确定对象指针列表; 基于所述对象指针列表,初始化掩码解码器的权重,并采用提示图像和提示文本注入轨道运行环境图像分割任务的知识,调整所述视觉大模型; 根据调整后的视觉大模型识别待测轨道运行环境图像,确定待测轨道运行环境。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学;北京交通大学,其通讯地址为:100191 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励