华南理工大学谭明奎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南理工大学申请的专利一种预训练视觉大模型重编程方法、系统、装置及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117172308B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311003438.0,技术领域涉及:G06N3/096;该发明授权一种预训练视觉大模型重编程方法、系统、装置及介质是由谭明奎;许守恺;陈传深设计研发完成,并于2023-08-09向国家知识产权局提交的专利申请。
本一种预训练视觉大模型重编程方法、系统、装置及介质在说明书摘要公布了:本发明公开了一种预训练视觉大模型重编程方法、系统、装置及介质,属于视觉大模型技术领域。其中方法包括:将基础模型的教师提取器进行冻结;使用与下游任务直接相匹配的目标模型的分类器,对基础模型的教师分类器进行重编程,以使基础模型对齐任务;引入投影器,将基础模型中的知识投射到下游任务中。本发明通过重编程和蒸馏的过程,我们可以将预训练模型学习到的通用和高层次的特征和知识迁移到小模型上,从而提高小模型的泛化能力和适应性;可以极大地降低大模型迁移产生的成本代价,无需微调预训练大模型。
本发明授权一种预训练视觉大模型重编程方法、系统、装置及介质在权利要求书中公布了:1.一种预训练视觉大模型重编程方法,应用于图像处理领域,其特征在于,包括以下步骤: 将基础模型的教师提取器进行冻结; 使用与下游任务直接相匹配的目标模型的分类器,对基础模型的教师分类器进行重编程, 以使基础模型对齐任务; 引入投影器,将基础模型中的知识投射到下游任务中; 所述基础模型的教师分类器采用Transformer类型的基础模型来实现; 对于Transformer类型的基础模型,采用一个多头自注意力机制作为教师分类器,将基础模型的最后一层特征映射到代理空间中: 设基础模型的最后一层特征为其中N是序列长度,C是通道数;教师分类器的参数为三组线性变换矩阵:查询矩阵键矩阵和值矩阵其中D是是每个头的维度;那么教师分类器的输出为: 其中softmax函数是沿着最后一个维度进行归一化; 所述引入投影器,将基础模型中的知识投射到下游任务中,包括: 在教师提取器和教师分类器之间增加一个适配层,用于调整特征维度和增强特征表达:设教师提取器的输出特征为其中N是序列长度或者空间尺寸,C是通道数或者隐藏维度;适配层的参数为一个线性变换矩阵其中D是代理空间的维度;那么适配层的输出为: fa=fWa 如此,适配层能够将教师提取器的输出特征转换成与教师分类器相匹配的维度,并且保留了原始特征的信息; 此外,在适配层后面加入一个归一化层,用于消除特征分布的差异,并且增加了一个残差连接,用于平衡特征的重要性; 最终,教师提取器和分类器之间的网络结构为: yt=Tf=WtLNfa+f 其中,LN是层归一化操作,Wt是教师分类器的参数,K是代理空间的维度; 对于给定下游数据重编程的公式表达如下: 其中,表示基于目标数据域的损失均值,ft表示基础模型backbone,fp表示模型重编程模块,ct表示分类器,CE表示指导重编程过程的交叉熵损失函数,xs表示输入数据,y表示真实标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南理工大学,其通讯地址为:510641 广东省广州市天河区五山路381号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。