华东师范大学孙力获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华东师范大学申请的专利一种基于对比语言图像预训练模型CLIP的行人重识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115393902B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211173432.3,技术领域涉及:G06V40/10;该发明授权一种基于对比语言图像预训练模型CLIP的行人重识别方法是由孙力;李思源设计研发完成,并于2022-09-26向国家知识产权局提交的专利申请。
本一种基于对比语言图像预训练模型CLIP的行人重识别方法在说明书摘要公布了:本发明公开了一种基于对比语言图像预训练模型CLIP的行人重识别方法,对以CNN或Transformer作为主干网络的图像编码器进行训练:固定文本编码器和图像编码器的参数,为每个身份设定含可学习参数的描述文本,将图像和对应描述文本送入图像编码器和文本编码器;计算文本到图像和图像到文本的对比损失函数,训练描述文本中可学习参数;固定文本编码器和描述文本,生成并保存每个身份的文本特征,将图像送入图像编码器;计算图像到文本的交叉熵损失函数,训练图像编码器;通过图像编码器得到用于行人重识别的特征。本发明与现有技术相比,将语言图像预训练模型应用到重识别任务中,方法简单,解决了过程中行人重识别任务缺乏文本标签描述的问题,提高了准确率。
本发明授权一种基于对比语言图像预训练模型CLIP的行人重识别方法在权利要求书中公布了:1.一种基于对比语言图像预训练模型CLIP的行人重识别方法,是利用以Transformer作为主干网络的文本编码器对以CNN或Transformer作为主干网络的图像编码器进行训练,并利用所述图像编码器生成图像特征进行行人重识别,其特征在于,该方法包括以下具体步骤: 步骤1:对于具有数千个身份的MSMT17数据集,在训练阶段为其训练集中的每个身份设定一组含有可学习参数的描述文本,描述文本的模板为aphotoofa[X]1[X]2[X]3...[X]Mperson,其中[X]m为对应的可学习的词符token参数,m∈1,...M; 步骤2:固定图像编码器和文本编码器的参数,将图像和对应的描述文本送入图像编码器和文本编码器; 步骤3:计算图像到文本和文本到图像的对比损失函数Li2t和Lt2i,以训练描述文本中的可学习参数,对应公式如下; sVi,Ti=Vi·Ti=gIimgi·gTtextia 其中imgi为第i张图像经过图像编码器输出的分类标记[CLS]token,而texti表示对应描述文本经过文本编码器的输出标记[EOS]token,gI和gT为将[CLS]token和[EOS]token映射到同一空间的线性层,最终得到图像特征Vi和文本特征Ti,sVi,Ti是图像特征Vi和文本特征Ti的相似度;B为当前批次所含的图像数,a为当前批次中的索引,yi是第i张图的身份标签,Pyi代表着同一批次中属于yi这个身份的所有图像的索引集合,|Pyi|表示这个集合所含的图像数; 步骤3:固定文本编码器和描述文本,生成并保存每个身份的文本特征,将图像送入图像编码器; 步骤4:计算图像到文本的交叉熵损失函数,训练图像编码器; qk=1-∈δk,y+∈Ne 其中N为数据集的训练集所含的身份数目,k为数据集中所有身份的索引,qk为平缓标签,表示当前图片属于第k个身份的期望概率,其中δk,y为冲激函数,在k=y的时候为1,其余时候为0,而∈为控制平缓程度的参数; 步骤5:在测试阶段将测试集图像送入训好的图像编码器得到对应的图像特征,进行行人重识别:对于测试集的query里的每一张图,在gallery中找到最相似的其他摄像头下的图,并计算mAP和Rank-1指标。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励