当前位置 : 首页 > 专利喜报 > 重庆理工大学董世都获国家专利权

重庆理工大学董世都获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉重庆理工大学申请的专利基于相似度引导和不匹配特征增强的行人重识别方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN119580302B 。

龙图腾网通过国家知识产权局官网在2025-10-28发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202411597893.2，技术领域涉及：G06V40/10；该发明授权基于相似度引导和不匹配特征增强的行人重识别方法是由董世都;冉启悦;袁凯;文婷设计研发完成，并于2024-11-11向国家知识产权局提交的专利申请。

本基于相似度引导和不匹配特征增强的行人重识别方法在说明书摘要公布了：本发明公开了基于相似度引导和不匹配特征增强的行人重识别方法，涉及智能识别技术领域。本发明提出了一种相似性引导掩蔽策略，该策略增强了掩码语言建模过程中图像信息的使用，以促进更强的跨模态交互，与随机掩蔽不同，这种方法将模型的注意力引导到更相关的图像文本对应关系上，从而实现更好的细粒度对齐；且通过引入了一种新颖的不匹配特征强调模块，该模块创新性地利用不匹配的特征来提高检索准确性。以前的工作主要关注匹配的图像文本特征，我们的不匹配特征强调模块探索了不匹配特征的重要性，这些特征在区分视觉相似的个体方面起着关键作用。

本发明授权基于相似度引导和不匹配特征增强的行人重识别方法在权利要求书中公布了：1.基于相似度引导和不匹配特征增强的行人重识别方法，其特征在于：至少包括以下步骤： S1：图像和文本特征提取，使用对比语言-图像预训练模型中的预训练编码器提取图像和文本特征图，即利用12层VisionTransformer作为图像编码器，利用12层Transformer架构作为文本编码器，对比语言-图像预训练模型即为CLIP，VisionTransformer即为ViT； S2：相似度引导多模态交互，利用图像和文本特征之间的相关性来选择要掩码的文本特征，与图像特征高度相关的文本特征更大几率被掩码，这种策略鼓励在MLM过程中使用图像信息，从而增强图像和文本之间的跨模态交互； S3：通过不匹配特征强调模块进行不匹配特征增强，旨在降低假阳性率并提高整体检索准确性，所述不匹配特征强调模块即为MFE；所述MFE模块包括不匹配图像特征提取和不匹配文本特征提取两种不同的模式运作，每种模式都配有定制的信息聚合策略；所述不匹配图像特征提取为UIE，所述不匹配文本特征提取为UTE，所述信息聚合策略为IG策略；所述IG策略是UIE和UTE模式的关键组件，用于解决在高维空间中识别不匹配特征的挑战；所述对于UTE的过程与UIE类似，所述UTE与UIE的区别为从文本方面操作，专注于不匹配任何图像特征的文本特征，且所述UTE中的IG策略以类似于UIE的方式聚合图像标记；所述UIE模式下的MFE识别给定对中不匹配任何文本特征的图像特征；所述UIE模式下的MFE应用至少包括以下步骤：用IG策略将L个文本标记聚合成K个文本标记之后，每个图像标记与K个文本标记计算相似度； UIE的IG策略应用无参数自适应平均池化将文本标记聚合成更紧凑的表示，其中；即为：文本标记被分成组，第组内文本特征的索引用表示，每组内的多个文本特征被处理形成单个聚合特征，意识到平均池化带来显著的信息损失，在池化前使用单层神经网络进行投影和GELU激活，池化后，对输出应用层归一化以确保一致的特征尺度； IG策略表述为公式5：；其中表示第组中的文本特征集合，是第组的索引集合，是聚合后的特征；随后，文本特征和视觉特征通过1x1卷积投影到公共特征空间，之后计算相似度，表述为公式6：；其中，，是和之间的余弦相似度，表示第个图像标记和第个文本标记之间的相似度；当一个图像特征与所有个文本特征的相似度都小于0，则将其识别为不匹配任何文本特征的图像特征；为突出不匹配程度，将此图像特征与所有文本特征的负相似度分数相加，表述为公式7：；其中表示第个图像特征的累积不匹配分数，求和中只包含负相似度值以强调不匹配，标量被复制次形成，使其与维度对齐；随后，这个不匹配分数用作与进行逐元素相乘的权重因子，得到视觉特征，它强调了与所有文本标记的不匹配程度，表述为公式8：；使用相同的方法，识别所有不匹配任何文本特征的图像标记，形成，其中表示这种已被识别的图像特征的数量；对于每个图像-文本对，为强调不匹配特征的影响，计算这些图像特征与文本特征之间的相似度，平均结果，表述为公式9：；表示图像和文本特征在不匹配情况下的平均相似度得分；G表示被识别为与文本不匹配的图像特征数量；L是文本特征数量；表示被识别为与文本不匹配的第i个图像特征与第j个文本特征的余弦相似度；然后将其与全局图像-文本相似度结合；对于个图像-文本对，对内相似度由全局特征余弦相似度和共同决定，而对间相似度，即第个图像和第个文本之间，其中，仅由全局特征余弦相似度决定，表述为公式10和公式11：；；其中和分别表示第个图像和第个文本的全局特征，从第个图像到第个文本的相似度，记为，衡量视觉元素和文本描述之间的对应关系，用相似的方法获得，即第个文本到第个图像的相似度；得出的这个混合相似度用于计算图像-文本对比损失，即为ITC损失，所述ITC损失是一种用于训练多模态模型的方法，通过最大化匹配图像-文本对之间的相似度，同时最小化不匹配对之间的相似度，来优化匹配图像-文本对之间的对齐；在MFE模块的最后一步，利用之前步骤中计算的相似度分数来计算ITC损失，以增强不匹配特征的效果；通过强调这些对比关系，ITC损失显著增强了模型区分视觉上相似个体的能力，详细计算如下公式组12：；；；其中是温度超参数； S4：进行训练和推理，采用多任务学习方法，在四个并行组件中优化四个损失函数，所述四个并行组件包括SGMI模块、MFE模块、ID损失和SDM损失，所述SGMI模块计算MLM损失，MLM损失是掩码文本标记与其标签之间交叉熵的总和，所述MFE模块包含ITC损失，同时，所述ID损失和SDM损失独立计算，所述ID损失的应用为：使用ID损失基于个体身份对他们进行分组，确保在身份级别上匹配，所述SDM损失的应用为：使用SDM损失来最小化图像-文本相似度的分布与匹配标签的归一化分布之间的KL散度，在推理过程中，为每个文本查询和图像候选对计算相似度度量，这种计算采用余弦相似度方法来量化文本和图像特征之间的相关性，随后，使用来建立图像库中个体的排序列表，检索并呈现与给定文本描述最相近的最高排名图像匹配。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人重庆理工大学，其通讯地址为：400054 重庆市巴南区红光大道69号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

重庆理工大学董世都获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务