西安电子科技大学王笛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利基于边界框提取和语义一致性约束的文本-行人检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116842212B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310609087.1,技术领域涉及:G06F16/583;该发明授权基于边界框提取和语义一致性约束的文本-行人检索方法是由王笛;李渊博;田玉敏;王泉;万波;罗雪梅;王义峰;赵辉;潘蓉设计研发完成,并于2023-05-26向国家知识产权局提交的专利申请。
本基于边界框提取和语义一致性约束的文本-行人检索方法在说明书摘要公布了:本发明公开了一种基于边界框提取和语义一致性约束的跨模态文本‑行人检索方法,包括下述步骤:提取图像细粒度边界框;提取文本细粒度名词短语;生成训练集;构建细粒度聚合网络;训练细粒度聚合网络;使用文本对行人进行检索。本发明构建了基于边界框提取和语义一致性约束的文本‑行人检索模型,利用现有的大型预训练模型GLIP和CLIP中的视觉语言知识,使用文本提示和GLIP精准提取识别行人身份的关键性局部特征,提高行人检索的准确度;使用CLIP提取视觉和语言特征,获取更为全面的语义表征;设计保持特征语义一致性的约束方法,减少噪声干扰,提高行人检索的稳定性。
本发明授权基于边界框提取和语义一致性约束的文本-行人检索方法在权利要求书中公布了:1.一种基于边界框提取和语义一致性约束的文本‑行人检索方法,其特征在于,提取数据集的图像‑文本对中每张图像的细粒度边界框,计算语义一致性约束损失;该检索方法的步骤包括如下: 步骤1,提取数据集的图像‑文本对中每张图像的细粒度边界框: 将描述行人属性的文本提示与每张图像同时输入到短语定位模型GLIP中,提取数据集中每张图像的边界框; 步骤2,提取数据集的图像‑文本对中每个文本的细粒度名词短语; 步骤3,生成训练集: 将每张图像与其对应的细粒度边界框以及每个文本与其对应的细粒度名词短语组成一个样本,将数据集中所有样本组成训练集; 步骤4,构建细粒度聚合网络: 步骤4.1,构建一个由CLIP的图像编码器和文本编码器组成的子网络,其中图像编码器为CLIP ViT‑B16,文本编码器为CLIP X‑former,两个编码器均由12层的Transformer块与一个全连接层串联构成,输出向量维度为512; 步骤4.2,构建一个由两条支路并联组成的细粒度聚合网络,第一条支路由图像编码器与双向GRU的串联组成,第二条支路由文本编码器与双向GRU的串联组成; 步骤5,训练细粒度聚合网络: 将训练集输入到细粒度聚合网络中,图像编码器前向传播输出每张图像的全局特征; 文本编码器中前向传播输出每个文本的全局特征;每张图像的所有边界框经细粒度聚合网络前向传播得到一个图像局部特征,每个文本的名词短语序列经细粒度聚合网络得到一个文本局部特征; 使用图像和文本的全局特征分别计算模态间语义对齐损失以及身份分类损失,使用图像全局特征和图像局部特征计算语义一致性约束损失,三个损失函数相加作为总的目标损失函数进行迭代更新网络参数,直至总目标损失函数收敛为止,得到训练好的细粒度聚合网络; 步骤6,使用文本对行人进行检索: 步骤6.1,对待检索的文本和待检索的行人图像,分别采用与按照步骤1,步骤2的方法获取对应的名词短语和边界框,分别输入到训练好的细粒度聚合网络中获得文本全局特征、文本局部特征和图像全局特征、图像局部特征; 步骤6.2,分别计算待检索的文本和待检索的行人图像的局部相似度、全局相似度、加权计算总相似度,对待检索的行人图像的相似度按照降序进行排序,从图像序列中选择前10个图像作为检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。