当前位置 : 首页 > 专利喜报 > 浙江工业大学吴一鸣获国家专利权

浙江工业大学吴一鸣获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉浙江工业大学申请的专利基于自监督掩码模型和跨模态码本的文本行人搜索方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116343109B 。

龙图腾网通过国家知识产权局官网在2025-12-12发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310093067.3，技术领域涉及：G06V20/52；该发明授权基于自监督掩码模型和跨模态码本的文本行人搜索方法是由吴一鸣;潘企何;高楠;梁荣华设计研发完成，并于2023-02-10向国家知识产权局提交的专利申请。

本基于自监督掩码模型和跨模态码本的文本行人搜索方法在说明书摘要公布了：一种基于自监督掩码模型和跨模态码本的文本行人搜索方法，包括：先对输入的文本和图片进行遮盖，然后输入到特征提取主干网络中，得到视觉特征FV和文本特征FT，然后将视觉特征FV和文本特征FT输入到映射层，得到图片全局特征FV1和文本全局特征FT1，然后进行对齐。同时将视觉特征FV和文本特征FT输入到跨模态码本中，将视觉特征FV和文本特征FT用码本中与之最接近的特征进行替换，然后分别将替换后的特征输入到图片解码器和文本的分类网络中，最后将结果和原始的输入进行对比。本发明既能提升模型的特征学习的能力，又能提升模型对两个模态特征对齐的能力。

本发明授权基于自监督掩码模型和跨模态码本的文本行人搜索方法在权利要求书中公布了：1.一种基于自监督掩码模型和跨模态码本的文本行人搜索方法，其特征在于，遮盖住部分比例的图片块、文本块，以及创建了一个跨模态的码本，包括以下步骤：步骤1，读取数据集，将每一对匹配的文本描述和图片作为模型的数据输入；步骤1.1，先将图片缩放到预定的大小，并执行水平翻转、随机增加高斯噪声进行数据增强，然后将一张图片分成hp*wp个方形的小块，p为每个小块边长，h和w分别是图片的长和宽尺寸；步骤1.2，然后随机选取部分图片块，并使用统一的掩码令牌进行遮盖；步骤1.3，将文字描述输入到分词器中，将单词、词组转换为对应的编号；同时，随机选取部分文本块，并使用统一的掩码令牌进行遮盖；步骤2，将处理好的经过掩码遮盖的图片和描述文本输入到两个模态的特征编码器中；具体包括：步骤2.1，视觉编码器EV，并加载在数据集ImageNet上预训练的模型参数，处理图像输入得到视觉特征FV；步骤2.2，文本主干网络ET，同样加载预训练的模型参数，处理文本输入，得到文本特征FT；步骤2.3，再分别将两个特征输入到映射层中，得到两个模态的全局特征；步骤2.4，对于得到的两个模态的全局特征，计算CMPC损失函数和CMPM损失函数来度量匹配的文本图片之间的距离和不匹配的文本图片之间的距离大小关系；其中CMPC损失函数表达如下： Lcmpc＝Ltpi+Lipt4 CMPM损失函数表达如下： Lcmpm＝Li2t+Lt2i10 其中xi为视觉特征，zi为文本特征，Wj为权重矩阵，yi,j代表输入是否为匹配的图文对；∈为一个很小的正数，防止除0；步骤3，将步骤2中经过特征提取主干网络得到的视觉特征FV和文本特征FT输入到跨模态码本中，视觉特征FV的维度大小为hp*wp*D，文本特征FT的维度大小为L*D，L为文本的长度，D为视觉特征或文本特征的通道数，视觉特征和文本特征的通道数相同；具体包括：对步骤2得到的特征进一步处理，具体操作按以下步骤实施；步骤3.1，视觉特征FV和文本特征FT一共有hp*wp+L个特征向量，这些特征向量的通道数和码本中的特征向量的通道数相同，然后计算码本中特征向量与所有文本特征和视觉特征的距离，将视觉特征FV和文本特征FT都用在码本中找到与之相对应的、距离最近的特征向量进行替换，查找方法如下公式：其中zi代表视觉特征FV和文本特征FT，ci,k代表码本中的特征向量，K代表码本中特征向量的个数；步骤3.2，使用码本中的特征向量替换原来视觉特征FV和文本特征FT中的向量后，得到新的视觉特征FV2和新的文本特征FT2；因为替换的特征向量是离散的，且替换过程是不可微的，所以需要梯度估计straight-through来将将梯度反向传播到前面的模块，具体方法如下公式所示：其中sg·代表停止传播梯度，l2代表归一化操作；步骤3.3，替换完输入的特征向量之后，要同步动量更新码本中的特征，使用更新的公式如下：其中λmom是更新码本的权重，ch为码本中的特征向量；步骤4，重建输入的图片和文本：步骤4.1，图像解码器用的是单层的反卷积网络，将图片恢复成输入的大小和通道数，然后和原图对比，并计算重建损失函数；步骤4.2，文本选用的是经过文本编码器ET预训练的文本分类器，将特征通过文本分类器的最后一层的线性层Linear层进行分类，预测文本和输入之间的差异，并计算分类损失函数；其中Ω为计算x中有多少个token的函数，x为视觉特征，y为文本正确标签；步骤5，根据步骤2、步骤3、步骤4中的三种损失函数，利用反向传播算法和梯度下降算法，对模型进行优化；具体包括：步骤5.1，根据实际输入与期望输出，得到总体的误差公式，其公式为： total＝Lalign+λrecon+λcodebook17 式中Lalign是计算两个模态对齐程度的CMPC和CMPM损失函数，Lrecon是模型计算重建输入的文本和图片与最开始没有被遮盖的文本和图片之间的差异的损失函数；Lcodebook是为了优化跨模态码本，计算更换的特征片段和输入的特征片段之间的差异；λ和λ是两个损失函数Lrecon和Lcodebook在整个损失函数中所占的权重；步骤5.2，利用反向传播算法和梯度下降算法优化模型参数；步骤6，测试模型时选用经过主干网络和映射层后的特征，两个模态的特征分别作为输入和查询集，通过计算余弦相似度、然后进行排序，得到对应的查询结果。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人浙江工业大学，其通讯地址为：310014 浙江省杭州市拱墅区潮王路18号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

浙江工业大学吴一鸣获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务