厦门大学纪荣嵘获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利一种基于文本注意力的跨模态表征模型构建方法及检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119128049B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411047051.X,技术领域涉及:G06F16/334;该发明授权一种基于文本注意力的跨模态表征模型构建方法及检索方法是由纪荣嵘;李伟豪;戴平阳设计研发完成,并于2024-08-01向国家知识产权局提交的专利申请。
本一种基于文本注意力的跨模态表征模型构建方法及检索方法在说明书摘要公布了:本发明涉及一种基于文本注意力的跨模态表征模型构建方法及检索方法,其在在线模型中增加了两个极具创新性的模块:基于注意力引导的掩码建模模块和文本增强模块。其中,注意力引导的掩码建模模块以文本编码前向过程中的注意力为参考,对文本描述中的单词进行自适应掩盖,这样一来,掩码语言建模模块在预测掩盖词的过程中,能够捕获与掩盖词相关联的语义进行对齐,从而更高效地对齐跨模态表征。文本增强模块以一种轻量化的方式来对下游任务数据集中的文本描述进行了扩充,解决了数据集中文本描述用词单一且存在错误等问题,提高了检索准确率。
本发明授权一种基于文本注意力的跨模态表征模型构建方法及检索方法在权利要求书中公布了:1.一种基于文本注意力的跨模态表征模型构建方法,其特征在于:所述方法采用的跨模态表征模型框架由具有相同模型架构的在线模型和动量模型组成,动量模型是在线模型的平滑稳定版本;在线模型和动量模型的架构均包括图像编码器、文本编码器、跨模态编码器;所述在线模型则运用了图像文本对比学习模块、图像文本匹配学习模块、掩码语言建模模块,并增加了注意力引导的掩码建模模块和文本增强模块来进行训练; 具体地,所述方法通过在线模型参数的指数移动平均更新动量模型,然后使用动量模型编码的特征作为伪标签来指导在线模型进行更好地表征学习;其中,在线模型的学习训练过程步骤如下: 步骤1、对于给定数据集中的图像文本对,将图像和文本分别输入到图像编码器和文本编码器中,获得图像编码特征、文本编码特征和文本编码过程中的注意力权重,其中,和分别是图像块和文本单词的数量,和作为全局特征表示; 步骤2、图像文本对比学习模块根据图像编码特征和文本编码特征计算图像文本的对比学习损失,即ITC损失; 步骤3、将文本和步骤1得到的文本编码过程中的注意力权重输入至注意力引导的掩码建模模块,注意力引导的掩码建模模块根据注意力权重对文本T中的单词进行选中并替换为[mask]标志,得到替换了[mask]标志的文本;将替换了[mask]标志的文本输入至文本编码器,得到替换了[mask]标志的文本编码特征; 步骤4、将步骤1得到的文本编码特征和图像编码特征将送入跨模态编码器,文本编码特征作为查询向量,图像编码特征作为键向量和值向量,跨模态编码器的最后一层的编码向量作为跨模态编码器的输出特征;将跨模态编码器的输出特征输入图像文本匹配学习模块计算ITM损失; 步骤5、将步骤1得到的图像编码特征以及步骤3得到的替换了[mask]标记的文本编码特征输入至跨模态编码器,替换了[mask]标记的文本编码特征作为查询向量,图像编码特征作为键向量和值向量,跨模态编码器的最后一层的编码向量作为跨模态编码器的输出;将跨模态编码器的输出特征输入注意力引导的掩码建模模块,注意力引导的掩码建模模块对替换成了[mask]标记的文本编码特征送入一个全连接层,输出是该位置的词属于词库当中任意词的概率大小logit,根据logit和被替换成[mask]标记前原始的单词计算MLM损失; 步骤6、将步骤5得到的logit值输入文本增强模块,文本增强模块根据logit值对原始描述中替换成[mask]标记的单词以一定概率替换为logit值较高的词,对文本当中所有被替换成[mask]标记的词进行了上述替换操作之后得到新的文本,然后将新的文本作为对应图像的正样本; 步骤7、利用ITC,ITM,MLM损失之和作为总损失,以及将动量模型编码的结果作为伪标签引导在线模型更新;具体地,总损失梯度回传更新在线模型的文本编码器、图像编码器以及跨模态编码器,动量模型根据在线模型进行更新,不需要通过梯度回传进行更新; 步骤8、迭代数据集中的图像文本对,并重复步骤1-7,进行在线模型的学习训练,直到达到预设训练次数或者训练结束条件,训练结束后,在线模型中的图像编码器和文本编码器共同构成跨模态表征模型; 所述步骤2中,ITC损失计算如下: 其中,和表示真实的one-hot标签,H代表的是熵函数;为图像到文本的相似度,为文本到图像相似度,其计算如下: 其中,表示温度参数,表示相似度函数; 所述步骤3中,注意力引导的掩码建模模块根据注意力权重对文本T中的单词进行选中并替换为[mask]标志具体如下: 对于文本,将其在每一层的[CLS]标记的注意力权重表示为: 其中,ACLS代表文本编码器所有层的[CLS]标记对应的注意力权重集合,指的是i层中的[CLS]标记对应的注意力权重,是文本编码器中的层数; 注意力引导的掩码建模模块采用了指数移动平均值来联合文本编码器不同层的注意力权重: 其中,为设定值,,表是指第k层文本编码器中的[CLS]标记的注意力权重,,、、、、是通过加权得到中间结果,是最终的[CLS]标记对应注意力权重; 将注意力权重重新进行softmax操作,表示如下: 其中,i个单词的对应注意力权重,是用来动态调整softmax结果的范围和间隔的温度参数,是输入的总数量; softmax操作后的值作为参考来屏蔽相应的单词,具体地,屏蔽第i个单词的概率表示为: 其中,是偏移量,是幅度; 最终,根据得到的概率来选中词替换为特殊的[mask]标记; 所述步骤4中,ITM损失计算如下: 其中,yitm表示真实标签,如果文本图像是对应的则为1,若文本图像不对应则为0;pitm表示模型输出该文本和图像是否对应的概率,最终优化的目标就是让模型对正样本对的输出接近1,负样本对接近0;H代表的是熵函数; 所述步骤5中,MLM损失计算如下: 其中,ymsk表示被替换为[mask]标记的词对应的原始词的真实标签,pmsk表示模型输出的对应该真实词的概率,表示被替换了[mask]标记的文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361000 福建省厦门市思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励