焦点科技股份有限公司徐昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉焦点科技股份有限公司申请的专利一种多模态CoT产品目录修正方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117315317B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310840841.2,技术领域涉及:G06V10/764;该发明授权一种多模态CoT产品目录修正方法是由徐昊;房鹏展设计研发完成,并于2023-07-10向国家知识产权局提交的专利申请。
本一种多模态CoT产品目录修正方法在说明书摘要公布了:本发明公开了一种多模态CoT产品目录修正方法,其特征在于,包括使用产品的名称,描述,关键词等文本信息与产品的图片训练产品的多模态融合模型;通过预设的多种损失对多模态融合模型进行训练优化,融合产品的文本与图片特征,得到多模态的产品向量;产品向量通过OPT生成模型生成产品类别;同时,构造的CoT标签优化生成类别的效果。本发明提出的一种多模态目录修正模型,不需要使用人工标签信息,就能对现有所有的产品目录进行有效的生成,从而对生成错误的产品的目录进行修正,提高了产品目录分类的精度的同时,降低大部分的时间消耗。
本发明授权一种多模态CoT产品目录修正方法在权利要求书中公布了:1.一种多模态CoT产品目录修正方法,其特征在于,包括如下步骤: 步骤1,提取产品所包含的文本信息与图片信息,用以构成原始文本数据集与原始图像数据集,对于原始文本数据集,使用Bertbase模型的前6层作为Bert编码器进行文本编码,对于原始图像数据集,使用ViT模型作为ViT编码器进行图像编码,利用Bertbase模型的后6层进行两种模态的融合,得到多模态融合模型,通过预设的多种损失对多模态融合模型进行训练优化; 产品的文本信息包括产品的名称、产品的描述、产品的关键词和材料信息;产品的图片信息使用与产品名称相似度计算得分最高的一张图片;对所述多模态融合模型,使用Cross-Attention替代Bertbase模型里的Self-Attention模块; 对多模态融合模型训练优化包括: 步骤1.1,针对多模态融合模型,所述预设的多种损失包括三个训练任务:任务一为图文对比学习损失,在多模态融合前,通过Bert编码器得到文本向量,通过ViT编码器得到图片向量,计算文本向量与图片向量的匹配度,用以判定产品与图片是否属于一个产品;任务二为多模态编码器上的掩码重建损失,利用多模态融合模型,融合文本特征向量与图片特征向量,用以预测产品文本中掩码的词元;任务三为图文匹配损失,利用融合后的多模态向量进行二分类的预测,预测产品图片与文本是否匹配; 步骤1.2,对步骤1.1中的三个训练任务的损失求和,对多模态融合模型进行训练优化,得到需要的多模态融合模型; 所述步骤1.2中包括,Bert编码器将输入文本T转换为嵌入序列{Wcls,W1,...,WN},其中Wcls是文本信息的cls标记,N为文本序列的长度,针对图片信息,所述ViT模型为ViT-B16模型;将图片切割成1616共256个图片块,编码成{Icls,I1,...,I256},其中Icls是图像cls分类模块;文本信息经过Bert编码器输出一个768维度的向量,图像信息经过ViT编码器被编码成768维度的向量,公式如下:; 通过Bertbase模型对两种模态进行融合,得到768维度的融合向量S1,公式如下:; 所述步骤1.2中,所述图文对比学习损失用于在融合向量之前学习到更好的单模态表示,通过将图像Icls与文本Wcls线性变换映射至256维度,对于每个图像向量和文本向量,分别转置图像向量与文本向量计算相似度得到sI,W,转置文本向量与图像向量计算相似度得到sW,I; 使用以下公式计算图文对比损失Litc为:; 其中,E代表方差,H代表交叉熵,yi2tI和yt2iT为0,1标签,用于表示真实的图文是否匹配; 所述图文匹配损失用于预测一对图像-文本对是否匹配,使用多模态融合后的Scls向量作为图像-文本对的融合表示,通过一层全连接层,再通过softmax层进行二分类pitm,使用以下公式计算ITM损失Litm为:; 其中,yitm是真实的图文二分类标签; 所述掩码重建损失包括以15%的概率随机屏蔽词元,并用特殊标记词元进行替换,设T’表示被屏蔽文本,pmskI,T’表示对被屏蔽词元的预测概率,使用以下公式计算最小化交叉熵损失Lmlm为; 其中,ymsk是一个onehot词汇分布,真实词语元的概率为1;对于小批量中的每张图像,按照对比相似度分布从同一批次中抽取一个负采样文本,其中与图像更相似的文本有更高的抽样机会,同理为每个文本采样一个负样本图像,所述损失求和的公式L为:; 其中,使用两个超参数α,β,用以对三种损失的比值进行控制,对模型的训练进行优化; 步骤2,对步骤1中训练优化所获取的多模态模型,在样本中设计出分类提示并与原始文本进行拼接用以添加进入文本信息中,利用对齐层对齐融合向量与OPT模型的输入维度,利用OPT模型生成产品目录,通过生成的产品目录与真实目录之间的相似度对多模态融合模型进行优化; 步骤3,利用训练好的多模态融合模型和OPT模型构成多模态CoT生成模型,对产品库中的所有产品进行目录的生成,如果生成的产品目录与原始产品的真实目录不匹配,则进行产品目录的修正。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人焦点科技股份有限公司,其通讯地址为:210032 江苏省南京市江北新区丽景路7号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励