中国电子科技集团公司第十五研究所黄杨琛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国电子科技集团公司第十五研究所申请的专利一种基于多模态协同表示学习的实体对齐方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116341655B 。
龙图腾网通过国家知识产权局官网在2026-01-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211630607.9,技术领域涉及:G06N5/02;该发明授权一种基于多模态协同表示学习的实体对齐方法是由黄杨琛;王立才;李孟书;孙雨航设计研发完成,并于2022-12-19向国家知识产权局提交的专利申请。
本一种基于多模态协同表示学习的实体对齐方法在说明书摘要公布了:一种基于多模态协同表示学习的实体对齐方法,在增强后的数据上,基于BERT模型和深度残差网络提取文本和图像的初始语义信息,并将文本和图像特征投影到相同的语义空间;结合tripletloss损失使得在该空间中,文本与图像正样本更相似,而与图像负样本更相异。训练完成后,对未标注的文本和图像数据进行特征提取和相似性计算,将高置信度的实体对齐结果加入到种子数据集中,对模型进行迭代更新,完成多模态数据集中所有文本和图像的对齐。该方法使用基于预训练模型调优的多模态表示学习方法进行实体表征,不需要人工构造实体特征,同时采用的迭代式数据更新和网络训练过程也大大减少了对初始种子数据集中人工标注数据量的要求,节约了大量人力和成本,同时能获得更准确的特征表示和对齐结果。
本发明授权一种基于多模态协同表示学习的实体对齐方法在权利要求书中公布了:1.一种基于多模态协同表示学习的实体对齐方法,包括以下步骤: S1,通过人工标注对齐,建立初始的文本-图像对种子数据集; S2,获取适合多模态文本数据的BERT模型; S3,包括: S31,基于图像的进行增强扩展,对种子集中的文本-图像对进行扩充; S32,将种子集中的文本-图像对扩展为文本-图像正样本-图像负样本三元组; S33,用步骤S2的BERT模型提取文本的语义特征,利用深度残差网络分别提取图像正样本和图像负样本的特征;通过单层感知网络分别将这些特征投影到低维语义特征空间中;以文本与图像正样本在低维语义特征空间中更相似、而与图像负样本更相异为目标构建损失函数,利用种子集中的数据,对用于特征投影的单层感知网络进行训练; S4,对未标注的文本和图像进行特征提取和相似性计算,将高置信度的文本-图像对添加到种子数据集中,基于步骤S3重新训练模型,进行数据的迭代扩展与模型的迭代更新,直至完成所有数据的迭代标注; 所述步骤S33的具体方法包括: 设BERT模型为Bert_fine_tune,每个句子的最大长度为max_len;图像特征提取模型采用ResNet-200,每张图片的输入尺寸为input*input;文本和图像对齐后的特征空间维度d; 则针对epoch中的每个batch,执行SS1~SS11: SS1.将文本-图像正样本-图像负样本中的文本t补零或截取到长度为max_len; SS2.将文本输入到Bert_fine_tune中,获得文本特征向量; SS3.特征向量后接单层感知机网络,将文本特征投影到维度为d的特征空间中得到特征向量; SS4.将文本-图像正样本-图像负样本中的图像正样本image_p调整尺寸为ResNet-200网络的输入尺寸input*input; SS5.将调整尺寸后的图像正样本输入到ResNet-200中,其网络参数为,获得图像特征向量; SS6.特征向量后接单层感知网络,将图像正样本特征投影到维度为d的特征空间中得到特征向量; SS7.将文本-图像正样本-图像负样本中的图像负样本image_n调整尺寸为ResNet-200网络的输入尺寸input*input; SS8.将调整尺寸后的图像负样本输入到ResNet-200中,其网络参数为,获得图像特征向量; SS9.特征向量后接单层感知网络,将图像正样本特征投影到维度为d的特征空间中得到特征向量; SS10.构建第二损失函数,使用Adam优化器最小化第二损失函数; SS11.当验证集上的loss在一定epoch内不再下降时提前停止训练; 其中,第二损失函数的定义包括: 式中, 。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电子科技集团公司第十五研究所,其通讯地址为:100083 北京市海淀区北四环中路211号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励