Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 电子科技大学宾燚获国家专利权

电子科技大学宾燚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉电子科技大学申请的专利一种弱监督的跨模态语义连贯性恢复方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118839699B

龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410938045.7,技术领域涉及:G06F40/30;该发明授权一种弱监督的跨模态语义连贯性恢复方法是由宾燚;杨阳;廖俊荣;史文浩设计研发完成,并于2024-07-12向国家知识产权局提交的专利申请。

一种弱监督的跨模态语义连贯性恢复方法在说明书摘要公布了:本发明公开了一种弱监督的跨模态语义连贯性恢复方法,首先针对文本与图像各自训练了一个语义连贯性恢复模型,得到文本位置矩阵At、图像位置矩阵Bt,然后借助CLIP预训练模型的跨模态语义对齐能力,将另一模态的相对位置信息引入至目标模态中。为了最大化地利用跨模态相对位置信息,本发明在此基础上进一步设计了一种迭代式的训练与推理策略:该方法在训练过程中交替地冻结文本与图像模型,通过跨模态语义对齐,将冻结模型中的跨模态相对位置信息引入至未冻结的模型中,这一策略同样也被应用于模型的推理阶段中,最后使用拓扑排序得到文本、图像排序。在SIND与TACoS‑Ordering数据集上开展的相关实验证明本发明的有效性,即可以在无需额外位置信息标注的前提下,利用另一个模态经过预测得出的相对位置信息进行跨模态语义连贯性恢复。

本发明授权一种弱监督的跨模态语义连贯性恢复方法在权利要求书中公布了:1.一种弱监督的跨模态语义连贯性恢复方法,其特征在于,包括以下步骤: 1、获取上下文文本特征以及上下文图像特征 对于第t组文本图像集合,将文本集合St输入文本编码器中进行编码,文本编码器包括BERT预训练模型以及G层注意力模块; 首先,采用BERT预训练模型分别对文本集合St中的Nt条无序的文本 进行特征提取,得到文本特征i=1,2,…,Nt,其中,文本特征为dk维的行向量,然后,将文本特征i=1,2,…,Nt按列拼接得到文本特征图送入第一层文本注意力块中; 在第一层文本注意力块中,首先得到多头注意力: MHQ,K,V=[H1,H2,…,Hh]WE 其中,[·,·]表示多个注意力头的拼接,为训练参数,每个注意力头Hi为: 其中,Attention获取注意力,为第i个头的训练参数,da=dkh,Q,K,V分别是第一层文本注意力块查询、键和值输入,均为文本特征图即 然后,多头注意力MHQ,K,V经过一个前馈全连接层得到文本特征图 并作为第二层文本注意力块的Q,K,V输入; 第二层文本注意力块与第一层文本注意力块结构相同,经过相同的处理后得到文本特征图再作为第三层文本注意力块的Q,K,V输入,这样依次处理,在最后第G层文本注意力块输出文本特征图其中,第i行对应第i条文本的上下文文本特征,即为i=1,2,…,Nt; 与此同时,对于第t组文本图像集合,将文本集合St对应的图像集合Xt输入到图像编码器中进行编码,图像编码器包括ViT预训练模型以及G层注意力模块,其中,G层注意力模块与文本编码器中的G层注意力模块具有相同的结构; 采用ViT预训练模型分别对图像集合Xt中的Mt张无序图像 进行特征提取,得到图像特征j=1,2,…,Mt,其中,图像特征为dk维的行向量,然后,将图像特征j=1,2,…,Mt按列拼接得到图像特征图送入G层注意力模块中,经过图像编码器中的G层注意力模块的相同处理后,得到图像特征图第j行对应第j张图像的上下文图像特征,即为j=1,2,…,Mt; 2、相对位置判别 首先,将上下文文本特征i=1,2,…,Nt送入具有可训练参数δS的文本相对位置判别器建模任意两个上下文文本特征q≠i的相对顺序: 其中,为相对位置顺序预测结果,ρ为特征聚合操作; 然后,应用logistic函数得到第i个文本在第q个文本前的概率at_i,q: 这样,得到文本位置矩阵At: 同样,对于上下文图像特征为采用具有可训练参数δX的图像相对位置判别器建模任意两个上下文图像特征的相对顺序,应用logistic函数得到图像位置矩阵Bt: 其中,bt_j,l为第j个图像在第l个图像前的概率; 3、跨模态语义对齐 使用CLIP预训练模型对文本集合St、图像集合Xt进行相似度计算,得到跨模态相似度矩阵其中,第i行第j列元素为ct_ij,i=1,2,…,Nt,j=1,2,…Mt表示第i个文本与第j张图像的相似度; 4、迭代式恢复 采用迭代式的矩阵更新算法来更新文本位置矩阵At、图像位置矩阵Bt: 初始化一个与文本位置矩阵At大小相同的0矩阵即: 然后判断文本位置矩阵At中概率at_i,q,i=1,2,…,Nt,q=1,2,…,Nt是否大于设定的掩码阈值θ,如果大于,则矩阵中第i行第q列元素为概率at_i,q,否则,设置为0; 将图像位置矩阵Bt复制为矩阵B′t,即: 然后判断矩阵元素i=1,2,…,Nt,q=1,2,…,Nt是否等于0,如果等于,则不对图像位置矩阵Bt′进行操作,如果不等于,则在跨模态相似度矩阵Ct中找到第i行最大值元素所在列,其序号即为idxt_1,找到第q行最大值元素所在列,其序号即为idxt_2,然后,将图像位置矩阵B′t中的元素进行更新: 同样地,初始化一个与图像位置矩阵Bt大小相同的0矩阵即: 然后判断图像位置矩阵Bt中概率bt_j,l,j=1,2,…,Mt,l=1,2,…,Mt是否大于设定的掩码阈值θ,如果大于,则矩阵中第j行第l列元素为概率bt_j,l,否则,设置为0; 将文本位置矩阵At复制为文本位置矩阵A′t,即: 然后判断矩阵元素j=1,2,…,Mt,l=1,2,…,Mt是否等于0,如果等于,则不对文本位置矩阵A′t进行操作,如果不等于,则在跨模态相似度矩阵Ct中找到第j列最大值元素所在行,其序号即为idst_1,找到第l列最大值元素所在行,其序号即为idst_2,然后,将文本位置矩阵A′t中的元素进行更新: 5、训练 采用T组文本集合St、图像集合Xt按照步骤1~4进行处理,然后计算文本语义连贯性恢复的损失Lsen: 其中,zt_i,k为第i个文本与第q个文本的正确顺序标签,如果第i个文本在第j个文本之前,则为0,反之为1; 计算图像语义连贯性恢复的损失Limg: 其中,yt_j,l为第j张图像与第l张图像的正确顺序标签,如果第j张图像在第l张图像之前,则为0,反之为1; 基于步骤1~4进行构建,得到弱监督的跨模态语义连贯性恢复网络,不断输入T组文本集合St、图像集合Xt,依据损失Lsen、Limg对弱监督的跨模态语义连贯性恢复网络进行训练,直至收敛; 6、推理 将文本集合与对应的图像集合输入到弱监督的跨模态语义连贯性恢复网络,按照步骤1~4获得文本位置矩阵A′t、图像位置矩阵Bt′,然后分别使用拓扑排序算法,得到文本顺序以及图像顺序。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。