Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 杭州电子科技大学朱素果获国家专利权

杭州电子科技大学朱素果获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉杭州电子科技大学申请的专利一种基于模态特征对齐的弱监督跨模态视频定位方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116935274B

龙图腾网通过国家知识产权局官网在2025-11-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310888432.X,技术领域涉及:G06V20/40;该发明授权一种基于模态特征对齐的弱监督跨模态视频定位方法是由朱素果;戚武滕;俞俊设计研发完成,并于2023-07-19向国家知识产权局提交的专利申请。

一种基于模态特征对齐的弱监督跨模态视频定位方法在说明书摘要公布了:本发明公开了一种基于模态特征对齐的弱监督跨模态视频定位方法,首先进行数据预处理,提取视频和文本的初始模态特征;构建网络整体架构以及设计损失函数;然后进行模型训练,优化网络参数;最后根据训练好的网络模型生成定位检测结果。本发明在跨模态交互前引入了特征对齐模块,该模块能够有效地使两种模态的空间距离变小,还能够学习非匹配样本之间的差异。并在正候选片段学习时将最优正候选片段作为伪标签,使与最优正候选片段的交并比较大的正候选片段也能够参与训练,增加正候选片段之间的交互性。

本发明授权一种基于模态特征对齐的弱监督跨模态视频定位方法在权利要求书中公布了:1.一种基于模态特征对齐的弱监督跨模态视频定位方法,其特征在于,包括步骤如下: 步骤1、数据预处理,提取视频和文本的初始模态特征; 步骤2、构建网络整体架构以及设计损失函数; 步骤3、模型训练,优化网络参数; 步骤4、根据训练好的网络模型生成定位检测结果; 所述步骤1具体实现如下: 关于视频特征提取,首先将视频转换成一组有时间先后关系的图片序列,然后使用预训练好的C3D网络来提取视频特征;每16帧提取一个4096维度的向量,处理完成后最终获得一个向量序列即视频特征; 关于文本特征提取,使用一个Glove词向量数据文件,得到每个词对应的词向量,最终得到的词向量序列就是文本特征; 所述步骤2具体实现如下: 网络模型主要分为三部分:特征对齐模块,候选片段生成模块和文本重构模块;所述的特征对齐模块用于提取两种模态深层特征,以及对应的全局模态特征,全局模态特征用于特征对齐以及正负视频文本对学习;所述的候选片段生成模块用于融合两种模态深层特征,生成固定数量的高斯分布,以此得到对应的候选片段以及高斯掩码注意力;所述的文本重构模块利用候选片段来重构被掩码的文本,通过重构损失得到最优候选片段; 特征对齐模块具体实现如下: 在数据预处理阶段已经获得了两种模态的初始特征,视频初始特征为N为抽取的视频帧个数,DV为视频初始特征维度,文本初始特征为M为单词的数量,DT是文本初始特征维度; 在输入到特征对齐模块之前,需要对初始特征添加三个可学习的词元;为了在之后的候选片段生成模块中得到融合后特征的全局特征,在视频特征最后添加一个可学习的高斯词元vgauss;因为特征对齐模块需要得到两种模态的全局特征,所以在视频特征和文本特征之后分别添加一个可学习的分类词元vcls,tcls;最终得到视频特征V={v1,v2,…,vN,vgauss,vcls}以及文本特征T={t1,t2,…,tM,tcls}; 将添加词元后的两种模态特征分别输入到对应的模态自注意力结构中,提取深层的模态的特征即模态深层特征;由于自注意力结构对特征时序不敏感,所以采用正弦和余弦函数,得到每个单词对应的位置信息,位置编码通过如下公式表示: PEpos,2a=sinpos100002admodel PEpos,2a+1=cospos100002admodel 其中a表示位置编码向量的第a个维度,pos表示当前单词在文本中的位置,dmodel表示词向量的维度; 将视频特征输入至视频模态自注意力结构后得到深层视频特征,将文本特征和位置编码相加后输入至文本模态自注意力结构后得到深层文本特征;自注意力结构通过如下公式表示: 其中,X为输入的模态特征,为X的维度; 此时分类词元已经得到了全局模态特征,将分类词元映射到低维度并归一化后,通过计算分类的相似度能够计算匹配视频文本对的相似度和非匹配视频文本对的相似度s=gvvclsTgttcls,gv,gt表示对视频和文本的映射和归一化操作;每个训练批次中,能够计算得到每个视频与每个文本的相似度,定义相似度矩阵sV,T=gvvclsTgttcls和sT,V=gttclsTgvvcls,分别表示视频对与文本的相似度矩阵和文本对于视频的相似度矩阵;通过softmax归一化计算对相似度矩阵进行进一步优化: 其中,B表示一个训练批次中视频文本对的样本数量; 视频文本的对比学习损失为: 其中CE是crossentropy损失,yv2t,yt2v是图像文本对的真实标签,如果图像和文本不匹配,则真实标签为0,匹配则为1; 在将提取到的特征输入到候选片段生成模块前,先将全局特征从特征序列中删除,得到的视频特征为文本特征为

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。