西安电子科技大学王笛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安电子科技大学申请的专利基于差分多尺度多粒度特征融合的视频文本检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116226449B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310050175.2,技术领域涉及:G06F16/783;该发明授权基于差分多尺度多粒度特征融合的视频文本检索方法是由王笛;李锦峰;王泉;万波;田玉敏;刘锦辉;王义峰;罗雪梅;安玲玲;赵辉设计研发完成,并于2023-02-01向国家知识产权局提交的专利申请。
本基于差分多尺度多粒度特征融合的视频文本检索方法在说明书摘要公布了:本发明公开了一种基于差分多尺度多粒度特征融合的视频文本检索方法,主要解决现有技术未充分利用视频时序特征及细粒度信息文本标注造成视频文本匹配精度低的问题,其实现方案为:获取视频帧序列及文本标注序列;构建特征提取网络并提取文本标注的全局和局部特征;将视频帧特征按时间序列差分并通过序列特征提取网络与帧特征结合得到视频的局部和全局特征;计算视频和文本标注的全局相似度和局部相似度,计算出损失函数;利用损失函数训练网络;利用训练好的网络计算视频与文本标注的相似度并排序得到检索结果。本发明能减少不同模态之间的语义鸿沟,挖掘视频模态数据中的时序信息,提升跨模态检索精度,可用于视频主题检测和视频应用的内容推荐。
本发明授权基于差分多尺度多粒度特征融合的视频文本检索方法在权利要求书中公布了:1.一种基于差分多尺度多粒度特征融合的视频文本检索方法,其特征在于,包括如下: 1处理视频数据集: 1a选择待训练的视频数据集及其对应的文本标注,并将视频数据集通过视频图像生成工具按信息量提取关键帧,得到采样后由图片组成的视频序列集:V={Vi},其中:Vi表示视频数据集的第i个视频序列,每个视频序列由n帧图片构成,i=1,2,3,...,N,N为视频数据集的大小; 1b将视频对应的文本标注按空格切分,得到切分后的文本标注; 2构建提取特征网络,即使用视觉特征编码器和文本特征编码器作为特征提取网络,并使用现有的CLIP预训练模型中的参数对特征网络进行初始化; 3获取文本标注的全局特征Si和局部特征Ti,获取视频序列Vi的视觉特征序列Fi: 3a对一个视频序列Vi,提取其RGB像素信息,即红、绿、蓝颜色特征,得到3组特征矩阵;3b构建一层全连接层,其神经元节点个数与3a得到的每组特征矩阵维数相同,且参数可随机初始化; 3c按照给定步长对视频序列Vi中的每一帧进行切分,再将切分特征按组展平,并输入到这一层全连接层中映射成一维向量; 3d将1b得到的切分后的文本标注输入到文本特征编码器,输出文本标注的全局特征Si和局部特征将3c中得到的视频的一维向量输入视频特征编码器,输出视频序列Vi的视觉特征序列Fi={fi 1,fi 2,...,fi k,....,fi n},其中m表示当前文本标注中单词的个数,n为该序列中视频帧的长度,wi p表示第i个文本标注中第p个单词的特征,fi k表示视频序列Vi的第k帧视觉特征; 4计算视频序列Vi的局部特征和全局特征: 4a将视觉特征序列Fi按不同步长进行差分,得到视频帧的差分特征: di jk=fi k-fi j,k=1,2,...i-1,i+1,...,n 其中di jk表示视频序列Vi的第j帧与第k帧的差分特征,fi j表示视频序列Vi的第j帧视觉特征,k表示差分步长; 4b计算一个视频帧的所有差分特征,将其组成序列,并在头部插入当前帧的视觉特征序列,即对于视频序列Vi中的第j帧fi j,其差分特征序列为:同理计算其他帧的差分特征序列,得到视频序列Vi的多尺度差分特征序列4c构建时序特征提取模块,将4b中得到的差分特征序列Δi作为该模块的输入,提取视频序列Vi的时序信息,输出视频序列Vi的局部特征其中表示视频序列Vi的第k个局部特征; 4d根据文本标注的全局特征Si和对应的视频局部特征Lvi,计算视频序列Vi的全局特征Ai; 5计算视频和文本标注的最终相似度: 5a计算文本标注的全局特征Si与视频序列的局部特征Lvi之间的交叉相似度SimS-f; 5b根据视频序列Vi的全局特征Ai与文本标注的局部特征Ti,计算视频全局特征到文本标注局部特征的交叉相似度SimV-w: 5c根据视频Vi的全局部特征Ai和文本标注的全局特征Si,计算视频到文本标注的全局特征相似度SimS-A; 5d根据5a、5b、5c的结果得到视频和文本标注的如下最终相似度: SimS,V=SimS-A+SimV-w+SimS-f3 其中,S表示文本标注,V表示视频; 6对特征提取网络进行训练: 6a根据视频和文本标注的最终相似度,构建特征提取网络的总损失函数L: 6a1根据5d得到的视频和文本标注的最终相似度SimS,V,计算视频特征对文本标注特征的先验概率和文本标注特征对视频特征的先验概率 6a2根据6a1得到的先验概率,利用交叉熵函数,分别计算视频到文本标注的匹配损失和文本标注到视频的匹配损失 6a3根据5d得到的视频和文本标注的最终相似度最终相似度SimS,V,计算视频到文本标注的多项式损失和文本标注到视频的多项式损失 6a4根据6a1、6a2、6a3的结果,得到特征提取网络的总损失函数L: 其中,其中λ1,λ2表示损失权重; 6b更新特征提取网络参数: 6b1设置特征提取网络的学习率初始值为1e-7,时序特征提取模块的学习率初始值为1e-4,神经元丢弃率初始值为0.1; 6b2采用Adam优化器训练模型,设置批次大小为64,根据当前网络参数值计算总损失L,并通过L的反向传播迭代更新网络的学习率、神经元丢弃率和损失函数的参数值,重新计算得到新一轮L,以此循环往复,直到总损失函数L收敛至最小,得到训练好的视频文本匹配模型; 7将待检索的视频文本输入训练好的视频文本匹配模型中,并对模型输出结果进行排序,得到最终检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。