杭州电子科技大学;北京百度网讯科技有限公司俞俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学;北京百度网讯科技有限公司申请的专利一种基于传递式视觉关系检测的视频描述生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114037936B 。
龙图腾网通过国家知识产权局官网在2025-07-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111314705.7,技术领域涉及:G06V20/40;该发明授权一种基于传递式视觉关系检测的视频描述生成方法是由俞俊;吴波锋;牛国成;肖欣延设计研发完成,并于2021-11-08向国家知识产权局提交的专利申请。
本一种基于传递式视觉关系检测的视频描述生成方法在说明书摘要公布了:本发明公开了一种基于传递式视觉关系检测的视频描述生成方法。尤其涉及一种检测视觉实体‑动作之间的浅层联系并传递构造深层视觉实体关系图以及依靠视觉实体关系图细化视频特征的建模方法。本发明包括以下步骤:1、数据预处理,对视频提取特征,针对文本描述构建字典。2、动作指导的浅层关系检测模块,进行浅层关系图的生成。3、传递式深层关系推理模块与解码器模块,用以深层关系图的推理。4、模型训练,利用反向传播算法训练神经网络参数。本发明提出检测视频视觉实体‑动作之间的浅层联系,以及传递构造深层视觉实体关系图以及依靠视觉实体关系图细化视频特征的建模方法,并且获得了目前在视频描述生成领域中的最好效果。
本发明授权一种基于传递式视觉关系检测的视频描述生成方法在权利要求书中公布了:1.一种基于传递式视觉关系检测的视频描述生成方法,其特征在于包括如下步骤: 给定视频v和相应的文本描述c构成视频-描述对v,c作为训练集,提出的传递式视觉关系检测模块包括动作指导的浅层关系检测模块和传递式深层关系推理模块; 步骤1、数据预处理:对视频提取特征,对文本描述构建字典; 对视频v的预处理: 先将所有视频进行抽帧并将每一帧缩放到统一的尺寸大小,再分别使用不同的深度神经网络提取得到视频的特征; 对于文本描述c的预处理: 提取文本描述c含有的动词,构建动词词嵌入Εa:首先使用开源工具提取描述中的主谓宾三元组,选择其中的谓语作为该描述包含的动词,根据数据集中所有的动词构建动词词嵌入Εa; 构建描述词嵌入Εc:对数据集中的所有描述进行分词并统计每个词的出现次数,丢弃出现次数少于设定阈值的单词,根据剩下所有的单词构建描述词嵌入Εc; 步骤2、构建动作指导的浅层关系检测模块; 利用视频的三维特征和实体特征提取视频动作表示,并使用非线性映射层将动作表示映射至维度为动词字典大小的向量,向量中每个值代表对应动词的概率,根据该向量选择二十个概率最高的动词ai作为该视频包含的动词,i=1,…,20;根据视频中包含的实体与动词,构建实体-动作关系图Goa; 步骤3、构建传递式深层关系推理模块与解码器; 将实体-动作关系图Goa与其转置图进行矩阵相乘操作,从而利用实体与动作之前的关系传递式地构造实体与实体之间的关系;矩阵相乘的输出作为深层实体-实体关系图Goo,之后将实体-实体关系图Goo视为图,实体特征视为节点,利用图卷积神经网络细化节点的特征表示,将实体之间的关系编码入实体特征表示中;最后根据细化后的实体特征表示与全局特征共同构造视频的编码特征Venc,并作为解码器的输入;所述的解码器为LSTM,每一个时间步t的输入为上一个时间步的隐层特征ht-1、上一个时间步生成的单词编码Εcyt-1、动词编码Va和视频编码特征Venc,输出为当前时间步的隐层特征ht和生成的单词概率分布pθyt,最后根据概率分布生成当前时间步的单词; 步骤4、模型训练 根据预测的动词和描述与该视频的实际动词和描述之间的差异计算负对数似然损失,并利用反向传播算法对神经网络的模型参数进行训练,直至整个网络模型收敛; 步骤1具体实现如下: 1-1.对于视频v,分别使用不同的深度神经网络2D-CNN、C3D和Faster-RCNN提取得到视频的特征Vr、Vm和Vo;二维特征三维特征和实体特征其中dr、dm和do分别是二维、三维和实体特征的尺寸,n是视频中实体的数量; 1-2.对于文本描述c,首先使用nltk的开源工具提取描述中的主谓宾结构,其中谓语作为该描述也是该视频包含的真实动词a*被提取出来构造动词词嵌入Ea: 其中是第i个动词的词嵌入,i为该动词在词嵌入中的索引值,dw为词嵌入的尺寸; 1-3.将所有描述进行分词并统计每个词出现的次数,丢弃出现次数小于2的单词之后作为视频的真实描述y*,提取剩下所有的单词构建描述词嵌入Εc: 其中,是第i个单词的词嵌入,j为该单词在词嵌入中的索引值; 步骤2具体实现如下: 浅层关系检测模块包括叙述动作检测模块、以及利用动作和实体特征表示利用矩阵相乘得到浅层实体-动作关系图,具体过程如下: 2-1.动作检测模块中,首先设参数变量Q=WmVm, 其中为映射矩阵,d为输出维度,注意力特征Vatt可通过如下公式进一步计算得到: 得到fatt之后,使用一层前馈网络计算注意力特征,具体公式如下: Vatt=LayerNormfatt+WdownσWupfatt公式4 其中和分别为上采样和下采样映射矩阵,dup为采样维度,σ为ReLU激活函数;随后将注意力特征与三维特征映射至同一空间后进行拼接,具体公式如下: Va=[fmapVatt;fmapVm]公式5 公式5中的Va为动作表示,fmapx为映射函数,该映射函数由一层全连接层加上权重之后通过一层ReLU激活函数后得到,具体公式如下 fmapx=σWxx+bx公式6 其中Wx和bx为映射矩阵和权重向量;得到动作表示后,将其映射至维度为动作词表大小的向量,并将向量中每个值转化为概率值,并通过概率值的大小选择视频的动作,具体公式如下: 其中是映射矩阵,la为动词字典的尺寸;根据公式7计算动词词表中每一个动词的概率选择其中概率最高的20个动词利用动词词嵌入计算动词特征;词特征计算公式如下: 其中为动词特征,da为动词特征的维度; 2-2.得到动词特征之后,结合实体特征计算得到浅层实体-动作关系图,计算公式如下: 其中,为浅层实体-动作关系图,该图中的值均为0和1之间的实数,并且通过正则化使每个实体与同一动词存在联系的概率值相加为1;Wv和Wl用来将实体和动词特征映射到同一空间的映射矩阵。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学;北京百度网讯科技有限公司,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。