合肥工业大学宋培培获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥工业大学申请的专利基于视觉情感驱动的视频情感描述模型的生成方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115346153B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210982424.7,技术领域涉及:G06V20/40;该发明授权基于视觉情感驱动的视频情感描述模型的生成方法及应用是由宋培培;郭丹;龙馨仪;汪萌设计研发完成,并于2022-08-16向国家知识产权局提交的专利申请。
本基于视觉情感驱动的视频情感描述模型的生成方法及应用在说明书摘要公布了:本发明公开了一种基于视觉情感驱动的视频情感描述模型的生成方法及应用,该方法的步骤包括:1单词表的构建;2构建视频情感描述模型,包括视频特征提取模块、视频情感特征获取模块、上下文聚合器和基于LSTM网络的解码器;3在视频情感描述的数据集上训练所述视频情感描述模型。本发明能够自适应的获取可靠的视频情感特征,并驱动视频描述的生成过程,从而生成情感的、准确的视频描述。
本发明授权基于视觉情感驱动的视频情感描述模型的生成方法及应用在权利要求书中公布了:1.一种基于视觉情感驱动的视频情感描述模型的生成方法,其特征是按如下步骤进行: 步骤1、单词表的构建: 获取视频情感描述的数据集Set以及情感词典VocE,其中,所述数据集set中的任意一个视频记为Q,且视频Q在所述数据集Set中对应的情感描述句子为C;利用所述数据集Set中所有情感描述句子的所有单词以及所述情感词典VocE中的所有单词构建单词表Voc; 步骤2、构建视频情感描述模型,包括:视频特征提取模块、视频情感特征获取模块、上下文聚合器、基于LSTM网络的解码器; 步骤2.1、所述视频特征提取模块获取所述视频Q的帧级视觉特征其中,vn表示第n个帧级视觉特征,N表示所述视频Q的帧数量; 步骤2.2、所述视频情感特征获取模块获取视频情感特征eC: 步骤2.2.1、利用式1将所述视频Q的帧级视觉特征V聚合为全局视频特征vA; 步骤2.2.2、利用文本特征提取器获取情感词典VocE中第i个情感词的嵌入向量ei,并根据式2获取所述视频Q在第i个情感词上的概率值qi; 式2中,uq,uq,Hq,bq均为所述视频情感特征获取模块中的学习参数; 步骤2.2.3、对情感词典VocE中的所有情感词执行步骤2.2,得到所述视频Q在情感词典VocE上的概率分布q=q1,…,qi,…,qI,其中,I为情感词典VocE包含的词数量; 步骤2.2.4、对概率分布q中的元素进行降序排序,得到排序后的概率分布q′;设置参数K,且1≤K≤I,选取排序后的概率分布q′的前K个概率值构建候选概率集合{q′1,…,q′k,…,q′K},获取候选概率集合中每个概率值对应的情感词的嵌入向量构成候选情感词集合{e′1,…,e′k,…,e′K},其中,e′k和q′k分别表示第k个候选情感词的嵌入向量和第k个候选概率;从而根据式3得到情感向量eC; 步骤2.3、上下文聚合器的处理: 步骤2.3.1、定义当前时刻为t,并初始化t=0; 步骤2.3.2、利用式4得到所述视频Q的第n个帧级视觉特征vn与基于LSTM网络的解码器在t-1时刻的隐藏状态ht-1的注意力权重αnt;并利用式5得到t时刻的视频上下文向量 式4中,u,U,H,b均为所述上下文聚合器中获取针对视频上下文向量的学习参数;tanh表示双曲正切函数;softmax表示Softmax函数;表示学习参数u的转置; 步骤2.3.3、利用所述文本特征提取器获取t时刻已生成单词的嵌入矩阵其中,y表示第j个已生成单词,w是第j个已生成单词y的嵌入向量; 利用式6得到第j个已生成单词y的嵌入向量w与基于LSTM网络的解码器在t-1时刻的隐藏状态ht-1的注意力权重βjt;并利用式7得到t时刻的文本上下文向量c 式6中,u,U,H,b均为所述上下文聚合器中针对获取文本上下文向量的学习参数; 步骤2.3.4、利用式8获取所述视频Q的第n个帧级视觉特征v与第j个已生成单词yj的嵌入向量wj的语义相关性从而得到相关性矩阵 式8中,ur,Ur,Hr,br均为所述上下文聚合器中针对语义相关性获取的学习参数; 步骤2.3.5、利用式9获得视觉对齐的嵌入矩阵其中,w′nt为t时刻第n个视觉对齐的嵌入向量; W′t=softmaxRtWt9 步骤2.3.6、利用式10得到t时刻第n个视觉对齐的嵌入向量w′nt与基于LSTM网络的解码器在t-1时刻的隐藏状态ht-1的注意力权重θnt;并利用式11得到t时刻的联合上下文向量c′t; 式10中,uθ,Uθ,Hθ,bθ均为所述上下文聚合器中针对获取联合上下文向量的学习参数; 步骤2.4、基于LSTM网络的解码器的处理: 步骤2.4.1、当t=0时,利用式12获取基于LSTM网络的解码器在t时刻的隐藏状态ht;当1≤t≤T时,利用式13获取基于LSTM网络的解码器在t时刻的隐藏状态ht,其中,T是生成的句子的总长度; ht=FCec12 式12中,FC·表示一个全连接层的操作,LSTM·表示LSTM网络的操作; 步骤2.4.2、利用式14得到t时刻视频情感描述模型在单词表Voc上的预测概率向量pt; pt=softmaxWoht14 式14中,Wo为待学习的权重矩阵; 步骤2.4.3、根据式15得到t时刻生成的单词yt; yt=argmaxpt15 式15中,argmax·表示求取所述预测概率向量pt中的最大值对应的单词; 步骤2.4.4、将t+1赋值给t,并返回步骤3顺序执行,直到t=T为止,从而得到视频Q的情感描述句子{y1,y2,…,yT}; 步骤3、在视频情感描述的数据集Set上训练所述视频情感描述模型: 步骤3.1、利用式16计算视频情感描述模型的交叉熵损失值 式16中,为数据集Set中视频Q对应的情感描述句子C的第t个单词,为在单词表Voc上的索引向量; 步骤3.2、根据情感词典VocE获取所述情感描述句子C包含的情感词其中,eg为情感描述句子C包含的第g个情感词,G为情感描述句子C包含的情感词总数; 利用式17计算视频情感描述模型的情感指示损失值 式17中,δeg为eg在情感词典VocE上的索引向量; 步骤3.3、从数据集Set中随机选取另一个视频Q’,并按照步骤2.1至步骤2.3.4的过程,得到另一个相关性矩阵其中,为视频Q’的第n个帧级视觉特征与第j个已生成单词yj的嵌入向量wj的语义相关性; 利用式18计算视频情感描述模型的事实对比损失值 式18中,σ·表示Sigmoid函数; 步骤3.4、利用式19计算视频情感描述模型的总损失值 式19中,λce,λcls和λctr为设置的超参数; 步骤3.5、利用随机梯度下降法对视频情感描述模型在视频情感描述的数据集Set上的总损失值进行优化求解,使达到最小,从而得到视频情感描述数据集上的最优模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥工业大学,其通讯地址为:230009 安徽省合肥市包河区屯溪路193号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励