Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 华东师范大学周佳仪获国家专利权

华东师范大学周佳仪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉华东师范大学申请的专利一种基于视频问答的短视频标注方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116204680B

龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310088972.X,技术领域涉及:G06F16/783;该发明授权一种基于视频问答的短视频标注方法是由周佳仪;应振宇;吴兴蛟;肖路巍;马天龙设计研发完成,并于2023-02-09向国家知识产权局提交的专利申请。

一种基于视频问答的短视频标注方法在说明书摘要公布了:本发明公开了一种基于视频问答的短视频标注方法,属于视觉问答技术领域。首先从短视频平台按不同类别收集短视频素材,针对每个视频帧提取视觉对象和场景文本的高维特征表示;利用多模态变压器模拟两个模态之间的相互作用;以对象或文本作为答案,通过具有自回归机制的迭代解码来预测与答案对应的问题;然后针对待标注的短视频,将问题和答案分别与视频帧和音频组合,其中视频帧的一组先通过RCNN处理,两组再分别重组进入BERT网络和全连接层进行预测;对两组的预测进行求和,并经过归一化将求和的向量转换为答案分数,输出分数最高的回答。最后,以所有回答作为文本,利用RNN网络进行文本分类,生成的标签即作为短视频标注的结果。

本发明授权一种基于视频问答的短视频标注方法在权利要求书中公布了:1.一种基于视频问答的短视频标注方法,其特征在于,该方法包括以下具体步骤: 步骤1:从短视频平台按不同类别收集短视频素材,针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列; 步骤2:以视觉对象或场景文本作为答案,通过具有自回归机制的迭代解码来预测与答案对应的问题; 步骤3:针对待标注的短视频,将问题和答案分别与视频帧和音频组合; 步骤4:视频帧一组先通过R-CNN处理,再重组形成字符串序列,进入BERT网络和全连接层进行预测; 步骤5:音频一组直接重组形成字符串序列,进入BERT网络和全连接层进行预测; 步骤6:对两组的预测进行求和,并使用归一化将求和的向量转换为答案分数,输出分数最高的回答; 步骤7:以所有回答作为文本,利用RNN网络进行文本分类,生成的标签即作为短视频标注的结果; 其中,所述步骤1具体为: 1.1:从短视频平台按类别收集短视频素材,类别按内容分为剧情类、搞笑类、才艺类和生活技巧类;对于每一个视频帧,分别利用OCR识别场景文本、利用预训练的2D对象检测器和R-CNN来定位视觉对象; 1.2:从场景文本或视觉对象中任取一个词或对象作为答案,将该回答词、检测到的视觉对象和所有检测到的OCR标记作为高维特征嵌入,投影到一个共同的d维嵌入空间中; 1.3:将提取到的高维特征表示输入一个多模态变压器,输入序列为F={Fans,Fobj,Focr},其中Fans、Fobj、Focr分别表示回答词、视觉对象、OCR标记的特征嵌入表示; 1.4:通过多头注意力机制对不同模态的特征嵌入之间的交互进行建模,再从多模态变压器的输出中,提取出每个模态的d维特征向量序列; 所述步骤2具体为: 2.1:将特征向量序列输入多步解码模块,该模块根据输入的答案逐字迭代地输出预测的问题; 2.2:在每个迭代解码步骤中,对先前预测的单词进行嵌入,然后从固定的词频词汇表中或从提取的OCR标记中选择下一个输出单词; 2.3:当达到最大步骤数时,解码过程结束,输出完整的问题;每一个问答对组合在一起形成问答对集合; 所述步骤3具体为: 3.1:针对待标注的短视频,将其视频帧内容和音频内容分开作为两个流处理;对每个视频帧提取视觉对象和场景文本,作为视频流;对音频提取语言语义信息,作为语义流;视频流和语义流分别与步骤2中生成的问题集与对应的候选答案进行组合,在后续步骤中分开处理; 所述步骤4具体为: 4.1:视频帧先经过R-CNN提取视觉概念特征包括物体和属性,将特征用对应的单词或名词短语表示、去重,从整个场景中获得单独的视觉概念特征; 4.2:将问题、唯一的视觉概念特征和每个候选答案连接并重新排列成一个字符串,每个重新排列的字符串都被标记化以获得序列; 4.3:将序列输入BERT网络和一个全连接层处理得到答案预测; 所述步骤5具体为: 5.1:将问题、音频的语义特征和每个候选答案连接并重新排列成一个字符串,每个重新排列的字符串都被标记化以获得序列; 5.2:将序列输入BERT网络和一个全连接层处理得到答案预测; 所述步骤6具体为: 6.1:对每个候选答案的视频流和语义流的预测进行求和,并使用softmax将求和的向量转换为答案分数,选择得分最高的答案作为最终预测答案; 所述步骤7具体为: 7.1:用one-hot编码方法来标记答案集中的每个词,将词one-hot向量输入到embedding中,embedding的输出向量即为该词的新的嵌入表示; 7.2:将向量输入到双向LSTM层,将该层在每一个时间步长上的两个隐藏状态进行拼接,作为上层单向LSTM每一个时间步长上的一个输入,最后取上层单向LSTM最后一个时间步长上的隐藏状态; 7.3:将所取隐藏状态输入到一个全连接层,再经过一个softmax层得到分类结果,该结果即作为短视频标注的结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。