桂林电子科技大学蔡晓东获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉桂林电子科技大学申请的专利一种视频描述方法、装置、系统以及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116721372B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310651531.6,技术领域涉及:G06V20/40;该发明授权一种视频描述方法、装置、系统以及存储介质是由蔡晓东;龙顺宏设计研发完成,并于2023-06-02向国家知识产权局提交的专利申请。
本一种视频描述方法、装置、系统以及存储介质在说明书摘要公布了:本发明提供一种视频描述方法、装置、系统以及存储介质,属于视频描述领域,方法包括:S1:构建训练模型,训练模型包括第一编码器、特征提取器以及第一解码器;S2:通过第一编码器对待训练视频进行编码得到待处理视频特征;S3:通过特征提取器对待处理视频特征进行特征提取得到初始视频特征以及视觉特征;S4:通过第一解码器对视觉特征进行解码得到预测标签向量;S5:分析预测标签向量以及初始视频特征与真实标签的损失函数,并根据分析结果得到视频描述模型。本发明能够充分的挖掘视频中的主要信息,同时更好的探索文本语义和视觉内容之间的相关性,有效的提高了视频描述的准确性。
本发明授权一种视频描述方法、装置、系统以及存储介质在权利要求书中公布了:1.一种视频描述方法,其特征在于,包括如下步骤: S1:导入待训练视频,并构建训练模型,所述训练模型包括第一编码器、特征提取器以及第一解码器; S2:通过所述第一编码器对所述待训练视频进行编码,得到多个待处理视频特征; S3:通过所述特征提取器分别对各个所述待处理视频特征进行特征提取,得到与各个所述待处理视频特征对应的初始视频特征以及与各个所述待处理视频特征对应的视觉特征; S4:通过所述第一解码器分别对各个所述视觉特征进行解码,得到与各个所述待处理视频特征对应的预测标签向量; S5:导入与各个所述待处理视频特征对应的真实标签,分析所有所述预测标签向量以及所有所述初始视频特征与所有所述真实标签的损失函数,并根据分析结果得到视频描述模型; S6:导入待描述视频,通过所述视频描述模型对所述待描述视频进行视频描述,得到视频描述结果; 所述第一编码器包括InceptionResNetV2模型、C3D模型以及Faster-RCNN模型,所述S2的过程包括: 通过所述InceptionResNetV2模型对所述待训练视频进行特征提取,得到多个初始上下文特征; 通过所述C3D模型对所述待训练视频进行特征提取,得到多个初始动作特征; 通过所述Faster-RCNN模型对所述待训练视频进行特征提取,得到多个初始目标对象特征,其中,所述待处理视频特征包括所述初始上下文特征、所述初始动作特征以及所述初始目标对象特征; 所述特征提取器包括目标对象特征提取单元、动作特征提取单元以及全局特征提取单元,所述初始上下文特征、所述初始动作特征以及所述初始目标对象特征一一对应, 所述S3的过程包括: 通过所述目标对象特征提取单元分别对各个所述初始上下文特征、与各个所述初始上下文特征对应的初始动作特征以及与各个所述初始上下文特征对应的初始目标对象特征进行特征提取,得到与各个所述初始上下文特征对应的待处理目标对象特征; 通过所述动作特征提取单元分别对各个所述初始动作特征以及与各个所述初始上下文特征对应的待处理目标对象特征进行特征提取,得到与各个所述初始上下文特征对应的目标动作特征; 通过所述全局特征提取单元分别对各个所述初始上下文特征、与各个所述初始上下文特征对应的待处理目标对象特征以及与各个所述初始上下文特征对应的目标动作特征进行特征提取,得到与各个所述初始上下文特征对应的全局特征; 将各个所述待处理目标对象特征、与各个所述初始上下文特征对应的目标动作特征以及与各个所述初始上下文特征对应的全局特征进行拼接,得到与各个所述待处理视频特征对应的视觉特征,其中,所述初始视频特征包括所述待处理目标对象特征、所述目标动作特征以及所述全局特征; 所述真实标签包括与所述待处理目标对象特征一一对应的目标对象正标签以及目标对象负标签、与所述目标动作特征一一对应的动作正标签以及动作负标签、与所述全局特征一一对应的字幕正标签以及字幕负标签和多个目标单词独热编码, 所述S5中,分析所有所述预测标签向量以及所有所述初始视频特征与所有所述真实标签的损失函数,并根据分析结果得到视频描述模型的过程包括: 通过BERT模型分别对与各个所述待处理目标对象特征一一对应的目标对象正标签以及目标对象负标签、与各个所述目标动作特征一一对应的动作正标签以及动作负标签和与各个所述全局特征一一对应的字幕正标签以及字幕负标签进行编码,得到与各个所述待处理目标对象特征一一对应的目标对象正标签向量以及目标对象负标签向量、与各个所述目标动作特征一一对应的动作正标签向量以及动作负标签向量和与各个所述全局特征一一对应的字幕正标签向量以及字幕负标签向量; 通过第四式对所有所述目标对象正标签向量、所有所述目标对象负标签向量、所有所述动作正标签向量、所有所述动作负标签向量、所有所述字幕正标签向量、所有所述字幕负标签向量、所有所述待处理目标对象特征、所有所述目标动作特征、所有所述全局特征、所有所述预测标签向量以及所有所述目标单词独热编码进行计算,得到目标损失值,所述第四式为: L=Lo+La+Lg+Lp, 其中, 其中,L为目标损失值,Lo为目标对象损失值,La为动作损失值,Lg为全局损失值,Lp为预测标签损失值,αo为预设目标对象阈值,αa为预设动作阈值,αg为预设全局阈值,d为距离,O'i为第i个初始上下文特征对应的待处理目标对象特征,为第i个待处理目标对象特征对应的目标对象负标签向量,为第i个待处理目标对象特征对应的目标对象正标签向量,A'i为第i个初始上下文特征对应的目标动作特征,为第i个目标动作特征对应的动作负标签向量,为第i个目标动作特征对应的动作正标签向量,Gi为第i个初始上下文特征对应的全局特征,为第i个全局特征对应的字幕负标签向量,为第i个全局特征对应的字幕正标签向量,Pi为第i个初始上下文特征对应的预测标签向量,δwi为第i个目标单词独热编码,L为初始上下文特征的总数; 根据所述目标损失值对所述训练模型进行参数更新,更新后返回S2,直至达到预设迭代次数,将参数更新后的训练模型作为视频描述模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人桂林电子科技大学,其通讯地址为:541004 广西壮族自治区桂林市七星区金鸡路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。