西安领向鸟文化传播有限公司郭志胜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安领向鸟文化传播有限公司申请的专利基于OCR的视频轴文件智能精确提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120298951B 。
龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510443080.6,技术领域涉及:G06V20/40;该发明授权基于OCR的视频轴文件智能精确提取方法及系统是由郭志胜;付语汐设计研发完成,并于2025-04-09向国家知识产权局提交的专利申请。
本基于OCR的视频轴文件智能精确提取方法及系统在说明书摘要公布了:本发明涉及光学字符识别技术领域,公开了一种基于OCR的视频轴文件智能精确提取方法及系统,该方法包括:提取目标视频帧的OCR文本特征、图像特征和音频特征;对目标视频帧进行分析,得到场景类型,并融合特征向量,基于预训练的自适应注意力模型和融合特征向量,得到加权特征向量;对加权特征向量进行建模,得到隐藏状态序列信息;基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧,生成目标视频帧轴文件。通过实施本发明,综合利用信息和方法,能够根据不同视频类型和内容自动调整提取策略,生成准确完整的视频帧轴文件,解决了传统方法提取的视频轴文件准确性和完整性较差的问题。
本发明授权基于OCR的视频轴文件智能精确提取方法及系统在权利要求书中公布了:1.一种基于OCR的视频轴文件智能精确提取方法,其特征在于,所述方法包括: 获取待提取视频和提取任务信息,对所述待提取视频进行预处理,得到目标视频帧; 提取所述目标视频帧的OCR文本特征、图像特征和音频特征; 对所述目标视频帧进行场景分析,得到场景类型; 所述场景分析包括:基于目标视频帧的图像特征,通过预训练的场景分类模型输出场景类型,所述场景类型至少包括演讲场景、体育赛事场景和影视场景中的一种; 基于所述场景类型、所述OCR文本特征、图像特征和音频特征得到融合特征向量; 基于预训练的自适应注意力模型和融合特征向量,得到加权特征向量; 利用长短期记忆网络模型对所述加权特征向量进行建模,得到隐藏状态序列信息; 基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧,生成目标视频帧轴文件; 所述基于所述场景类型、所述OCR文本特征、图像特征和音频特征得到融合特征向量,包括: 基于默认权重与场景类型的对应关系、所述场景类型,确定默认权重; 基于所述默认权重对OCR文本特征、图像特征和音频特征进行特征融合,得到融合特征向量; 所述基于隐藏状态序列信息、长短期记忆网络模型、提取任务信息、场景类型、预训练的深度网络方法和目标视频帧,生成目标视频帧轴文件,包括: 基于所述隐藏状态序列信息定义环境状态信息; 基于所述场景类型定义提取策略集合; 基于所述提取任务信息定义奖励策略集合; 利用预训练的深度网络方法基于环境状态信息、提取策略集合和奖励策略集合得到目标提取策略集合,过程如下: 将环境状态信息、提取策略集合和奖励策略集合作为输入到预训练的深度网络方法中,深度网络方法通过多层卷积层和全连接层对环境状态信息进行特征提取,得到提取策略集合,将提取策略集合编码为可处理的向量形式;计算每个提取策略在当前环境状态下的策略奖励,不断地迭代训练,深度网络方法输出目标提取策略集合; 基于所述目标提取策略集合对所述目标视频帧进行处理,生成目标视频帧轴文件。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安领向鸟文化传播有限公司,其通讯地址为:710076 陕西省西安市高新区天谷七路95号元征大厦2501室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励