上海人工智能创新中心吴昊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海人工智能创新中心申请的专利一种密集视频描述训练方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118334677B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410316982.9,技术领域涉及:G06V30/19;该发明授权一种密集视频描述训练方法、装置、设备及介质是由吴昊;刘华斌;乔宇;孙骁设计研发完成,并于2024-03-20向国家知识产权局提交的专利申请。
本一种密集视频描述训练方法、装置、设备及介质在说明书摘要公布了:本发明涉及一种密集视频描述训练方法、装置、设备及介质,其中方法包括以下步骤:收集未标注的视频数据,并提取原始字幕文本;基于大语言模型对原始字幕文本进行处理,输出带序的事件描述文本;基于预训练的视觉‑语言模型,计算事件描述文本和原始视频帧之间的相似度矩阵,生成每个事件描述对应的伪事件边界并同时优化事件描述;将生成的事件描述文本和对应的伪事件边界作为密集视频描述模型优化过程中的学习目标,训练密集视频描述模型,训练过程中采用在线式的伪标签精炼算法,迭代更新伪事件边界;在下游带有事件边界标注的数据集上微调密集视频描述模型。与现有技术相比,本发明可以得到更高质量的事件描述和伪事件边界,兼容现有训练框架,可以实现在大量无标签数据上的预训练。
本发明授权一种密集视频描述训练方法、装置、设备及介质在权利要求书中公布了:1.一种利用未标注视频的基于伪边界增强和精炼的密集视频描述训练方法,其特征在于,包括以下步骤: S1,收集未标注的视频数据,并从视频中提取原始字幕文本; S2,基于大语言模型,设计特定的任务文本,将原始字幕文本输入大语言模型进行总结归纳,输出精炼过的视频中的带序的事件描述文本; S3,基于预训练的视觉-语言模型,计算事件描述文本和原始视频帧之间的相似度矩阵,使用事件描述-边界的联合优化算法,生成每个事件描述对应的伪事件边界,并优化事件描述文本,所述事件描述-边界的联合优化算法选择迭代过程中代价函数最小的伪边界作为最终的伪事件边界,并基于每一候选的事件描述文本生成的伪边界,分别计算代价函数,选择代价函数最小的候选事件描述文本作为最终的事件描述文本;其中,所述代价函数为: , 其中,是第k帧和当前事件描述文本的相似度,为第k帧的位置,distance表示到当前伪边界box的距离,如果在伪边界范围内,distance为负值,,如果不在伪边界范围内,distance为正值,,left表示伪边界的左边界,right表示伪边界的右边界,index表示的位置索引; S4,将生成的事件描述文本和对应的伪事件边界作为密集视频描述模型优化过程中的学习目标,基于密集视频描述模型预测得到的事件描述和边界结果分别与事件描述文本和伪事件边界计算损失函数,基于损失函数值预训练密集视频描述模型; S5,在密集视频描述模型预训练过程中,基于伪事件边界生成多个候选边界,使用密集视频描述模型对多个候选边界进行评估,依据评估结果以迭代的形式在线精炼视频对应的伪事件边界,将更新后的伪事件边界作为密集视频描述模型下一轮的学习目标; S6,在下游给定的带有事件边界标注的密集视频描述数据集上微调预训练好的密集视频描述模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海人工智能创新中心,其通讯地址为:200232 上海市徐汇区云锦路701号37、38层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。