山东大学唐昊煜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东大学申请的专利基于记忆感知的弱监督在线视频时刻定位方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121166972B 。
龙图腾网通过国家知识产权局官网在2026-02-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511720801.X,技术领域涉及:G06F16/78;该发明授权基于记忆感知的弱监督在线视频时刻定位方法及系统是由唐昊煜;武嘉怡;王雪飞;郭云鹏;徐明珠;胡宇鹏设计研发完成,并于2025-11-21向国家知识产权局提交的专利申请。
本基于记忆感知的弱监督在线视频时刻定位方法及系统在说明书摘要公布了:本发明涉及基于记忆感知的弱监督在线视频时刻定位方法及系统,属于人工智能技术领域,包括:对给定视频及其文本查询进行多模态特征融合,得到在各阶段统一的帧级别表征;使用离线指导在线的模型架构,将融合后的特征分别以整体和逐帧的形式输入离线和在线模块;在离线模块中,生成高斯掩码重构被掩盖部分词语的查询,得到动作起始时刻的提案;在在线模块中,使用窗口内的长期历史记忆对其进行增强,动态生成其在窗口内的注意力权重,加权计算出当前帧的分数;将离线模块得到的提案作为伪标签,为在线模块的分数序列提供监督信息;只需单独推断在线模块,即完成高性能的弱监督在线时刻定位。本发明显著提升了模型的扩展能力与应用价值。
本发明授权基于记忆感知的弱监督在线视频时刻定位方法及系统在权利要求书中公布了:1.一种基于记忆感知的弱监督在线视频时刻定位方法,其特征在于,包括: 对给定视频及其文本查询进行多模态特征融合,得到在各阶段统一的帧级别表征; 使用离线指导在线的模型架构,将融合后的特征分别以整体和逐帧的形式输入离线和在线模块; 在离线模块中,通过生成高斯掩码重构被掩盖部分词语的查询,得到动作起始时刻的提案; 在在线模块中,对于输入的每一帧短期记忆特征,首先使用窗口内的长期历史记忆对其进行增强,然后动态生成其在窗口内的注意力权重,加权计算出当前帧的分数; 将离线模块得到的提案作为伪标签,为在线模块的分数序列提供监督信息; 最后,只需单独推断在线模块,即完成高性能的弱监督在线时刻定位; 在在线模块中,对于输入的每一帧短期记忆特征,首先使用窗口内的长期历史记忆对其进行增强,然后动态生成其在窗口内的注意力权重,加权计算出当前帧的分数;包括: 将融合特征逐帧输入到在线模块中,为每一帧设置包含长期历史信息的滑动窗口; 将长期和短期特征处理后输入解码器进行交叉注意力计算,得到增强的帧特征; 将增强特征使用长短期记忆网络预测得到当前帧的事件发生概率; 通过动态规划加权计算当前时刻的分数,计算在不同事件状态下的预测分数; 在在线模块中,对于输入的每一帧短期记忆特征,首先使用窗口内的长期历史记忆对其进行增强,然后动态生成其在窗口内的注意力权重,加权计算出当前帧的分数;包括: S31:在在线模块中,融合特征F按时间顺序逐帧得到处理;设置长度为n的滑动窗口,将当前帧表示为ft,以及包含n-1帧的历史信息特征表示为Fh,将[Fh,ft]共同作为t时刻下在线模块的输入;另外,在初始阶段t+1n时,可见帧数尚未达到n,此时Fh头部填充一个可学习的嵌入特征; S32:使用来增强当前帧中包含的短期信息,窗口中的特征表示为Ft={Fh,ft},将Ft输入到标准Transformer解码器,其中,Ft作为键和值,ft作为查询: 其中,CrossAttnft,Ft,Ft是解码器块中的交叉注意力层,WQ,WK和WV是投影矩阵,Wt是最终得到的增强特征,dk为经过投影后的键向量和查询向量的维度; S33:首先对增强特征Wt生成预测概率,具体由一个带有线性层的长短期记忆网络即LSTM模型完成,在每一时刻,LSTM单元的隐藏状态ht和单元状态ct都被更新为: ht,ct=LSTMht-1,ct-1,Wt; 其中,ht-1、ct-1分别指上一时刻的隐藏状态和单元状态; 随后,ht经过线性层变换,分别得到起始、结束和中间状态的概率: 其中,Wξ为权重参数,bξ为偏差,ξ=s时,表示事件在t时刻属于起始阶段的概率;ξ=e时,表示事件在t时刻属于终止阶段的概率;ξ=m时,表示事件在t时刻属于中间阶段的概率; S34:随后对增强特征Wt计算帧上下文权重: 其中,Ww、bw和uw均为可学习参数;ut是权重计算过程的中间变量;对于t时刻,将权重与整个窗口内的记忆概率进行向量乘法,然后得到分数值,如下所示: 其中,t为当前时刻,tm为当前滑动窗口中最早的时刻,n为预设的窗口大小,nm为当前时刻实际的窗口大小,因为在为窗口中归一化权重序列,是窗口中每个时刻作为不同事件阶段的概率列表;ti和t′都指任意一个处于tm和t之间的时刻,和分别为ti、tm和t时刻归一化后的注意力权重;为t时刻作为不同事件阶段的最终得分;分别为tm和t时刻作为不同事件阶段的概率; 当t到达最后一帧时,即获得整个视频的在线事件预测分数序列 其中,为整个视频的在线事件预测分数序列,是t时刻作为不同事件阶段的最终得分; 最后,将起始分数序列与结束分数序列进行外积运算,即得到事件预测分数图,然后使用最大化抑制算法过滤其中的高分区域,即得到最终的在线预测结果: 其中,segon是指在线预测最终得到的结果,即目标查询在视频中的定位片段;NMS·是指极大化抑制算法。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250100 山东省济南市历城区山大南路27号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励