上海交通大学张娅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利弱监督视频时序动作检测与分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115272941B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211056034.3,技术领域涉及:G06V20/40;该发明授权弱监督视频时序动作检测与分类方法及系统是由张娅;鞠陈;郑锟浩;刘金祥;谢伟迪;王延峰设计研发完成,并于2022-08-31向国家知识产权局提交的专利申请。
本弱监督视频时序动作检测与分类方法及系统在说明书摘要公布了:本发明提供了一种弱监督视频时序动作检测与分类方法及系统,包括:根据输入长视频提取单模态特征图;将单模态特征图映射为动作分类概率和动作定位概率图;基于动作定位概率图蒸馏背景伪标签;根据输入长视频和动作名称列表提取视觉特征图和文本特征图;计算动作检测概率图;基于动作检测概率图蒸馏前景伪标签;根据背景伪标签对动作定位进行背景协同优化;根据前景伪标签对动作检测进行前景协同优化;基于动作分类概率产生视频分类结果,基于动作定位概率图产生视频检测结果。本发明采用蒸馏协同的策略,促使单模态和跨模态框架优势互补,实现更完整且准确的时序动作检测和分类。
本发明授权弱监督视频时序动作检测与分类方法及系统在权利要求书中公布了:1.一种弱监督视频时序动作检测与分类方法,其特征在于,所述方法包括如下步骤: 步骤S1:使用3D深度卷积特征编码网络,对输入的长视频提取预设维度的单模态特征图; 步骤S2:使用全卷积层构成的动作分类网络将单模态特征图映射为预设维度的动作分类概率,并和给定的动作分类标签计算损失函数; 步骤S3:使用全卷积层构成的动作定位网络将单模态特征图映射为预设维度的动作定位概率图; 步骤S4:对于动作定位概率图,使用阈值法将其转换为背景伪标签; 步骤S5:对于输入的动作名称列表,使用能够学习的提词向量映射为动作名称向量; 步骤S6:对于输入的长视频和动作名称向量,使用视觉文本预训练编码网络提取预设维度的视觉特征图和文本特征图; 步骤S7:使用全卷积层构成的时序网络强化视觉特征图,将强化后的视觉特征图和文本特征图进行矩阵乘法运算,产生动作检测概率图; 步骤S8:对于动作检测概率图,使用阈值法将其转换为前景伪标签; 步骤S9:将背景伪标签用于指导动作检测网络的协同优化; 步骤S10:将前景伪标签用于指导动作定位网络的协同优化; 步骤S11:针对动作分类概率、动作定位概率图,分别使用阈值法产生动作类别预测、检测位置预测; 所述步骤S9使用背景伪标签Pb指导动作检测网络的协同优化,在背景或前景标签帧处进行监督,忽略标签不确定帧,构建损失函数训练提词向量φpro和时序网络φtem,直至损失函数收敛; 所述损失函数,计算公式如下: 其中,θSV是跨模态视觉特征编码网络的参数,θST是跨模态文本特征编码网络的参数,θpro是提词向量的参数,θtem是时序网络的参数,XI,NC,PI,b代表输入视频,动作名称列表和背景伪标签的分布,xi代表视频实例,pi,b是其背景伪标签,ni是动作名称,·表示矩阵乘法,H代表交叉熵函数; 所述步骤S10使用前景伪标签Pf指导动作定位网络的协同优化,在背景或前景标签帧处进行监督,忽略标签不确定帧,构建损失函数训练动作定位网络φloc,直至损失函数收敛; 所述损失函数,计算公式如下: 其中θS是单模态特征编码网络的参数,θloc是动作定位网络的参数,XI,PI,f是输入视频,前景伪标签的分布,xi代表视频实例,pi,f是前景伪标签,H代表交叉熵函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。