中国科学技术大学郝艳宾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利基于沙漏卷积的层次化动态建模的视频动作分类方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115424175B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211053069.1,技术领域涉及:G06V20/40;该发明授权基于沙漏卷积的层次化动态建模的视频动作分类方法及应用是由郝艳宾;谭懿;汪远;何向南;王硕设计研发完成,并于2022-08-31向国家知识产权局提交的专利申请。
本基于沙漏卷积的层次化动态建模的视频动作分类方法及应用在说明书摘要公布了:本发明公开了一种基于沙漏卷积的层次化动态建模的视频动作分类方法及应用,该方法包括:1、视频数据提取与预处理;2、构建层次化沙漏卷积网络,包括:帧级动态信息捕捉网络,片段级动态信息捕捉网络以及分类网络;3、构建交叉熵损失函数,并对所述层次化沙漏卷积网络进行训练,得到视频动作分类器,用于实现视频动作分类。本发明提出的沙漏卷积能实现对视频动态的更好建模,同时基于沙漏卷积的帧级动态信息捕捉网络以及片段级动态信息捕捉网络,能从多个层级层次化建模视频动态信息,从而能实现更高精度的人物动作视频识别。
本发明授权基于沙漏卷积的层次化动态建模的视频动作分类方法及应用在权利要求书中公布了:1.一种基于沙漏卷积的层次化动态建模的视频动作分类方法,其特征是按如下步骤进行: 步骤1、视频数据提取与预处理: 从人物动作视频V中按照固定帧数均匀采样T帧关键帧图像,记为F=[F1,F2,…,Ft,…,FT],Ft表示第t个关键帧,T表示关键帧数; 采样第t个关键帧Ft在人物动作视频V中的前后各两个连续帧,并将Ft与其前后各两个连续帧表示为第t个片段表示Ft的前二帧,表示Ft的前一帧,表示Ft的后一帧,表示Ft的后二帧; 将第t个片段Ct中的每帧分辨率进行缩放后再从每帧中取出一个分辨率为H×W的图像块后进行归一化预处理,得到第t个输入视频数据张量从而得到人物动作视频V的输入视频数据张量C'=[C'1,C'2,…,C't,…,C'T],其中,H,W分别代表C't的高度与宽度,D代表C't的通道数; 步骤2、构建层次化沙漏卷积网络,包括:帧级动态信息捕捉网络,片段级动态信息捕捉网络以及分类网络; 步骤2.1、构建沙漏卷积: 所述沙漏卷积是由一组核大小为p·|i|+1,p·|i|+1的空间卷积以及一个核大小为K的时间卷积组成,其中,p为参数,i为时间偏移; 所述沙漏卷积对任一维度为的张量X进行处理,得到输出特征HgCX,T'表示时间维度大小,H'表示高度,W'表示宽度,D'表示通道数,其中,输出特征HgCX的第t个特征HgCXt是利用式1得到: 式1中,Xt+i为张量X在T'时间维度上的第t+i个特输入特征,αi为时间卷积层的第i个参数,f为空间卷积函数,Wp·|i|+1,p·|i|+1为空间卷积层的参数;t∈[0,T'-1]; 步骤2.2、所述帧级动态信息捕捉网络由ResNet50网络的第一卷积块与帧级动态信息捕捉模块组成: ResNet50网络的第一卷积块为一个卷积核为a×a的空间卷积; 帧级动态信息捕捉模块由一个降采样层、一个沙漏卷积层、一个空间卷积层以及上采样层组成: 所述降采样层为一个核大小为b×b的空间平均池化层;所述沙漏卷积层由两个串联的沙漏卷积组成;所述空间卷积层为一个卷积核为a×a的空间卷积;所述上采样层用于将一个像素复制为四个相邻像素的上采样操作; 将所述人物动作视频V的关键帧图像F=[F1,F2,…,F,…,F]输入到ResNet50网络的第一卷积块中进行处,并得到输出特征F 将人物动作视频V的输入视频数据张量C'=[C',C',…,C',…,C']输入到帧级动态信息捕捉模块中,并依次经过降采样层,沙漏卷积层,空间卷积层以及上采样层的处理后,得到输出特征Ffm 将F与Ffm相加后得到帧级动态信息捕捉网络的输出Mfm 步骤2.3、所述片段级动态信息捕捉网络由串联的四个卷积块组成,卷积块由串联的重复单元构成,每个卷积块包含的重复单元数量不同; 所述重复单元由残差块和片段级动态信息捕捉模块组成;所述残差块中包含两个卷积核为1×1的卷积层和一个卷积核3×3的卷积层;所述片段级动态信息捕捉模块包含两个1×1×1的卷积层、一个沙漏卷积、一个全局平均池化层以及一个Sigmoid激活函数层; 将Mfm输入到片段级动态信息捕捉网络的第一个卷积块中第一个重复单元的第一个1×1的卷积层后,得到特征Y,将Y输入到片段级动态信息捕捉模块中,并依次经过第一个1×1×1的卷积层,一个沙漏卷积层,一个全局平均池化层,第二个1×1×1的卷积层以及Sigmoid激活函数层的处理后,获得特征A,将A与Y相乘后再输入第一个卷积块中第一个重复单元的残差块,并依次经过3×3的卷积层和第二个1×1的卷积层的处理后,得到第一个卷积块的第一个重复单元的输出Z’; Z’再输入第一个卷积块中第二个重复单元中,并经过同样的处理后得到的结果再输入下一个重复单元,从而经过第一个卷积块中所有重复单元的处理后的结果,输入到下一个卷积块中进行处理,最终由第四个卷积块的最后一个复单元得到层次化沙漏卷积网络的输出Z; 步骤3、所述分类网络由全局平均池化层和全连接层串联而成;并将Z输入所述分类网络中进行处理后,得到最终动作类别; 步骤4、构建交叉熵损失函数作为所述层次化沙漏卷积网络的损失函数L,并利用SGD优化器对所述层次化沙漏卷积网络进行训练,同时计算所述损失函数L,以调整网络参数,最终获得训练好的层次化沙漏卷积网络作为视频动作分类器,用于实现视频动作分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励