中科智禾数字科技(北京)有限公司丁黎辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中科智禾数字科技(北京)有限公司申请的专利一种基于深度学习的婴儿痉挛症临床发作视频识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117058584B 。
龙图腾网通过国家知识产权局官网在2025-07-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311022570.6,技术领域涉及:G06V20/40;该发明授权一种基于深度学习的婴儿痉挛症临床发作视频识别方法是由丁黎辉;付立军;李旭;王宗;刘婧;仇慧琪设计研发完成,并于2023-08-14向国家知识产权局提交的专利申请。
本一种基于深度学习的婴儿痉挛症临床发作视频识别方法在说明书摘要公布了:本发明涉及计算机视觉领域、视频监控以及医疗康复等多个领域,尤其是一种基于深度学习的婴儿痉挛症临床发作视频识别方法。主旨在于结合计算机视觉技术精确定位患者活动情况,并实现自动识别患者是否发作。主要方案包括构建数据集,得到训练集和验证集,进行数据预处理;构建改进的visiontransformer分类网络模型;把处理过的数据输入到改进的visiontransformer分类网络中进行训练;观察训练模型收敛情况,判断损失函数是否过拟合,是否满足训练标准;如果满足训练标准则直接输出标准识别模型,不满足则找到符合预设标准的权重函数并且解冻数据集再次精化训练,得到满足标准的权重函数后输出标准婴儿痉挛症临床发作识别模型。
本发明授权一种基于深度学习的婴儿痉挛症临床发作视频识别方法在权利要求书中公布了:1.一种基于深度学习的婴儿痉挛症临床发作识别方法,其特征在于,包括以下步骤: 步骤1:对患者临床监控视频进行发作点前后的视频段截取,得到数据集; 步骤2:对步骤1得到的数据集中的视频段样本进行预处理,得到痉挛和非痉挛图片; 步骤3:使用SAM模型对图片分割,精准定位患者位置,得到发作与未发作类别的患者图片; 步骤4:获取患者图片数据,构建数据集,得到训练集和验证集,进行数据预处理; 步骤5:构建改进的visiontransformer分类网络模型; 步骤6:把处理过的数据输入到改进的visiontransformer分类网络中进行训练; 步骤7:观察训练模型收敛情况,判断损失函数是否过拟合,是否满足训练标准;如果满足训练标准则直接输出标准识别模型,不满足则找到符合预设标准的权重函数并且解冻数据集再次精化训练,得到满足标准的权重函数后输出标准婴儿痉挛症临床发作识别模型; 步骤8:利用标准婴儿痉挛症临床发作识别模型快速识别出婴儿是否发作,并判断其可能性概率,将结果输出保存为可供训练的XML文件; 上述步骤5,具体包括以下步骤: 步骤5.1:将resnet50网络的BatchNorm层替换为GroupNorm,从而提高模型的性能和稳定性; 步骤5.2:对resnet50残差块采用Relu函数,防止网络出现“dyingrelu”问题,用于提高模型的鲁棒性,GELU函数的公式如下: 步骤5.3:在每个残差模块中的3*3卷积层后融入CA注意力机制,该机制将位置信息加入到通道注意力中,使得网络能够在避免大量计算开销的前提下参与较大的区域; CA注意力机制的实现过程如下: 首先,将输入特征图分别沿着宽度和高度两个方向进行全局平均池化,接着,将得到的宽度和高度两个方向的特征图拼接在一起然后送入共享的卷积核为1x1的卷积模块中,并将维度降低为原来的Cr,之后,经过批量归一化处理和非线性激活函数得到形如Crx1xW+H的特征图F,再将特征图分别按照原来的宽度和高度进行1x1卷积分别得到和原来通道数一致的特征图FH和Fw.,经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重δh和δW;最后,在原始特征图上通过乘法加权计算,得到在宽度和高度方向上带有注意力权重的特征图,计算公式如下: 步骤5.4:在visiontransformer网络模型的patchembedding层之前加入改进的resnet50主干网络作为特征提取器; 上述步骤6,具体包括以下步骤: 步骤6.1:将步骤4得到的发作与未发作训练集图片输入到步骤5.4得到的特征提取器中,经过卷积层和加入CA注意力机制的残差块堆叠,得到经过通道注意力加权和残差连接的特征图,有效保留原始特征图的空间维度和通道维度,增强特征表达能力; 步骤6.2:将步骤6.1得到的特征图输入之后的PatchEmbedding层,将特征图分成大小为16*16的patchs,并用线性变换将每个patchs转换为一维向量,并将向量进行拼接; 步骤6.3:将步骤6.2得到的向量拼接上classtoken,用于学习其他patch的整体信息; 步骤6.4:将步骤6.3得到的向量加上PositionEmbedding,用于保留图片的类别信息和位置信息; 步骤6.5:将步骤6.4得到的所有向量输入到多层Transformer编码器中,进行自注意力计算,从而获得全局的上下文信息; 步骤6.6:将Transformer编码器的输出向量送入MLPHead层,得到图片的分类类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科智禾数字科技(北京)有限公司,其通讯地址为:101499 北京市怀柔区北房镇幸福西街3号1幢101室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。