中南大学赵于前获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中南大学申请的专利一种基于置信度门控时空记忆网络的半监督视频目标分割方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117315543B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311338760.9,技术领域涉及:G06V20/40;该发明授权一种基于置信度门控时空记忆网络的半监督视频目标分割方法是由赵于前;孟显帅;张帆;阳春华;桂卫华设计研发完成,并于2023-10-17向国家知识产权局提交的专利申请。
本一种基于置信度门控时空记忆网络的半监督视频目标分割方法在说明书摘要公布了:本发明公开了一种基于置信度门控时空记忆网络的半监督视频目标分割方法,包括:获取视频分割相关数据集以及对应的分割标签;构建编码器,提取视频图像中所包含的信息;构建置信度门控时空记忆读取模块,过滤历史时空信息中的噪声;构建空洞卷积空间池化金字塔模块,捕捉多尺度的目标特征信息,提升模型的特征识别能力;构建分割解码器,将目标外观信息恢复至高分辨率,得到目标分割结果。本发明方法能够有效减少因目标遮挡或消失对视频目标分割任务带来的影响,进一步提升模型对小目标或相似目标局部特征的识别能力和视频目标分割的准确率。
本发明授权一种基于置信度门控时空记忆网络的半监督视频目标分割方法在权利要求书中公布了:1.一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于包括以下步骤: 1获取数据集与分割标签: 获取半监督视频目标分割数据集与对应的分割标签; 2构建分割模型:所述模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成,具体构建过程包括以下步骤: 2-a构建编码器,包括查询编码器和记忆编码器,两者具有相同结构,都包括一个卷积模块、三个残差模块和一个特征嵌入模块; 查询编码器只对查询帧图像信息进行编码,当前查询帧图像依次经过查询编码器的卷积模块和三个残差模块,得到三个残差模块对应的输出特征图xr1、xr2和xr3;xr3经过特征嵌入模块编码后得到当前查询帧图像的特征对kQ,vQ,其中kQ和vQ分别是查询帧图像的键信息和值信息; 记忆编码器对图像和对应掩膜进行编码,当前查询帧图像的上一帧图像被视作记忆帧图像,该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后,再经特征嵌入模块编码,得到记忆帧图像的特征对kM,vM,其中kM和vM分别表示记忆帧图像的键信息和值信息; 记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库其中表示记忆编码库中的第j个特征对,j≤T,T为正整数,T表示记忆编码库中特征对的最大个数;当记忆帧图像及其之前的所有帧图像的总个数小于等于T时,则记忆编码库H由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成;当记忆帧图像及其之前的所有帧图像的总个数大于T时,则记忆编码库H由记忆帧图像和该记忆帧图像之前T-1帧的图像及其掩膜的编码结果共同构成; 2-b构建置信度门控时空记忆读取模块:分别计算由步骤2-a得到的kQ与记忆编码库H中每一个键信息之间的置信度j为正整数,且j≤T;置信度门控机制根据置信度的大小从记忆编码库H中筛选出与当前查询帧图像关联性最强的前N个特征对,N为正整数,NT;若记忆编码库H中现有特征对数不足N,则用特征值为0,0的特征对补充至N个;分别构建这N个特征对对应的键信息集合和值信息集合其中表示与当前查询帧图像关联性最强的第t个键信息,表示与当前查询帧图像关联性最强的第t个值信息;利用键信息集合Keys中的元素计算权值,然后用计算得到的权值对值信息集合Values中的元素加权求和得到vsum,最后将vsum与步骤2-a得到的vQ进行特征拼接,得到综合特征信息R; 2-c构建空洞卷积金字塔模块:所述模块包括并行的四个不同卷积模块,利用四个不同的卷积模块对步骤2-b得到的综合特征信息R分别进行多尺度特征提取,对提取的结果进行逐像素相加操作,得到增强特征J; 2-d构建解码器:对步骤2-c得到的增强特征J进行两次卷积和一次上采样后得到中间特征f1;对由步骤2-a得到的xr2进行两次卷积得到中间特征将和f1逐像素相加后再进行一次上采样得到中间特征f2;对由步骤2-a得到的xr1进行两次卷积得到中间特征将和f2逐像素相加后再进行一次卷积和一次上采样得到当前查询帧图像的预测分割掩膜Y; 2-e当前查询帧图像的预测分割掩膜得到以后,该查询帧图像成为新的记忆帧图像,而该查询帧图像的下一帧图像成为新的查询帧图像,利用步骤2-a构建的记忆编码器对新的记忆帧图像进行编码,将编码结果保存至记忆编码库H,更新记忆编码库;利用步骤2-a构建的查询编码器对新的查询帧图像进行编码,得到新查询帧图像的编码特征对,利用步骤2-b构建的置信度门控时空记忆读取模块计算新查询帧图像的综合特征信息;利用步骤2-c构建的空洞卷积金字塔模块对综合特征信息进行多尺度特征提取得到增强特征;利用步骤2-d构建的解码器对增强特征进行解码,得到新查询帧图像的预测分割掩膜;新查询帧图像的预测分割掩膜完成以后,该查询帧图像成为最新的记忆帧图像,该查询帧图像的下一帧图像成为最新的查询帧图像;如此循环,直到视频序列最后一帧图像的预测分割掩膜完成; 3训练分割模型: 利用步骤1得到的数据集训练步骤2构建完成的分割模型:使用交叉熵作为分割模型的损失函数得到损失值,并使用Adam优化器更新分割模型的模型参数,直到损失值不再下降,得到训练好的分割模型; 4推理: 获取测试视频数据,将其输入至步骤3训练好的分割模型,得到该测试视频数据各帧图像的分割掩膜; 5视频目标分割: 获取推理阶段中测试视频数据各帧图像的分割掩膜,将原图与分割掩膜加权混合,制作成视频流,得到视频目标分割结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南大学,其通讯地址为:410083 湖南省长沙市麓山南路932号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励