复旦大学张力获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利一种基于图像生成的语义分割方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116229061B 。
龙图腾网通过国家知识产权局官网在2026-01-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310022874.6,技术领域涉及:G06V10/26;该发明授权一种基于图像生成的语义分割方法和系统是由张力;陈家棋;卢嘉晨;朱霞天设计研发完成,并于2023-01-08向国家知识产权局提交的专利申请。
本一种基于图像生成的语义分割方法和系统在说明书摘要公布了:本发明公开了一种基于图像生成的语义分割方法,包括:获取待分割图像,对待分割图像进行归一化处理,并将归一化处理后的待分割图像转换为张量格式的图像,将得到的张量格式的图像输入预先训练好的语义分割模型中,以得到语义分割结果。本发明能够解决现有基于判别式模型的语义分割方法由于知识不足、信息不够丰富,导致该方法无法达到最佳的精度,进而导致准确性和泛化性不佳的技术问题,以及由于该方法必须随着总类别数量的增减来修改像素级分类器的输出通道数,频繁的模型修改会导致时间成本增加的技术问题。
本发明授权一种基于图像生成的语义分割方法和系统在权利要求书中公布了:1.一种基于图像生成的语义分割方法,其特征在于,包括以下步骤: 步骤一、获取待分割图像,对待分割图像进行归一化处理,并将归一化处理后的待分割图像转换为张量格式的图像; 步骤二、将步骤一得到的张量格式的图像输入预先训练好的语义分割模型中,以得到语义分割结果;语义分割模型包括依次连接的图像特征提取器、离散特征序号分类器、离散特征码表、语义图像解码器、颜色-类别映射模块、类别-颜色映射模块、以及语义图像编码器,其中类别-颜色映射模块和语义图像编码器仅用于对语义分割模型进行离线训练;离散特征码表是多个离散特征的集合,其中,离散特征的维度是128,每个离散特征在离散特征码表中都有一个描述唯一的序号,即离散特征序号; 语义分割模型是采用以下步骤训练得到的: 1获取ADE20K数据集,将该ADE20K数据集的25574组图像及其对应语义掩码的真值划分为训练集,将ADE20K数据集的2000组图像及其对应语义掩码的真值划分为验证集; 2生成维度为的类别颜色数组;步骤2包括以下子步骤: 2-1生成三个一维数组、、;数组的每个元素分别是、40和45,且有k1∈[1,数组中的元素总数],k2∈[1,数组中的元素总数],k3∈[1,数组中的元素总数]; 2-2设置计数器k1=1、k2=1、k3=1,并初始化RGB颜色数组为空数组; 2-3判断k1是否大于预设的最大循环次数J,其取值等于数组中的元素总数,如果是则转入步骤2-13,否则转入步骤2-4; 2-4判断k2是否大于预设的最大循环次数K,其取值等于数组中的元素总数,如果是则转入步骤2-3,否则进入步骤2-5; 2-5判断k3是否大于预设的最大循环次数Q,其取值等于数组中的元素总数,如果是则转入步骤2-4,否则进入步骤2-6; 2-6生成一个-15到15之间的随机整数,并更新数组的第k1个元素,以得到更新后的数组的第k1个元素; 2-7生成一个-15到15之间的随机整数,并更新数组的第k2个元素,以得到更新后的数组的第k2个元素; 2-8生成一个-15到15之间的随机整数,并更新数组的第k3个元素,以得到更新后的数组的第k3个元素; 2-9将步骤2-6得到的更新后的数组的第k1个元素、步骤2-7得到的更新后的数组的第k2个元素、以及步骤2-8得到的更新后的数组的第k3个元素,组成一个三维元素,,,并将三维元素,,插入到RGB颜色数组的末尾,以得到更新后的RGB颜色数组; 2-10设置k1=k1+1,并返回步骤2-5; 2-11设置k2=k2+1,并返回步骤2-4; 2-12设置k3=k3+1,并返回步骤2-3; 2-13获取步骤2-9得到的更新后的RGB颜色数组中的前C个三维元素,以得到类别颜色数组; 3对图像特征提取器、离散特征序号分类器、离散特征码表、类别-颜色映射模块、颜色-类别映射模块和语义图像编码器的权重进行初始化,以得到初始化后的图像特征提取器、离散特征序号分类器、离散特征码表、类别-颜色映射模块、颜色-类别映射模块和语义图像编码器;步骤3包括以下子步骤: 3-1将图像特征提取器的预训练权重加载到图像特征提取器; 3-2初始化离散特征序号分类器的权重为随机值,并设置离散特征序号分类器的权重为有梯度的权重; 3-3将步骤2得到的预设的类别颜色数组加载到颜色-类别映射模块中,并设置颜色-类别映射模块的权重为无梯度的权重; 3-4将步骤2得到的预设的类别颜色数组加载到类别-颜色映射模块中,并设置类别-颜色映射模块的权重为无梯度的权重; 3-5将语义图像编码器的预训练权重到语义图像编码器,并设置语义图像编码器的权重为无梯度权重; 4利用步骤1得到的ADE20K数据集的训练集、步骤3得到的初始化后的离散特征码表、类别-颜色映射模块和语义图像编码器,对步骤3得到的初始化后的图像特征提取器和离散特征序号分类器进行训练,以得到训练好的图像特征提取器和离散特征序号分类器;步骤4包含以下子步骤: 4-1设置计数器i=1,并对训练过程的超参数进行初始化,以得到初始化后的训练过程的超参数; 4-2从步骤1获取的ADE20K数据集的训练集中获取多个图像及其对应语义掩码的真值; 4-3对步骤4-2获取的多个图像和语义掩码的真值进行数据预处理,以得到多个预处理后的图像和语义掩码的真值; 4-4利用类别-颜色映射模块、语义图像编码器、以及离散特征码表将步骤4-3获得的多个预处理后的语义掩码的真值映射为多个离散特征序号矩阵的真值; 4-5利用依次连接的图像特征提取器和离散特征序号分类器将步骤4-3得到的多个预处理后的图像映射为多个离散特征序号的概率矩阵,其维度为,其中,为离线训练过程中预先设置的批量数据大小,和分别是图像的长边的像素数量和短边的像素数量; 4-6将步骤4-5得到的多个离散特征序号的概率矩阵和步骤4-4得到的多个离散特征序号矩阵的真值输入交叉熵损失函数中,以得到语义特征损失值; 4-7利用步骤4-6得到的语义特征损失值进行反向传播,以得到图像特征提取器和离散特征序号分类器的梯度; 4-8利用步骤4-1设置的学习率、AdamW优化器和步骤4-7得到的权重梯度,更新图像特征提取器和离散特征序号分类器的权重,以得到新的图像特征提取器和离散特征序号分类器的权重; 4-9计数器i=i+1,并将图像特征提取器和离散特征序号分类器的梯度设置为0; 4-10判断i是否大于预先设置的最大迭代次数n,如果是则过程结束,否则返回步骤4-2; 5对步骤4得到的训练好的图像特征提取器、离散特征序号分类器的权重、步骤3得到的初始化的离散特征码表、颜色-类别映射模块的权重、以及语义图像解码器的权重进行保存,以得到语义分割模型的权重;其中,语义图像解码器的权重是从网络下载的DALL-E的VQ-VAE模型的解码器的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路539号新金博大厦1307;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励