Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南方科技大学何志海获国家专利权

南方科技大学何志海获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南方科技大学申请的专利一种结合跨模态信息的深度估计方法、装置、终端及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118212282B

龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410359264.X,技术领域涉及:G06T7/50;该发明授权一种结合跨模态信息的深度估计方法、装置、终端及介质是由何志海;胡雪婷;张策;余可;欧阳健;吴昊设计研发完成,并于2024-03-27向国家知识产权局提交的专利申请。

一种结合跨模态信息的深度估计方法、装置、终端及介质在说明书摘要公布了:本发明所提供的一种结合跨模态信息的深度估计方法、装置、终端及介质,方法包括:将目标图像输入已训练的视觉语言预训练模型中,提取图像特征和场景特征;获取深度文本特征集、类场景特征集以及深度编码本,基于图像特征和深度文本特征集确定深度权重矩阵,基于场景特征、类场景特征集及深度编码本确定目标深度箱;根据目标深度箱中各个深度类别对应的深度值及深度权重矩阵得到深度估计结果。本发明通过使用视觉语言预训练模型,避免了大量训练步骤,并基于深度文本特征集、类场景特征集以及深度编码本,确定目标图像当前所处场景,实现了对不同场景深度范围的图像按照不同的深度箱进行计算,提高了深度估计的准确性。

本发明授权一种结合跨模态信息的深度估计方法、装置、终端及介质在权利要求书中公布了:1.一种结合跨模态信息的深度估计方法,其特征在于,所述方法包括: 将目标图像输入已训练的视觉语言预训练模型中,提取所述目标图像的图像特征和场景特征; 获取预先存储的深度文本特征集、类场景特征集以及深度编码本,所述深度文本特征集用于反映若干深度类别,所述类场景特征集中包括不同场景对应的场景特征,所述深度编码本中包括若干场景及对应的深度箱,各个所述深度箱中包括各个深度类别对应的深度值; 基于所述图像特征和深度文本特征集确定深度权重矩阵,基于所述场景特征、类场景特征集及深度编码本确定目标深度箱; 根据所述目标深度箱中各个深度类别对应的深度值及所述深度权重矩阵得到深度估计结果; 所述深度文本特征集是基于预设的深度类别描述信息在训练中更新得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到;所述深度编码本是基于预设的初始深度编码本在训练中更新得到; 基于所述图像特征和深度文本特征集确定深度权重矩阵,包括: 计算所述图像特征与所述深度文本特征集之间的第一余弦相似度,以估计每个图像块的深度类别; 将所述第一余弦相似度进行归一化处理,得到深度权重矩阵; 基于所述场景特征、类场景特征集及深度编码本确定目标深度箱,包括: 计算所述场景特征与所述类场景特征集之间的第二余弦相似度; 根据所述第二余弦相似度确定类场景特征集中与所述目标图像相匹配的目标场景; 根据所述目标场景查找所述深度编码本,得到所述目标图像对应的目标深度箱; 所述视觉语言预训练模型的训练步骤包括: 构建训练样本集,所述训练样本集中包括不同场景对应的若干训练图像,以及各个训练图像对应的深度值标签; 将当前训练图像输入初始视觉语言预训练模型中,提取所述当前训练图像的训练图像特征和训练场景特征; 获取深度文本特征集、类场景特征集和预设的初始深度编码本,所述深度文本特征集是基于预设的深度类别描述信息得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到,所述初始深度编码本中包括若干场景及对应的深度箱; 基于所述训练图像特征和深度文本特征集确定训练深度权重矩阵,基于所述训练场景特征、类场景特征集及初始深度编码本确定目标训练深度箱; 根据所述目标训练深度箱中各个深度类别对应的深度值及所述深度权重矩阵得到深度估计结果,基于所述当前训练图像的深度值标签对所述初始视觉语言预训练模型进行训练; 利用所述训练样本集中所有训练图像对所述初始视觉语言预训练模型完成训练后,得到已训练的视觉语言预训练模型; 获取深度文本特征集,包括: 获取预设的若干深度类别描述信息,所述深度类别描述信息包括深度类别描述词和上下文信息; 将所述深度类别描述词进行词嵌入,得到深度类别向量,以及将所述上下文信息转换为上下文向量,将所述深度类别向量和上下文向量形成的向量对作为所述深度类别描述信息的输入文本; 将所述输入文本输入所述初始视觉语言预训练模型后,提取深度文本特征,形成深度文本特征集; 其中,所述上下文向量和所述初始深度编码本均在训练中进行学习更新,训练完成后得到完成更新的上下文向量和深度编码本; 当对若干图像进行深度估计时,将若干所述图像作为数据集,在所述数据集中选取每个场景对应的一张或几张图片作为训练图像,形成训练样本集;所述目标图像为所述数据集中的图像。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南方科技大学,其通讯地址为:518000 广东省深圳市南山区西丽学苑大道1088号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。