Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 先进计算与关键软件(信创)海河实验室张一鸣获国家专利权

先进计算与关键软件(信创)海河实验室张一鸣获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉先进计算与关键软件(信创)海河实验室申请的专利一种基于深度信息融合的视觉空间描述方法、系统及产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119322986B

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411866804.X,技术领域涉及:G06F18/2431;该发明授权一种基于深度信息融合的视觉空间描述方法、系统及产品是由张一鸣;许志伟;李涛;王嘉泰;李海龙设计研发完成,并于2024-12-18向国家知识产权局提交的专利申请。

一种基于深度信息融合的视觉空间描述方法、系统及产品在说明书摘要公布了:本发明涉及人工智能技术领域,具体公开了一种基于深度信息融合的视觉空间描述方法、系统及产品,方法包括:获取图像及其对应的物体文本;对所述图像进行视觉‑平面位置特征提取,得到视觉特征和平面位置特征,对所述图像进行深度特征提取,得到深度特征;对所述物体文本进行文本编码,得到文本特征;将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合,得到融合特征;对所述融合特征进行空间关系分类,得到空间关系;将指令语、所述空间关系和物体文本输入大语言模型,得到描述物体空间关系的自然语句。本发明能够准确描述图像中物体间的空间关系,提升人工智能的空间感知能力,同时避免增加多余的人工标注工作量。

本发明授权一种基于深度信息融合的视觉空间描述方法、系统及产品在权利要求书中公布了:1.一种基于深度信息融合的视觉空间描述方法,其特征在于,包括: 获取图像及其对应的物体文本; 所述物体文本只包括2个物体的文本标签; 对所述图像进行视觉-平面位置特征提取,得到视觉特征和平面位置特征,对所述图像进行深度特征提取,得到深度特征; 选择Faster-RCNN作为目标检测算法,生成检测物体的检测框,其中每个检测框内像素利用视觉特征提取方法提取视觉特征,使用ResNet50作为视觉特征提取方法; 对于检测框,首先计算每个检测框面积,将检测框坐标信息和其面积进行横向连接组成物体平面位置信息,经过全连接层得到平面位置特征,全连接层层数为3; 使用单目图像深度估计方法对每张图像逐像素估计深度值信息,形成对应图像的深度图,使用DepthAnything-V2作为深度估计方法,将检测框进行复用到深度图中,对检测框内的物体深度信息统一缩放成32×32大小后,经过多个神经网络层得到深度特征,神经网络层使用4个3×3卷积核大小的卷积层和一层全连接层,全连接层输出节点数量为256,激活函数使用ReLU; 对所述物体文本进行文本编码,得到文本特征; 将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合,得到融合特征; 将视觉特征、平面位置特征、深度特征进行横向连接,再将文本特征横向连接到每一行之后,输入Transformer-Encoder模块,得到融合特征; 使用6层Transformer-Encoder进行融合特征,将四种特征进行连接后输入6层Transformer-Encoder,得到融合特征: 其中,表示6层Transformer-Encoder,表示沿1维进行特征张量拼接操作,表示一张图像的视觉特征,表示一张图像的平面位置特征,表示一张图像的深度特征,表示编码后得到的文本特征; 对所述融合特征进行空间关系分类,得到空间关系; 将指令语、所述空间关系和物体文本输入大语言模型,得到描述物体空间关系的自然语句。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人先进计算与关键软件(信创)海河实验室,其通讯地址为:300450 天津市滨海新区塘沽高新区科技展示中心三层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。