当前位置 : 首页 > 专利喜报 > 先进计算与关键软件(信创)海河实验室张一鸣获国家专利权

先进计算与关键软件(信创)海河实验室张一鸣获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉先进计算与关键软件(信创)海河实验室申请的专利一种基于深度信息融合的视觉空间描述方法、系统及产品获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN119322986B 。

龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202411866804.X，技术领域涉及：G06F18/2431；该发明授权一种基于深度信息融合的视觉空间描述方法、系统及产品是由张一鸣;许志伟;李涛;王嘉泰;李海龙设计研发完成，并于2024-12-18向国家知识产权局提交的专利申请。

本一种基于深度信息融合的视觉空间描述方法、系统及产品在说明书摘要公布了：本发明涉及人工智能技术领域，具体公开了一种基于深度信息融合的视觉空间描述方法、系统及产品，方法包括：获取图像及其对应的物体文本；对所述图像进行视觉‑平面位置特征提取，得到视觉特征和平面位置特征，对所述图像进行深度特征提取，得到深度特征；对所述物体文本进行文本编码，得到文本特征；将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合，得到融合特征；对所述融合特征进行空间关系分类，得到空间关系；将指令语、所述空间关系和物体文本输入大语言模型，得到描述物体空间关系的自然语句。本发明能够准确描述图像中物体间的空间关系，提升人工智能的空间感知能力，同时避免增加多余的人工标注工作量。

本发明授权一种基于深度信息融合的视觉空间描述方法、系统及产品在权利要求书中公布了：1.一种基于深度信息融合的视觉空间描述方法，其特征在于，包括：获取图像及其对应的物体文本；所述物体文本只包括2个物体的文本标签；对所述图像进行视觉-平面位置特征提取，得到视觉特征和平面位置特征，对所述图像进行深度特征提取，得到深度特征；选择Faster-RCNN作为目标检测算法，生成检测物体的检测框，其中每个检测框内像素利用视觉特征提取方法提取视觉特征，使用ResNet50作为视觉特征提取方法；对于检测框，首先计算每个检测框面积，将检测框坐标信息和其面积进行横向连接组成物体平面位置信息，经过全连接层得到平面位置特征，全连接层层数为3；使用单目图像深度估计方法对每张图像逐像素估计深度值信息，形成对应图像的深度图，使用DepthAnything-V2作为深度估计方法，将检测框进行复用到深度图中，对检测框内的物体深度信息统一缩放成32×32大小后，经过多个神经网络层得到深度特征，神经网络层使用4个3×3卷积核大小的卷积层和一层全连接层，全连接层输出节点数量为256，激活函数使用ReLU；对所述物体文本进行文本编码，得到文本特征；将所述视觉特征、平面位置特征、深度特征和文本特征进行特征融合，得到融合特征；将视觉特征、平面位置特征、深度特征进行横向连接，再将文本特征横向连接到每一行之后，输入Transformer-Encoder模块，得到融合特征；使用6层Transformer-Encoder进行融合特征，将四种特征进行连接后输入6层Transformer-Encoder，得到融合特征：其中，表示6层Transformer-Encoder，表示沿1维进行特征张量拼接操作，表示一张图像的视觉特征，表示一张图像的平面位置特征，表示一张图像的深度特征，表示编码后得到的文本特征；对所述融合特征进行空间关系分类，得到空间关系；将指令语、所述空间关系和物体文本输入大语言模型，得到描述物体空间关系的自然语句。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人先进计算与关键软件(信创)海河实验室，其通讯地址为：300450 天津市滨海新区塘沽高新区科技展示中心三层；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

先进计算与关键软件(信创)海河实验室张一鸣获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务