哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)吴建龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种基于多模态思维树的视觉感知方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121437866B 。
龙图腾网通过国家知识产权局官网在2026-03-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512020348.8,技术领域涉及:G06V10/25;该发明授权一种基于多模态思维树的视觉感知方法及系统是由吴建龙;张津榕;聂礼强设计研发完成,并于2025-12-30向国家知识产权局提交的专利申请。
本一种基于多模态思维树的视觉感知方法及系统在说明书摘要公布了:本发明涉及人工智能与计算机视觉技术领域,为解决传统单纯增加参数规模的扩展策略无法有效突破该语义细化瓶颈的问题,提供基于多模态思维树的视觉感知方法及系统。基于多模态思维树的视觉感知方法包括获取待处理的原始图像和目标指代文本,构建多模态思维树;定义用于驱动节点扩展的推理动作集;执行多模态蒙特卡洛树搜索过程;迭代生成推理路径,直至达到预设的搜索深度或触发终止条件;同时获取搜索过程中产生的所有有效叶子节点;采用区域特征加权投票机制对所有有效叶子节点进行聚合优选,筛选出综合权重最高的候选方案作为最终的视觉感知定位结果。其能够在不改变模型原有参数规模的基础上有效提升感知性能,实现高精度的视觉定位。
本发明授权一种基于多模态思维树的视觉感知方法及系统在权利要求书中公布了:1.一种基于多模态思维树的视觉感知方法,其特征在于,包括: 获取待处理的原始图像和目标指代文本,将其组合作为根节点并定义初始状态,构建多模态思维树;定义用于驱动节点扩展的推理动作集,其包括视觉感知动作和语义细化动作;视觉感知动作用于生成调整图像中的候选区域坐标;语义细化动作用于对候选区域进行语义校验及描述重构; 所述语义细化动作包括无位置信息的目标状态判断动作、带位置信息的目标状态判断动作和目标描述重构动作; 所述无位置信息的目标状态判断动作用于通过屏蔽当前路径中的坐标信息,仅依据图像全局特征与文本线索判断目标是否存在;若判断存在则生成描述,否则截断该推理路径; 所述带位置信息的目标状态判断动作用于将上一视觉动作生成的边界框作为掩码或裁剪区域覆盖在图像上,评估该区域内容是否与目标描述语义匹配;若匹配存在则生成描述,否则截断该推理路径; 所述目标描述重构动作用于聚合当前推理路径上的所有文本描述和图像位置信息,重构更新后的目标描述文本; 执行多模态蒙特卡洛树搜索过程,在树搜索的节点选择阶段,采用基于多模态特征对齐分数的节点选择策略,计算并更新各候选节点的选择分值,以引导搜索路径向高置信度方向扩展; 根据各候选节点的选择分值选择最优动作,迭代生成推理路径,直至达到预设的搜索深度或触发终止条件;同时获取搜索过程中产生的所有有效叶子节点,每个有效叶子节点包含预测的图像区域坐标所对应的视觉信息和经语义细化后重构的目标描述; 采用区域特征加权投票机制对所有有效叶子节点进行聚合优选,筛选出综合权重最高的候选方案作为最终的视觉感知定位结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励