中国科学技术大学查正军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利基于跨模态语义对齐预训练的视觉语言导航方法及应用获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115587596B 。
龙图腾网通过国家知识产权局官网在2025-09-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211238000.6,技术领域涉及:G06F40/30;该发明授权基于跨模态语义对齐预训练的视觉语言导航方法及应用是由查正军;傅雪阳;吴思颖设计研发完成,并于2022-10-10向国家知识产权局提交的专利申请。
本基于跨模态语义对齐预训练的视觉语言导航方法及应用在说明书摘要公布了:本发明公开了一种基于跨模态语义对齐预训练的视觉语言导航方法及应用,该方法包括:1、通过对指令信息中的随机一个片段进行掩码并重构来对智能体进行预训练;2、通过从指令信息中提取出具有辨别力的短语并将其与轨迹片段进行对齐来对智能体进行预训练;3、利用所提出的两种预训练任务对智能体进行预训练并使用模仿学习和强化学习对整体网络结构进行微调,以得到最优模型。本发明能够充分对轨迹‑指令对中潜在的细粒度的语义对齐关系进行挖掘,使得智能体能够更好的完成导航任务。
本发明授权基于跨模态语义对齐预训练的视觉语言导航方法及应用在权利要求书中公布了:1.一种基于跨模态语义对齐预训练的视觉语言导航方法,其特征是应用于智能体在三维环境的导航任务中,并按如下步骤进行: 步骤1:所述智能体获得环境中一段完整的导航轨迹以及与所述导航轨迹相对应的指令信息,由指令信息和导航轨迹构成正轨迹-指令对;其中,指令信息,表示指令信息中的第l个单词,是指令信息的长度;导航轨迹是由每一时刻智能体获取到的全景图构建得到;其中,是完整轨迹的长度;为t时刻的轨迹片段,为t时刻的真实动作,为t时刻的观测特征集合,且,表示t时刻智能体获取到的全景图中的第k个视点的观测特征,且;表示t时刻智能体获取到的全景图中第k个视点的视觉特征;表示t时刻智能体获取到的全景图中第k个视点的所在位置的空间特征;为结束标记; 步骤2:所述智能体获得环境中一段完整的导航轨迹以及与所述导航轨迹相对应的指令信息;其中,指令信息与导航轨迹无关,并记为;由指令信息和导航轨迹构成负轨迹-指令对; 步骤3:构建由指令编码器、轨迹编码器、跨模态编码器和解码器组成的掩码语言片段重建模型,用于执行基于轨迹的掩码语言片段重构的预训练任务; 步骤3.1:从指令信息中选取从位置到位置的连续语言片段,并对所述连续语言片段用标志[MASK]进行掩盖,得到被掩码的连续语言片段以及掩码后的指令信息,其中,; 步骤3.2:将掩码后的指令信息输入到所述指令编码器中进行编码,得到编码后的掩码指令信息;将导航轨迹输入到所述轨迹编码器中进行编码,得到编码后的轨迹信息; 步骤3.3:将和输入到所述跨模态编码器中,得到利用进行跨模态编码后的掩码指令信息和利用进行跨模态编码后的轨迹信息; 步骤3.4:将和输入到所述解码器中进行处理,输出生成连续语言片段的概率; 步骤3.5:利用式1构建所述掩码语言片段重建模型的损失函数: 1 式1中,表示在给定掩码后的指令信息和导航轨迹的情况下,掩码语言片段重建模型生成连续语言片段的概率; 步骤4:构建由短语提取器和对比语义对齐器构成的对比语义对齐模型并进行预训练; 步骤4.1:将正轨迹-指令对中的指令信息记为;并将输入到所述指令编码器中,得到编码后的指令信息和单词注意力矩阵; 所述短语提取器将编码后的指令信息定义为正短语嵌入矩阵并计算单词注意力矩阵的外积;其中,表示正短语嵌入矩阵中的第个短语;中的第i行第j列的元素表示第i个短语和第j个短语之间的相似度; 如果且,则从正短语嵌入矩阵中删除第i个短语,从而得到删除后的正短语嵌入矩阵记为,其中,个为删除后的正短语嵌入矩阵中正短语个数,为一个固定的门限值;表示第i个短语和第个短语之间的相似度,表示第j个短语和第个短语之间的相似度;表示删除后的正短语嵌入矩阵中的第m个正短语; 步骤4.2:按照步骤4.1的过程对进行处理,并得到删除后的负短语嵌入矩阵;其中,表示删除后的负短语嵌入矩阵中的第z个负短语,Z表示删除后的负短语嵌入矩阵中负短语个数; 步骤4.3:所述对比语义对齐器利用式2计算和轨迹片段之间的正相关分数: 2 式2中,,均为待学习的参数,为激活函数; 步骤4.4:所述对比语义对齐器利用式3计算和轨迹片段之间的负相关分数: 3 步骤4.5:所述对比语义对齐器利用softmax函数对正相关系数和负相关系数进行归一化操作,得到归一化后的正相关系数和负相关系数; 步骤4.6:对比语义对齐器利用式4构建对比语义对齐模型的损失函数: 4 步骤5:按照步骤2和步骤3的过程将一批数量为B的轨迹-指令对输入掩码语言片段重建模型和对比语义对齐模型中进行训练,并计算式1和式4的损失函数以更新模型参数,直到达到最大迭代次数或是损失函数收敛为止,从而得到预训练后的总模型,用于实现智能体在给定环境和指令信息的情形下执行导航任务时生成完整的导航轨迹。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。