上海交通大学;中国长峰机电技术研究设计院王贺升获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学;中国长峰机电技术研究设计院申请的专利基于外部记忆的机器人导航方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115170666B 。
龙图腾网通过国家知识产权局官网在2025-10-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210833085.6,技术领域涉及:G06T7/73;该发明授权基于外部记忆的机器人导航方法及系统是由王贺升;王光展;张金鹏;王辰浩设计研发完成,并于2022-07-15向国家知识产权局提交的专利申请。
本基于外部记忆的机器人导航方法及系统在说明书摘要公布了:本发明提供了一种基于外部记忆的机器人导航方法及系统,包括:里程计位姿估计模块输入相邻两帧RGB图像,处理后得到多尺寸特征图,进行互卷积操作,并经过更深网络层处理获得机器人位姿估计;将位姿作为输入,并写入外部记忆池,同时从记忆池中读取包含机器人运动轨迹信息的特征向量;利用特征向量输出运动策略,控制机器人运动;对里程计位姿估计网络进行预训练,构建一体化网络优化策略,对各模块进行监督学习和强化学习联合优化。本发明将外部内存资源与神经网络耦合,并将传统对环境特征的记忆改进为对历史位姿序列的记忆,避免了冗余环境特征带来的计算存储资源开销,增大了网络的记忆容量,扩展了神经网络的功能。
本发明授权基于外部记忆的机器人导航方法及系统在权利要求书中公布了:1.一种基于外部记忆的机器人导航方法,其特征在于,包括: 步骤S1:输入相邻两帧RGB图像,处理后得到多尺寸特征图,进行互卷积操作,并经过更深网络层处理获得机器人位姿估计; 步骤S2:将位姿作为输入并写入外部记忆池,同时从记忆池中读取包含机器人运动轨迹信息的特征向量;外部记忆池包括记忆模块;基于外部记忆池的记忆模块:通过外部记忆池获取长期记忆; 步骤S3:将从外部记忆池中读取的包含机器人运动轨迹信息的特征向量与观测网络输出的特征向量进行融合,作为策略网络的输入,由策略网络输出运动策略控制机器人运动; 步骤S4:对里程计位姿估计网络进行预训练,构建一体化网络优化策略,对各模块进行联合优化; 所述构建一体化网络优化策略,各模块联合优化: 模块E3.1:构建强化学习奖励信号对机器人的端到端环境探索能力进行迭代,环境对机器人的每一步动作做出奖励或惩罚: 模块E3.1.1:碰撞惩罚为rcollision=-Pc,当机器人接触到环境中的物体时会立即收到此惩罚,并结束回合探索任务;其中Pc为设定的碰撞惩罚值绝对大小; 模块E3.1.2:探索率增大奖励为rsearch=Ps,当机器人对环境的探索率增大时会接收到此奖励,其中Ps为设定的探索率增大奖励值大小; 模块E3.1.3:重复探索惩罚为rre-search=-Pr,当机器人对环境的重复探索率增大时会接收到此惩罚,其中Pr为设定的重复探索惩罚值大小; 模块E3.1.4:接近障碍物惩罚为rdanger=-η*dobs,其中η为惩罚信号强度参数,dobs为当前距离机器人最近的障碍物的直线距离,此惩罚项在dobs大于某一阈值时关闭; 模块E3.1.5:直行奖励为rstraight=Pst,其中Pst为直行奖励值大小; 模块E3.1.6:原地旋转惩罚为rrotate=-Pro,机器人在同一位置附近停留过长时间,会接收到此惩罚,以避免机器人在某一位置附近长时间旋转,其中Pro为旋转惩罚值绝对大小; 模块E3.2:在仿真环境中对强化学习网络进行训练;网络训练包括数据收集、训练两部分: 模块E3.2.1:机器人依照强化学习网络输出的策略在环境中自由探索,并记录每一步的传感器信息、动作、策略、NTM的内存矩阵及内部状态,同时将模块E3.1.1至模块E3.1.6所得奖励惩罚值相加作为每一步的奖励并进行记录;采集上述数据,直至机器人运动达到预设的步数或与环境发生碰撞; 模块E3.2.2:每一轮的数据采集结束后,依照强化学习算法和采集到的数据计算得到网络损失;将损失在网络中进行反向传播,以迭代模块E1构建的一体化网络参数; 模块E3.2.3:在强化学习网络训练过程中,机器人不断重复模块E3.2.1数据采集与模块E3.2.2网络训练,直至采集训练达到预设的轮数,形成优化后的基于外部记忆的机器人导航方法; 在所述步骤S1中: 搭建里程计位姿估计网络,网络输入为相邻两帧RGB图像,输出为机器人位姿估计,具体而言包括如下步骤: 步骤S1.1:相邻两帧RGB图像输入里程计位姿估计网络,网络包含收缩部分和扩大部分;收缩部分由卷积层组成,用于特征提取;扩大部分由反卷积层组成,用于还原深度图; 步骤S1.2:相邻两帧RGB图像分别经多卷积层卷积处理后得到两个特征图,特征图进行互卷积操作并经过更深网络层处理获得机器人位姿估计; 步骤S1.3:当前时刻RGB图像经卷积后,再通过反卷积逐步恢复原尺寸;反卷积得到的各尺寸特征图,与收缩部分对应大小的特征图以及经上采样得到的深度图,拼接起来作为更深层反卷积层的输入,得到不同分辨率的深度图估计; 在所述步骤S2中: 依照神经图灵机结构,搭建基于外部记忆池的记忆模块;具体而言包括如下步骤: 步骤S2.1:读取: 即通过位置权重向量ωt对内存矩阵Mt中的N个内存单元进行加权求和; 其中,是t时刻的内存矩阵,大小为N×M,N为内存单元个数,M为每个内存单元Mti的长度;位置权重向量ωt的每一元素ωti是t时刻每个内存单元Mti对应的权重大小,且ωt的长度为N;i=1,2,...,N-1,N,为内存矩阵与位置权重向量元素索引; 因此,t时刻从内存中读取出的向量rt为 步骤S2.2:写入: 每次写入内存矩阵可分为两步:擦除和新增,先从t-1时刻的内存矩阵Mt-1中擦除信息,再新增信息生成t时刻的内存矩阵Mt: 擦除: 新增: 即完成了对内存矩阵的一次写入;其中,为由擦除操作获得的内存矩阵元素,擦除向量et、新增向量at长度均为M,位置权重向量ωt、擦除向量et、新增向量at都由控制器给出,可通过梯度下降法进行参数训练; 步骤S2.3:更新位置权重向量ωt; 即由t-1时刻的位置权重向量ωt-1、t时刻的内存矩阵Mt以及可训练的控制器参数,生成t时刻的位置权重向量ωt;其中,控制器参数包括:kt、βt、gt、st、γt; 更新位置权重向量的具体步骤如下: 步骤S2.3.1:基于内容的寻址,即生成基于内容的位置权重向量 其中,kt是大小为1×M的关键向量,通过相似性度量K计算与内存单元Mti的相似度;βt用于放大或衰减精度;j=1,2,...,N-1,N,为内存矩阵元素索引; 计算向量u、v的余弦相似度K的公式如下: 步骤S2.3.2:基于位置的寻址: 插值操作: 由控制器生成一个阈值gt对当前的内容位置权重向量与t-1时刻的位置权重向量ωt-1进行插值操作,计算结果即为插值操作的输出值 偏移操作: 对中的每个元素均认为和与它相邻的某些元素是相关的,通过循环卷积生成的新元素包含了和周围元素,其中st是卷积核; 锐化操作: 把权值大小的区别进行强化,通过控制器生成的参数γt,对各个权值进行指数运算,然后归一化,完成对位置权重向量ωt的更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学;中国长峰机电技术研究设计院,其通讯地址为:201599 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励