中瓴智行(成都)科技有限公司请求不公布姓名获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中瓴智行(成都)科技有限公司申请的专利一种基于视觉语音动作模型的电力机器人控制方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121043156B 。
龙图腾网通过国家知识产权局官网在2026-02-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511598330.X,技术领域涉及:B25J9/16;该发明授权一种基于视觉语音动作模型的电力机器人控制方法及系统是由请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名设计研发完成,并于2025-11-04向国家知识产权局提交的专利申请。
本一种基于视觉语音动作模型的电力机器人控制方法及系统在说明书摘要公布了:本发明涉及电力施工自动化技术领域,公开了一种基于视觉语音动作模型的电力机器人控制方法及系统,其方法通过针对电力施工场景,对VLA视觉语音动作模型进行改进,将其非线性变换强化注意力层中前馈神经网络的全连接层,替换为深度可分离卷积层与全连接层的组合,能够以深度可分离卷积层捕捉Token序列中隐含的“局部空间连续性”,使得所述前馈神经网络获得类似CNN的局部感受野的局部空间卷积机制,再用全连接层建模全局关联,实现了将CNN的空间感知能力与Transformer的全局建模能力进行有效结合,提高了VLA视觉语音动作模型的空间理解能力,有利于VLA视觉语音动作模型在复杂的电力施工场景下,更精确地控制电力机器人完成复杂任务。
本发明授权一种基于视觉语音动作模型的电力机器人控制方法及系统在权利要求书中公布了:1.一种基于视觉语音动作模型的电力机器人控制方法,其特征在于,包括以下步骤: 采集电力现场视觉数据和电力施工语音指令并进行预处理,获得视觉信息和结构化任务序列; 采用交叉注意力网络,计算视觉信息中的设备特征向量和结构化任务序列中的语言特征向量之间的相似度,以对齐目标设备和任务之间的语义,获得联合特征; 对联合特征进行解码,将解码后的联合特征输入非线性变换强化注意力层,获得用于对下一个动作进行预测的特征表达,其中,所述非线性变换强化注意力层被配置为,其前馈神经网络的全连接层被替换为深度可分离卷积层与全连接层的组合,以使所述前馈神经网络获得局部空间卷积机制; 根据特征表达、机械臂运动学逆解算法和数值迭代法进行动作规划,获得动作序列并在动作序列中的动作参数校验通过后,发送动作序列至目标电力机器人; 其中,所述采用交叉注意力网络,计算视觉信息中的设备特征向量和结构化任务序列中的语言特征向量之间的相似度,以对齐目标设备和任务之间的语义,获得联合特征的方法,包括: 通过视觉编码模型提取视觉信息中的设备特征向量矩阵,以及,通过语言编码模型提取任务序列中的语言特征向量矩阵,其中,B为批次,为设备token数,为设备特征维度,为语言token数,为语言特征维度; 采用交叉注意力网络计算设备特征向量矩阵和语言特征向量矩阵之间的跨模态交互注意力分数矩阵,其中,为跨模态交互特征维度,为跨模态交互查询向量,为跨模态交互键向量; 对跨模态交互注意力分数矩阵进行Softmax归一化,获得跨模态交互注意力权重矩阵; 根据跨模态交互注意力权重矩阵,对映射后的设备特征向量矩阵进行加权融合及特征输出,获得联合特征,其中,为映射后的设备特征向量矩阵,为映射后的设备特征维度; 其中,所述对联合特征进行解码的方法,包括: 采用预建立的解码器对联合特征进行解码,所述解码器被配置为,在对联合特征进行解码时,优先关注在预定义的邻域空间上连续的Token,对联合特征进行解码的方法具体包括: 获取各Token的空间坐标,根据预定义的邻域空间规则,获得空间邻域掩码Mi,j,其中,若Mi,j为1,则表示Tokeni和Tokenj在预定义的邻域空间上连续及Tokenj是Tokeni的空间邻域Token,若Mi,j为0,则表示Tokeni和Tokenj在预定义的邻域空间上不连续; 通过线性变换将联合特征分别映射为联合特征查询向量Q、联合特征键向量K和联合特征值向量V,获得解码注意力分数矩阵,其中,为联合特征键向量K的维度; 将空间邻域掩码M与解码注意力分数矩阵进行元素相乘后进行Softmax归一化,获得解码注意力权重矩阵; 使用解码注意力权重矩阵对联合特征值向量V进行加权求和,获得解码后的联合特征; 其中,将解码后的联合特征输入非线性变换强化注意力层,获得用于对下一个动作进行预测的特征表达的方法,包括: 通过全连接层被替换为深度可分离卷积层与全连接层的组合的前馈神经网络,先对输入的解码后的联合特征进行非线性变换,再进行残差连接和LayerNorm归一化特征分布,获得前序特征表达,其中,,t为时间步,D为输出的维度,W2为非线性变换强化注意力层前馈神经网络的权重矩阵,为卷积核尺寸为1×1的卷积层,为卷积核尺寸为k×k的卷积层,k为大于1的奇数,C为通道数,为x对应通道的卷积操作的卷积核,为逐点卷积所使用的卷积核,flat为展平操作,b2为非线性变换强化注意力层前馈神经网络的偏置向量; 对前序特征表达进行切片和自回归操作,获得用于对下一个动作进行预测的特征表达,其中,[:,t,:]为切片操作,Wout为预测输出层前馈神经网络的权重矩阵,bout为预测输出层前馈神经网络的偏置向量,Daction为动作的实际维度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中瓴智行(成都)科技有限公司,其通讯地址为:610041 四川省成都市高新区天府五街200号4号楼B区4层404-412室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励