Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明公开了一种硬件友好型Transformer列平衡剪枝模型压缩与高效部署方法,包括:模型压缩算法、轻量化参数存储格式、运算数据缓存器、脉动阵列运算块、向量运算单元、非线性算子单元、数据流控制器、DMA单元。根据Transformer网络...
  • 本申请公开了用于脉冲神经网络高效训练的自适应脉冲并行方法及系统,其步骤包括:通过初始化共享权重与固定随机投影矩阵;分片数据并局部累积梯度;同步后计算梯度一致性方向;基于余弦相似度与Softmax函数生成自适应聚合权重;加权聚合梯度并同步更新...
  • 本申请提供了一种大语言模型训练方法、装置、设备及存储介质,该方法包括获取预训练大模型中零值权重参数的第一总数;根据所述第一总数构建总损失函数;基于所述总损失函数更新权重参数,得到更新后的预训练大模型;当所述更新后的预训练大模型满足预设训练终...
  • 本发明属于机器学习技术领域,具体涉及一种基于图神经网络与语言模型解释对齐的双向增强训练方法,适用于带文本属性图数据的节点分类场景。针对现有技术中结构信息与文本语义协同不足、模型可解释性缺失且解释无对齐的缺陷,本方案通过以下步骤实现优化:获取...
  • 本发明涉及人工智能三维点云处理技术,旨在提供一种基于教师‑学生网络的自监督学习的点云补全方法及系统。该方法包括:通过自监督学习的方式对教师‑学生双分支结构网络进行预训练;然后将经过预训练的学生网络应用于点云补全网络中并进行训练,输入的局部点...
  • 本发明提供了一种用于辅助数学教育的大语言模型训练、推理方法及系统,旨在解决现有LLM推理方法推理过程冗长、计算开销大、泛化能力不足的问题。本发明提出“规划‑求解”分层推理框架,将高层规划与具体求解相解耦。核心是规划器的自进化训练范式:规划器...
  • 本公开的实施例公开了基于强化学习的模型训练方法、装置和电子设备。该方法的一具体实施方式包括:根据训练样本中样本数据的类型数量,确定多模态大模型所采用的强化学习算法中的策略函数,其中,所述类型为数据的表示方式;将表示相同数据的至少一种类型的样...
  • 本发明实施例公开了一种基于GRPO对大型语言模型进行后训练的方法。本发明实施例中,通过获取训练样本集合,其中,所述训练样本集合中多组训练样本,每组训练样本包括问题以及问题对应的标准答案;将每个所述训练样本的问题输入到当前大型语言模型中,按照...
  • 本申请涉及一种咨询模型训练、咨询方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:获取第一咨询模型。使用第二训练咨询内容对第一咨询模型进行强化学习损失计算,得到第二强化学习损失信息,并基于第二强化学习损失信息对第一咨询模型进行训...
  • 本发明公开了一种基于神经切线核相似性缓解训练样本冲突的强化学习微调方法,属于机器学习领域。该方法旨在提升多模态大语言模型在强化学习训练过程中的稳定性与泛化能力。该方法通过构建策略梯度的传播模型,基于训练样本构建组合样本,以余弦相似度量化组合...
  • 本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法,包括步骤:在离线战术预训练阶段:利用离线战场数据缓冲区中的历史数据训练初始网络;随后,进入Q值预降低阶段:基于离线网络参数,通过中间Q值评估网络主动修正分布外动作的Q值过高估计,...
  • 本发明公开一种基于注意力机制的战场多智能体动态协作方法,包括步骤:S10,获取局部观察信息;S20,建立策略网络和价值网络,均嵌入多头注意力机制,允许每个智能体动态查询队友的内部表征,并将指数级联合行动空间的搜索问题转化为对关键信息的动态关...
  • 本申请涉及机器人智能控制与强化学习技术领域,提供一种机器手抓取策略网络的训练方法、装置及存储介质。训练方法包括:获取机器手抓取演示数据集;基于手物交互特征表示模块构建复合表征模型,复合表征模型包括占据特征、表面特征及局部几何特征;利用机器手...
  • 本说明书实施例提供决策模型的训练、游戏中对战机器人的控制方法及装置,其中所述决策模型的训练方法包括:采集目标训练任务在游戏环境中对应的游戏样本参数,基于游戏样本参数,通过初始决策模型,获得游戏样本参数对应的样本动作;执行样本动作,获得对应的...
  • 本发明公开了一种基于决策转换器的双评论器正则化与动态系数调度的离线约束强化学习方法,涉及机器学习与智能控制技术领域。该方法面向安全敏感的机器人控制任务,利用历史离线轨迹数据作为训练样本;在约束决策转换器主干网络基础上,引入奖励评论器与成本评...
  • 本申请提出一种时空交互动态三维重建的强化学习训练方法及系统,属于三维重建技术领域,方法包括:根据动态环境的视频序列,构建时空交互动态三维重建模型,为每个三维点赋予随时间动态变化的属性参数,采用随时间动态变化的属性参数构建动态三维场景表示;将...
  • 本申请提供一种机器人真机强化学习方法、设备、存储介质以及程序产品,涉及机器人技术领域,通过获取机器人在真实物理环境中执行交互任务时的环境视觉信息;对所述环境视觉信息进行图像背景增强处理,得到背景增强后的目标环境视觉信息;基于所述目标环境视觉...
  • 本申请提供一种机械臂的强化学习方法、设备、存储介质及计算机程序产品,涉及机械臂强化学习技术领域,通过获取机械臂在真实物理环境中自主执行交互任务时的第一多模态观测信息;获取所述机械臂在所述真实物理环境中响应真人遥操作控制时的第二多模态观测信息...
  • 基于对抗感知与安全约束的鲁棒性生成式引擎优化方法,包括:根据采集的引擎数据构建包括多维攻击因子和风险标签向量的训练数据集;多维攻击因子包括针对广告特征的密度增强算子、针对AI特征的困惑度降低算子以及针对敏感话题的诱导算子;构建包括生成网络和...
  • 本申请属于对抗样本技术领域。本申请提供一种面向鲁棒泛化的少样本持续对抗防御方法。本公开实施例提出了对抗边距损失,在预训练阶段,通过最大化干净样本与模型决策边界的距离,显式提高模型对边界附近易混淆样本的判别能力,增强模型对后续少样本对抗适应阶...
技术分类