Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本申请提出一种模型训练方法、装置、电子设备及存储介质,模型训练方法包括:基于预存的原始数据的类型,确定所述原始数据的频域特征;基于所述原始数据和对应的所述频域特征,确定对应的训练数据;基于预先构建的第一模型中的隧道卷乘算子对所述训练数据进行...
  • 本发明公开了基于锐利度感知优化的变电主设备检修决策智能体的训练方法、系统,涉及变电主设备运维技术领域,解决了传统方法中为每类变电主设备单独训练一个智能体所带来的计算资源消耗巨大、训练周期长、维护成本高等问题,其技术方案要点是:获取初始化的大...
  • 本发明公开了一种基于AIGC的算法训练方法,包括:获取自然语言形式的训练任务描述信息;将其输入第一大语言模型进行语义解析,生成结构化目标定义数据;将所述结构化目标定义数据输入第二大语言模型生成目标函数代码;对所述目标函数代码执行静态验证和可...
  • 本申请公开了一种模型剪枝方法、电子设备、计算机可读存储介质及计算机程序产品,该方法包括:获取用于处理第一任务的第一模型和第一信息;其中,第一信息包括在第一模型处理第一任务过程中,与编码器优化关联的多个神经元所执行的任务信息;基于第一信息,确...
  • 本申请实施例公开了一种模型处理方法,所述方法包括:采用第一神经网络模型对待处理数据进行处理,得到第一神经网络模型的第一输出结果和第一神经网络模型的每一层中每一神经元的第二输出结果,并基于第一输出结果和第二输出结果,确定每一层中每一神经元对应...
  • 本发明公开了一种硬件友好型Transformer列平衡剪枝模型压缩与高效部署方法,包括:模型压缩算法、轻量化参数存储格式、运算数据缓存器、脉动阵列运算块、向量运算单元、非线性算子单元、数据流控制器、DMA单元。根据Transformer网络...
  • 本申请公开了用于脉冲神经网络高效训练的自适应脉冲并行方法及系统,其步骤包括:通过初始化共享权重与固定随机投影矩阵;分片数据并局部累积梯度;同步后计算梯度一致性方向;基于余弦相似度与Softmax函数生成自适应聚合权重;加权聚合梯度并同步更新...
  • 本申请提供了一种大语言模型训练方法、装置、设备及存储介质,该方法包括获取预训练大模型中零值权重参数的第一总数;根据所述第一总数构建总损失函数;基于所述总损失函数更新权重参数,得到更新后的预训练大模型;当所述更新后的预训练大模型满足预设训练终...
  • 本发明属于机器学习技术领域,具体涉及一种基于图神经网络与语言模型解释对齐的双向增强训练方法,适用于带文本属性图数据的节点分类场景。针对现有技术中结构信息与文本语义协同不足、模型可解释性缺失且解释无对齐的缺陷,本方案通过以下步骤实现优化:获取...
  • 本发明涉及人工智能三维点云处理技术,旨在提供一种基于教师‑学生网络的自监督学习的点云补全方法及系统。该方法包括:通过自监督学习的方式对教师‑学生双分支结构网络进行预训练;然后将经过预训练的学生网络应用于点云补全网络中并进行训练,输入的局部点...
  • 本发明提供了一种用于辅助数学教育的大语言模型训练、推理方法及系统,旨在解决现有LLM推理方法推理过程冗长、计算开销大、泛化能力不足的问题。本发明提出“规划‑求解”分层推理框架,将高层规划与具体求解相解耦。核心是规划器的自进化训练范式:规划器...
  • 本公开的实施例公开了基于强化学习的模型训练方法、装置和电子设备。该方法的一具体实施方式包括:根据训练样本中样本数据的类型数量,确定多模态大模型所采用的强化学习算法中的策略函数,其中,所述类型为数据的表示方式;将表示相同数据的至少一种类型的样...
  • 本发明实施例公开了一种基于GRPO对大型语言模型进行后训练的方法。本发明实施例中,通过获取训练样本集合,其中,所述训练样本集合中多组训练样本,每组训练样本包括问题以及问题对应的标准答案;将每个所述训练样本的问题输入到当前大型语言模型中,按照...
  • 本申请涉及一种咨询模型训练、咨询方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:获取第一咨询模型。使用第二训练咨询内容对第一咨询模型进行强化学习损失计算,得到第二强化学习损失信息,并基于第二强化学习损失信息对第一咨询模型进行训...
  • 本发明公开了一种基于神经切线核相似性缓解训练样本冲突的强化学习微调方法,属于机器学习领域。该方法旨在提升多模态大语言模型在强化学习训练过程中的稳定性与泛化能力。该方法通过构建策略梯度的传播模型,基于训练样本构建组合样本,以余弦相似度量化组合...
  • 本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法,包括步骤:在离线战术预训练阶段:利用离线战场数据缓冲区中的历史数据训练初始网络;随后,进入Q值预降低阶段:基于离线网络参数,通过中间Q值评估网络主动修正分布外动作的Q值过高估计,...
  • 本发明公开一种基于注意力机制的战场多智能体动态协作方法,包括步骤:S10,获取局部观察信息;S20,建立策略网络和价值网络,均嵌入多头注意力机制,允许每个智能体动态查询队友的内部表征,并将指数级联合行动空间的搜索问题转化为对关键信息的动态关...
  • 本申请涉及机器人智能控制与强化学习技术领域,提供一种机器手抓取策略网络的训练方法、装置及存储介质。训练方法包括:获取机器手抓取演示数据集;基于手物交互特征表示模块构建复合表征模型,复合表征模型包括占据特征、表面特征及局部几何特征;利用机器手...
  • 本说明书实施例提供决策模型的训练、游戏中对战机器人的控制方法及装置,其中所述决策模型的训练方法包括:采集目标训练任务在游戏环境中对应的游戏样本参数,基于游戏样本参数,通过初始决策模型,获得游戏样本参数对应的样本动作;执行样本动作,获得对应的...
  • 本发明公开了一种基于决策转换器的双评论器正则化与动态系数调度的离线约束强化学习方法,涉及机器学习与智能控制技术领域。该方法面向安全敏感的机器人控制任务,利用历史离线轨迹数据作为训练样本;在约束决策转换器主干网络基础上,引入奖励评论器与成本评...
技术分类