Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明属于电力系统技术领域,公开一种电力业务数据流联邦学习方法、系统、设备及介质,该方法包括:构建联邦学习框架,其中,所述联邦学习框架包括各个客户端和区块链委员会;各个客户端根据本地采集的电力业务数据进行本地模型训练,并训练完成后,将本地模...
  • 本公开提出一种基于智慧场站时空异构数据的联邦学习方法及装置,涉及智慧场站技术领域。其中,方法包括:基于Transformer网络构建本地时空特征提取模型并对其进行独立训练,得到当前周期每个智慧场站对应的本地模型参数;根据每个智慧场站的场站特...
  • 本申请实施例提供一种面向供电可靠性评估的自适应实例‑特征迁移学习方法。应用于计算机科学与电气工程技术领域,该方法根据最小切负荷优化模型的物理特性及统计特性确定源域样本间的相似度、目标域样本间的相似度以及源域和目标域样本间的样本相似度;根据源...
  • 本发明公开了面向材料数据质量评估的大模型知识蒸馏与偏好训练方法,旨在突破现有技术在知识整合不足、训练成本偏高、推理可解释性欠佳等方面的限制。该方法融合评估知识库构建、教师模型检索增强样本生成与蒸馏、有/无知识库对照的直接偏好优化(DPO)及...
  • 基于多粒度蒸馏与权重对齐的类增量学习方法,包括:在给定的无线电磁信号数据集下,初始化一个增量式深度学习分类模型,该模型动态扩展输出层以适应新增类别;对于当前任务的训练样本,将其输入模型进行前向传播,获取模型在各类别上的预测分数向量,并计算交...
  • 本发明公开一种基于混合知识适配的大语言模型微调增强方法及系统,该方法先对知识图谱执行结构化知识嵌入预训练,获取实体与关系的嵌入向量并映射至大语言模型语义空间;再对输入文本提取关键令牌、对齐实体并关联嵌入向量,形成结构化知识表示;通过知识适配...
  • 本发明涉及人工智能技术领域,尤其涉及基于大模型的话术对抗训练生成方法、装置、设备及存储介质,该方法基于预设的用户画像生成模拟问询,继而获取服务大模型的应答,并综合评估其应答质量,通过另一评估模型对应答与用户预期之间的认知偏差,诊断出服务模型...
  • 本申请属于对抗样本技术领域。本申请提供一种面向鲁棒泛化的少样本持续对抗防御方法。本公开实施例提出了对抗边距损失,在预训练阶段,通过最大化干净样本与模型决策边界的距离,显式提高模型对边界附近易混淆样本的判别能力,增强模型对后续少样本对抗适应阶...
  • 基于对抗感知与安全约束的鲁棒性生成式引擎优化方法,包括:根据采集的引擎数据构建包括多维攻击因子和风险标签向量的训练数据集;多维攻击因子包括针对广告特征的密度增强算子、针对AI特征的困惑度降低算子以及针对敏感话题的诱导算子;构建包括生成网络和...
  • 本申请提供一种机械臂的强化学习方法、设备、存储介质及计算机程序产品,涉及机械臂强化学习技术领域,通过获取机械臂在真实物理环境中自主执行交互任务时的第一多模态观测信息;获取所述机械臂在所述真实物理环境中响应真人遥操作控制时的第二多模态观测信息...
  • 本申请提供一种机器人真机强化学习方法、设备、存储介质以及程序产品,涉及机器人技术领域,通过获取机器人在真实物理环境中执行交互任务时的环境视觉信息;对所述环境视觉信息进行图像背景增强处理,得到背景增强后的目标环境视觉信息;基于所述目标环境视觉...
  • 本申请提出一种时空交互动态三维重建的强化学习训练方法及系统,属于三维重建技术领域,方法包括:根据动态环境的视频序列,构建时空交互动态三维重建模型,为每个三维点赋予随时间动态变化的属性参数,采用随时间动态变化的属性参数构建动态三维场景表示;将...
  • 本发明公开了一种基于决策转换器的双评论器正则化与动态系数调度的离线约束强化学习方法,涉及机器学习与智能控制技术领域。该方法面向安全敏感的机器人控制任务,利用历史离线轨迹数据作为训练样本;在约束决策转换器主干网络基础上,引入奖励评论器与成本评...
  • 本说明书实施例提供决策模型的训练、游戏中对战机器人的控制方法及装置,其中所述决策模型的训练方法包括:采集目标训练任务在游戏环境中对应的游戏样本参数,基于游戏样本参数,通过初始决策模型,获得游戏样本参数对应的样本动作;执行样本动作,获得对应的...
  • 本申请涉及机器人智能控制与强化学习技术领域,提供一种机器手抓取策略网络的训练方法、装置及存储介质。训练方法包括:获取机器手抓取演示数据集;基于手物交互特征表示模块构建复合表征模型,复合表征模型包括占据特征、表面特征及局部几何特征;利用机器手...
  • 本发明公开一种基于注意力机制的战场多智能体动态协作方法,包括步骤:S10,获取局部观察信息;S20,建立策略网络和价值网络,均嵌入多头注意力机制,允许每个智能体动态查询队友的内部表征,并将指数级联合行动空间的搜索问题转化为对关键信息的动态关...
  • 本发明公开一种基于视觉强化学习泛化能力提升的战术策略生成方法,包括步骤:在离线战术预训练阶段:利用离线战场数据缓冲区中的历史数据训练初始网络;随后,进入Q值预降低阶段:基于离线网络参数,通过中间Q值评估网络主动修正分布外动作的Q值过高估计,...
  • 本发明公开了一种基于神经切线核相似性缓解训练样本冲突的强化学习微调方法,属于机器学习领域。该方法旨在提升多模态大语言模型在强化学习训练过程中的稳定性与泛化能力。该方法通过构建策略梯度的传播模型,基于训练样本构建组合样本,以余弦相似度量化组合...
  • 本申请涉及一种咨询模型训练、咨询方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:获取第一咨询模型。使用第二训练咨询内容对第一咨询模型进行强化学习损失计算,得到第二强化学习损失信息,并基于第二强化学习损失信息对第一咨询模型进行训...
  • 本发明实施例公开了一种基于GRPO对大型语言模型进行后训练的方法。本发明实施例中,通过获取训练样本集合,其中,所述训练样本集合中多组训练样本,每组训练样本包括问题以及问题对应的标准答案;将每个所述训练样本的问题输入到当前大型语言模型中,按照...
技术分类