西北工业大学慕志颖获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398121B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411646616.6,技术领域涉及:G06N3/08;该发明授权基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法是由慕志颖;高德宏;马宇飞;杨黎斌;蔡晓妍;郭森森;李晓宇设计研发完成,并于2024-11-18向国家知识产权局提交的专利申请。
本基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法在说明书摘要公布了:本发明公开了一种基于Multi‑A和Multi‑B专家杂化混合专家的大模型微调方法,通过将LoRA网络嵌入到混合专家MoE架构中,利用Multi‑A和Multi‑BMoE捕捉不同任务之间的差异,从而显著提升大语言模型在多任务场景下的微调效率和综合性能。本发明适用于各种大语言模型,促进大语言模型在不同领域的应用,并为进一步探索参数高效的微调方法提供新的思路。
本发明授权基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法在权利要求书中公布了:1.一种基于Multi-A和Multi-B专家杂化混合专家的大模型微调方法,其特征在于,包括如下步骤: 步骤1:构建HybridMoE模型; 所述HybridMoE模型包括多个Multi-AMoE和Multi-BMoE模块; 所述Multi-AMoE模块由N个不同的专家A1到An组成,Multi-BMoE模块包含专家B1到Bn;底层的LLM保持一组静态权重W0,代表固定线性层; HybridMoE模型的架构包括以下组件: a基座语言模型:进行预训练后的大语言模型作为基础模型; bMulti-AMoE:用于多项选择格式任务,提取任务相关特征;所述选择格式任务包括选择题和多步推理题; cMulti-BMoE:用于生成扩展叙述或解决方案的生成性任务;所述生成性任务包括问答、对话、摘要; d门控网络:用于控制张量流向Multi-AMoE或Multi-BMoE; 步骤2:Multi-AMoE和Multi-BMoE; 在Multi-A和Multi-BMoE模块中,将LoRA-A和LoRA-B视为不同的专家;前向过程包括利用路由器和的输出分数来确定路由分布; 步骤2-1:Multi-AMoE; 对于Multi-AMoE模块,路由确定的计算过程用公式1、2和3表示; 其中,xm表示输入序列中第m个token的隐态向量,表示第m个token分配给专家Ai的路由权重,表示路由器的权重,B*表示在所有LoRA-A专家之间共享的LoRA-B层;表示Multi-AMoE对于输入的隐态向量xm的输出,EA.表示Multi-AMoE模块中所有专家对隐态向量xm进行的函数变换,上标A代表multi-AMoE模块; 步骤2-2:对于Multi-BMoE模块,如公式4、5和6: 其中,表示第m个token分配给专家Bi的路由权重,表示路由器的权重,表示Multi-BMoE对于输入的隐态向量xm的输出,EB.表示Multi-BMoE模块中所有专家对隐态向量xm进行的函数变换,上标A代表multi-BMoE模块,A*表示所有B专家共享的A矩阵;在LoRA中,包含两个矩阵A与B,输入向量先流经A再流经B; 步骤3:门控网络; 采用标记为θG的门控网络,其权重矩阵为WG;HybridMoE的前向过程用公式7和8描述; gate=argmaxθGxm=argmaxsoftmaxWGxm7 在微调阶段,门控网络θG根据输入隐藏向量xm的差别选择Multi-AMoE或Multi-BMoE模块;如果Multi-BMoE模块的输出分数超过预定义的阈值P,则将门参数gate设置为二进制值1,表示其激活;反之,如果输出分数未达到预定义的阈值P,则将门参数设置为0,表示Multi-AMoE模块处于激活状态。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。