Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 重庆邮电大学张璞获国家专利权

重庆邮电大学张璞获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉重庆邮电大学申请的专利基于低秩自适应矩阵和混合专家的多领域问答任务微调方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119537554B

龙图腾网通过国家知识产权局官网在2025-12-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411700335.4,技术领域涉及:G06F16/3329;该发明授权基于低秩自适应矩阵和混合专家的多领域问答任务微调方法是由张璞;黄荣耀;李玉川;林雨设计研发完成,并于2024-11-25向国家知识产权局提交的专利申请。

基于低秩自适应矩阵和混合专家的多领域问答任务微调方法在说明书摘要公布了:本发明属于自然语言处理与参数高效微调领域,具体涉及一种基于低秩自适应矩阵和混合专家的多领域问答任务微调方法,该方法包括:加载数据集并划分;使用句向量模型抽取数据集句向量表示,对句向量使用K均值聚类算法获得类别数N;加载预训练语言模型,冻结原模型参数;在模型中指定的结构旁构建N个非对称的低秩专家模块以及路由模块;将句向量表示作为路由模块输入,路由模块计算专家权重并将不同专家加权求和;所述多领域问答任务微调方法包括低秩自适应矩阵以及混合专家模块;本发明利用低秩自适应矩阵显著降低可训练参数数量,提高训练效率;使用混合专家模块,学习复杂问答任务中不同领域问题的专有知识,提高模型的泛化能力。

本发明授权基于低秩自适应矩阵和混合专家的多领域问答任务微调方法在权利要求书中公布了:1.一种基于低秩自适应矩阵和混合专家的多领域问答任务微调方法,其特征在于,包括:加载数据集并划分;使用句向量模型抽取数据集句向量表示;对句向量使用K均值聚类算法获得类别数N;加载预训练语言模型,冻结原模型参数;在模型中指定的结构旁构建N个非对称可训练的低秩专家模块以及可训练的路由模块;微调模型,将句向量表示作为路由模块输入,路由模块计算专家权重并将其加权求和,原模型输出与专家模块输出相加后馈送到下一层Transformer块中;所述多领域问答任务微调方法包括大语言模型,低秩自适应矩阵以及混合专家模块; 使用低秩自适应矩阵和混合专家模块的多领域问答任务微调过程包括: S1:加载多领域问答数据集,并将样本划分成训练集D和测试集T; S2:使用SentenceTransformer库加载句向量模型,抽取训练集D的句向量表示; S3:对训练集D的句向量进行K均值聚类,得到最佳聚类数目N; S4:连接Huggingface模型库加载模型并冻结模型参数; S5:在模型的指定结构旁,通常是模型Transformer块的前馈层间构建N个非对称可训练的低秩专家模块,以及可训练的路由模块;‑S6:对训练集D进行预处理,设定专家权重阈值,将训练集样本输入模型开始微调,训练过程中将训练集的句向量表示作为路由模块输入,路由模块计算专家权重,舍弃没有达到阈值的专家模块,并对其余专家加权求和,混合专家模块输出与原模型输出相加后馈送到下一层Transformer块中,具体包括: 获得训练集D,将每个样本的内容部分,问题部分以及选项部分拼接到一起,在句子中加上特殊标识符表示开头,分隔和结尾,具体表示如下,InputS=[CLS]问题+内容[SEP]选项1[SEP]…[SEP]选项i[SEP]其中,S表示输入句子,[CLS]表示句子开头,[SEP]表示分割和结尾标志;通过分词器将输入的训练样本转换成词向量输入模型训练; 在训练过程中,路由模块通过可训练矩阵Wg向不同专家分配模型的输入,具体使用Softmax函数进行归一化,生成不同专家权重,公式如下,pi=SoftmaxWgci其中,pi表示某个专家的权重,Wg为可训练的路由矩阵,c是单个样本所对应的聚类中心句向量; 定义权重阈值τ,如果pi≥τ,则选择专家i,如果所有权重pi都低于阈值,则非常高的τ可能导致没有专家被选择,为了保证至少有一个专家被选择,设置τ=1N为专家权重的下限,其中N为专家的数量;经过权重判断后,所有专家的输出被表示为,其中,x是预训练模型某层Transformer块的输入,y表示为专家的输出,pi是第i个专家的权重,Eix是第i个专家输出的结果,函数表示对于不满足pi≥τ的专家权重将会丢弃; 每个前馈层FFN的输入x经由混合专家模块处理后再与经过冻结的参数矩阵的计算结果合并输出到下一层网络中,具体表示为,其中,W0是冻结的原预训练权重参数矩阵,pi为第i个专家的权重,BiA为每一个可训练的非对称的低秩专家模块,x表示输入向量;是阈值控制函数,对于某个专家如果pi≥τ则保留,反之舍弃; 最终结果表示为,Result=MoELoRAModelx,c其中,MoELoRAModel表示应用了混合专家模块和低秩自适应矩阵预训练模型,x表示为数据集的每一条样本,c是每条样本对应的聚类中心句向量; S7:训练结束,并验证模型效果,对测试集T进行预处理,抽取测试集句向量表示,将测试样本输入模型,将每条样本的句向量所对应的聚类中心作为路由模块的输入,路由模块将模型输入分配给不同专家模块,最后经过整个模型计算后将答案的准确率作为指标。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。