北京深势科技有限公司许明军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京深势科技有限公司申请的专利一种基于大语言模型实现的稠密编码器的处理方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120353916B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510467306.6,技术领域涉及:G06F16/334;该发明授权一种基于大语言模型实现的稠密编码器的处理方法和装置是由许明军;王泽辉;董锦汉;高志锋;蔡恒兴;张林峰设计研发完成,并于2025-04-15向国家知识产权局提交的专利申请。
本一种基于大语言模型实现的稠密编码器的处理方法和装置在说明书摘要公布了:本发明实施例涉及一种基于大语言模型实现的稠密编码器的处理方法和装置,所述方法包括:选择一款已经完成预训练和NLP任务微调并基于纯解码器架构实现的大语言模型作为目标模型,并通过将目标模型解码器在推理过程中使用的因果掩膜矩阵固化为全1矩阵的改造方式得到双向编码器,并由目标模型的嵌入编码模块和多个双向编码器顺次连接组成稠密编码器;通过屏蔽词预测任务对稠密编码器进行一阶段微调,通过无监督对比学习机制对稠密编码器进行二阶段微调;微调结束后,利用稠密编码器为用户指定的目标文档库构建文档向量库,并基于文档向量库和稠密编码器为目标文档库提供检索服务。通过本发明的稠密编码器来处理文本检索任务能提高检索准确率。
本发明授权一种基于大语言模型实现的稠密编码器的处理方法和装置在权利要求书中公布了:1.一种基于大语言模型实现的稠密编码器的处理方法,其特征在于,所述方法包括: 选择一款已经完成预训练和NLP任务微调并基于纯解码器架构实现的大语言模型作为对应的目标模型;并将所述目标模型的解码器作为对应的目标解码器;并通过将所述目标解码器在推理过程中使用的因果掩膜矩阵固化为全1矩阵的改造方式得到一个双向编码器;并由多个所述双向编码器顺次连接组成一个对应的双向编码网络,并由所述目标模型的嵌入编码模块和所述双向编码网络连接组成一个稠密编码器;所述NLP任务至少包括文本生成任务、信息抽取任务、问答任务; 为所述稠密编码器构建一个对应的模型训练框架;并通过所述模型训练框架的屏蔽词预测任务对所述稠密编码器进行一阶段微调;一阶段微调结束后,通过无监督的对比学习机制对所述稠密编码器进行二阶段微调; 二阶段微调结束后,将用户指定的文档库作为目标文档库;并利用所述稠密编码器为所述目标文档库构建文档向量库;并基于所述文档向量库和所述稠密编码器为所述目标文档库提供检索服务;所述目标文档库包括多个第一文档;所述文档向量库包括多个第一稠密向量,所述第一稠密向量与所述第一文档一一对应; 其中,所述稠密编码器用于对编码器的输入文本进行稠密向量编码处理并输出对应的文本稠密向量Y;所述双向编码器与所述目标解码器的模型结构一致,都由一层掩码多头注意力层、一层残差连接与层归一化单元、一层前馈神经网络和另一层残差连接与层归一化单元顺次连接而成;所述模型训练框架用于对框架输入的屏蔽文本中被预设屏蔽词遮蔽的原词文本进行预测并输出对应的原词预测序列;所述模型训练框架由所述稠密编码器、线性层、Softmax函数层和输出模块顺次连接而成; 所述通过所述模型训练框架的屏蔽词预测任务对所述稠密编码器进行一阶段微调,具体包括: 步骤41,从所述目标模型处理过的历史文本中随机抽取多个文句,并将每个抽取文句作为一个对应的第一抽取文本;并对各个所述第一抽取文本内的标点符号和特殊字符进行删除; 步骤42,向所述模型训练框架的各个所述双向编码器的所述参数集Gn中植入低秩矩阵得到对应的参数集; 其中,所述参数集由权重、、组成; 所述双向编码器的所述掩码多头注意力层基于所述参数集的推理过程为: , ,,, =,=,=, ,; 、为所述权重对应的一对低秩矩阵,、为所述权重对应的一对低秩矩阵,、为所述权重对应的一对低秩矩阵;所述参数集对应的所述低秩矩阵、、、、、组成一个对应的低秩矩阵参数集; 步骤43,初始化当前遮蔽率为预设的第一遮蔽率; 其中,0<第一遮蔽率<1; 步骤44,基于所述目标模型的分词规则并根据预设词表对各个所述第一抽取文本进行预分词得到对应的预分词序列;并使用所述预设屏蔽词对各个所述预分词序列的分词按所述当前遮蔽率进行随机替换得到对应的替换后分词序列;并对各个所述替换后分词序列的所有分词进行字符串拼接得到对应的第一训练文本;并对所有所述第一训练文本中的所述预设屏蔽词的总数进行统计得到对应的总数NK; 其中,所述替换后分词序列的序列分词含有所述预设屏蔽词,且所述预设屏蔽词的总数为序列分词总数与所述当前遮蔽率的乘积的向下取整数值; 步骤45,将各个所述第一训练文本作为对应的所述屏蔽文本输入所述模型训练框架进行预测处理,并将本次处理过程中的所述Softmax函数层计算出的各个屏蔽词概率向量记为一个对应的预测向量pk,1≤索引k≤NK;并基于各个所述预测向量pk对应的原词文本设置一个对应的标签向量;并由各个所述预测向量pk和对应的所述标签向量组成一个对应的第一预测-标签对pk,; 其中,所述标签向量由多个标签分词概率组成,所述标签分词概率与所述预设词表的表内分词一一对应;所述标签向量中只有一个所述标签分词概率为1、其余所述标签分词概率均为0;所述标签向量中为1的所述标签分词概率对应的表内分词与对应的原词文本匹配; 步骤46,将得到的NK个所述第一预测-标签对pk,带入预设的第一模型损失函数L1进行计算得到对应的第一损失值; 其中,所述第一模型损失函数L1为: ; 步骤47,对所述第一损失值是否满足预设的第一损失值范围进行识别;若满足,则转至步骤48;若不满足,则对所述当前遮蔽率是否为所述第一遮蔽率进行识别,若是则基于预设的第一模型优化器朝着使所述第一模型损失函数L1达到最小值的方向对所述双向编码网络的所有所述低秩矩阵参数集以及所述线性层的线性层参数进行一轮调制、若否则基于预设的第二模型优化器朝着使所述第一模型损失函数L1达到最小值的方向对所有所述低秩矩阵参数集进行一轮调制,并在本轮调制结束后返回步骤45继续训练; 其中,所述第一、第二模型优化器都至少包括Adam优化器、SGD优化器; 步骤48,对所述当前遮蔽率是否为所述第一遮蔽率进行识别;若是,则将所述当前遮蔽率重置为预设的第二遮蔽率并在重置后返回步骤44继续训练;若否,则停止训练并确认一阶段微调结束; 其中,0<第一遮蔽率<第二遮蔽率<1; 所述通过无监督的对比学习机制对所述稠密编码器进行二阶段微调,具体包括: 步骤51,从所述目标模型处理过的历史文本中随机抽取多个文句,并将每个抽取文句作为一个对应的第二抽取文本;并对各个所述第二抽取文本内的标点符号和特殊字符进行删除;并对所述第二抽取文本的总数进行统计得到对应的总数NU; 步骤52,将各个所述第二抽取文本作为对应的所述输入文本输入所述稠密编码器进行稠密向量编码处理并将本次处理输出的所述文本稠密向量Y记为对应的第一样本; 步骤53,将各个所述第二抽取文本作为对应的所述输入文本再次输入所述稠密编码器进行稠密向量编码处理,并在本次处理过程中从所述双向编码网络中随机抽选出多个所述残差连接与层归一化单元作为对应的随机加扰单元,并在每个所述随机加扰单元的推理过程结束时对当前单元输出向量的部分子向量进行随机加扰、并将加扰后的单元输出向量向下游传递;并将本次稠密向量编码处理最终输出的所述文本稠密向量Y记为对应的第二样本; 其中,所述随机加扰的加扰方式为:对选中子向量进行全零向量设置或对选中子向量进行高斯噪声添加; 步骤54,将任意一个所述第一样本记为对应的样本su,1≤索引u≤NU;并将与各个所述样本su不同的其他所述第一样本记为当前所述样本su的负样本,1≤索引v≤NU-1;并由各个所述样本su对应的NU-1个所述负样本组成一个对应的负样本集合{};并将与各个所述样本su对应的所述第二样本记为当前所述样本su的正样本;并由各个所述样本su及其对应的所述正样本与负样本集合{}组成一个对应的样本数据组su,,{}; 步骤55,将得到的N个所述样本数据组s,{}带入预设的第二模型损失函数L进行计算得到对应的第二损失值; 其中,所述第二模型损失函数L为: λ为预设的调节参数;sim为向量的余弦相似度函数,sims为所述样本s与对应的所述正样本的余弦相似度,sims为所述样本s与对应的所述负样本的余弦相似度; 步骤56,对所述第二损失值是否满足预设的第二损失值范围进行识别;若不满足,则基于预设的第三模型优化器朝着使所述第二模型损失函数L达到最小值的方向对所述稠密编码器的所有低秩矩阵参数集进行一轮调制,并在本轮调制结束后返回步骤52继续训练;若满足,则停止训练并确认二阶段微调结束; 所述第三模型优化器至少包括Adam优化器、SGD优化器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京深势科技有限公司,其通讯地址为:100089 北京市海淀区海淀大街3号1幢11层1101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励