北京深势科技有限公司蔡恒兴获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京深势科技有限公司申请的专利一种引入稠密向量检索器的大语言模型的处理方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119398193B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411486178.1,技术领域涉及:G06N20/00;该发明授权一种引入稠密向量检索器的大语言模型的处理方法和装置是由蔡恒兴;李思杭;张林峰;孙伟杰设计研发完成,并于2024-10-23向国家知识产权局提交的专利申请。
本一种引入稠密向量检索器的大语言模型的处理方法和装置在说明书摘要公布了:本发明实施例涉及一种引入稠密向量检索器的大语言模型的处理方法和装置,所述方法包括:将一类大语言模型作为第一大语言模型;基于第一大语言模型在对应的定向NLP任务微调中使用的定向文本语料集初始化稠密向量数据库;在第一大语言模型中增加稠密向量检索器和特征融合模块构成第二大语言模型并对其进行训练;训练结束后由第二大语言模型以稠密向量数据库为参考来处理定向NLP任务;并定期更新稠密向量数据库,并定期基于最新的稠密向量数据库对第二大语言模型进行一次评估,并在当次评估不合格时对第二大语言模型进行一次微调。通过本发明既可以保证模型的时效性、又可以降低模型的维护成本、提高模型的经济价值。
本发明授权一种引入稠密向量检索器的大语言模型的处理方法和装置在权利要求书中公布了:1.一种引入稠密向量检索器的大语言模型的处理方法,其特征在于,所述方法包括: 将一类基于Transformer模型架构实现并已完成预训练和一类定向NLP任务微调的大语言模型作为对应的第一大语言模型;所述定向NLP任务至少包括机器翻译任务和智能问答任务; 将所述第一大语言模型在对应的定向NLP任务微调中使用的定向文本语料集作为对应的第一数据集;并基于所述第一数据集初始化对应的稠密向量数据库; 在所述第一大语言模型中增加稠密向量检索器和特征融合模块构成对应的第二大语言模型;并基于所述第一数据集对所述第二大语言模型进行模型训练; 模型训练结束后,由所述第二大语言模型以所述稠密向量数据库为参考来处理所述定向NLP任务;并定期对所述稠密向量数据库进行数据更新处理;并定期基于最新的所述稠密向量数据库对所述第二大语言模型进行一次任务处理性能评估得到对应的当次评估结果,并在所述当次评估结果为不合格时基于所述稠密向量数据库进行模型训练数据集构建得到对应的第二数据集,并基于所述第二数据集对所述第二大语言模型进行一次微调,并在本次微调结束后继续由所述第二大语言模型以所述稠密向量数据库为参考来处理所述定向NLP任务;所述当次评估结果包括合格和不合格; 其中,所述定期对所述稠密向量数据库进行数据更新处理,具体包括: 步骤81,按预设的第一时间频率定期通过多个大数据采集渠道对所述定向NLP任务的文本语料进行大数据采集得到对应的第一采集数据集;并基于人工或其他机器模型筛选方式对所述第一采集数据集的各个第一采集记录进行文本降噪、去重、合规性检验和正确性检验处理;并由所述第二大语言模型的预处理模块、嵌入编码模块和特征提取模块组成一个对应的第二编码器; 其中,所述多个大数据采集渠道至少包括公开的文本语料库、公开的网络文本资源、各领域公开的技术标准教材文献杂志期刊论文资源;所述第一采集数据集包括多个所述第一采集记录;所述第一采集记录包括第一采集目标文本和第一采集标签文本;所述定向NLP任务为机器翻译任务时,所述第一采集目标文本和所述第一采集标签文本分别为对应的翻译目标文本和释义标签文本;所述定向NLP任务为智能问答任务时,所述第一采集目标文本和所述第一采集标签文本分别为对应的问题目标文本和答案标签文本; 步骤82,将所述第一采集数据集的第一个所述第一采集记录作为对应的当前采集记录; 步骤83,将所述当前采集记录的所述第一采集目标文本和所述第一采集标签文本作为对应的当前采集目标文本和当前采集标签文本;并将所述当前采集目标文本和所述当前采集标签文本分别输入所述第二编码器进行对应的文本预处理、嵌入编码处理和特征提取处理得到对应的当前目标文本特征向量和当前标签文本特征向量;并按稠密向量格式对所述当前目标文本特征向量和所述当前标签文本特征向量进行稠密向量转换得到对应的当前目标文本稠密向量和当前标签文本稠密向量; 步骤84,对所述稠密向量数据库的第一向量数据库中第一稠密向量字段与所述当前目标文本稠密向量的向量特征近似度最大的第一向量数据记录进行查询并将查询得到的所述第一向量数据记录作为对应的第一查询记录;并将所述第一查询记录的所述第一稠密向量字段与所述当前目标文本稠密向量的向量特征近似度作为对应的第一目标近似度;并将第一文本数据库中第二向量标识字段与所述第一查询记录的第一向量标识字段匹配的第一文本数据记录作为对应的第二查询记录;并将所述第一向量数据库中所述第一稠密向量字段与所述第二查询记录的第三向量标识字段匹配的所述第一向量数据记录记为对应的第三查询记录;并对所述第三查询记录的所述第一稠密向量字段和所述当前标签文本稠密向量的向量特征近似度进行计算得到对应的第一标签近似度; 步骤85,对所述第一目标近似度和所述第一标签近似度进行识别;若所述第一目标近似度超过预设的第二近似度阈值且所述第一标签近似度未超过所述第二近似度阈值,则转至步骤86;若所述第一目标近似度未超过所述第二近似度阈值,则转至步骤87;若所述第一目标近似度和所述第一标签近似度都超过所述第二近似度阈值,则转至步骤88; 其中,第二近似度阈值第一近似度阈值; 步骤86,将所述第二查询记录的第二文本字段更新为对应的所述当前采集标签文本;并将所述第二查询记录的第一更新字段更新为对应的当前时间;并将所述第三查询记录的所述第一稠密向量字段更新为对应的所述当前标签文本稠密向量;并转至步骤88; 步骤87,在所述第一向量数据库中新增两个所述第一向量数据记录作为对应的第一新增记录和第二新增记录;并在所述第一文本数据库新增一个所述第一文本数据记录作为对应的第三新增记录;并为第一、第二、第三新增记录各自分配一个唯一的记录标识作为对应的第一新增标识、第二新增标识和第三新增标识;并将当前时间作为对应的第一新增时间;并将所述第一新增记录的所述第一向量标识字段和所述第一稠密向量字段设为对应的所述第一新增标识和所述当前目标文本稠密向量;并将所述第二新增记录的所述第一向量标识字段和所述第一稠密向量字段设为对应的所述第二新增标识和所述当前标签文本稠密向量;并将所述第三新增记录的第一文本标识字段、第一文本字段、所述第二文本字段、所述第二向量标识字段、所述第三向量标识字段和所述第一更新字段设为对应的所述第三新增标识、所述当前采集目标文本、所述当前采集标签文本、所述第一新增标识、所述第二新增标识和所述第一新增时间; 步骤88,对所述当前采集记录是否为所述第一采集数据集的最后一个所述第一采集记录进行识别;若否,则将所述第一采集数据集的下一个所述第一采集记录提取出来作为新的所述当前采集记录并返回步骤83;若是,则确认本次数据更新处理结束。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京深势科技有限公司,其通讯地址为:100089 北京市海淀区海淀大街3号1幢11层1101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励