腾讯科技(深圳)有限公司余剑扬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉腾讯科技(深圳)有限公司申请的专利语言模型的训练方法、文本匹配方法及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114626463B 。
龙图腾网通过国家知识产权局官网在2026-01-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210261106.1,技术领域涉及:G06F18/22;该发明授权语言模型的训练方法、文本匹配方法及相关装置是由余剑扬;陈楚杰;谢润泉;邵纪春设计研发完成,并于2022-03-16向国家知识产权局提交的专利申请。
本语言模型的训练方法、文本匹配方法及相关装置在说明书摘要公布了:本申请公开了一种语言模型的训练方法、文本匹配方法及相关装置,本申请提供的方案能够通过粒度划分,将目标领域的高频词语融入第一训练文本,并以SOP任务和MSP任务为第一阶段的训练任务,采用该第一训练文本预训练语言模型。由此,在预训练阶段,该方法不仅能够让语言模型学习到通用领域的知识,还能够学习到目标领域的知识。并且,该方法还能够以文本匹配任务为第二阶段的训练任务,采用从目标领域获取到的第二训练文本训练语言模型,从而使语言模型能够更广泛地学习到该目标领域的基础知识。由此,可以增加该语言模型的泛化能力,从而确保模型的训练效果。
本发明授权语言模型的训练方法、文本匹配方法及相关装置在权利要求书中公布了:1.一种语言模型的训练方法,其特征在于,所述方法包括: 从文档库中的第一文档中获取两个句子样本,所述文档库中包含目标领域的文档,所述两个句子样本是所述第一文档中两个连续的句子; 分别对每个所述句子样本进行粒度划分,粒度划分后的所述句子样本包括多个句子段,至少一个所述句子段包括多个文字,以及由所述多个文字组成的至少一个属于高频词语库的词语,所述高频词语库中包含所述目标领域的高频词语,若所述句子样本中连续的若干个文字能够组成多个词语,则所述连续的若干个文字以及所述多个词语均属于一个句子段,或者,若所述句子样本中的某个文字无法与其相邻的文字组成词语,则所述文字单独作为一个句子段; 对粒度划分后的所述两个句子样本中的至少一个所述句子段进行掩码处理,得到第一训练文本; 以句子顺序预测SOP任务和掩码段预测MSP任务为第一阶段的训练任务,采用所述第一训练文本预训练语言模型,所述SOP任务用于预测所述两个句子样本在所述第一文档中的顺序,所述MSP任务用于预测被掩码处理的至少一个句子段; 以文本匹配任务为第二阶段的训练任务,采用第二训练文本训练所述语言模型,所述第二训练文本包括所述目标领域的第一输入文本,以及所述目标领域的第二文档的标识文本,所述文本匹配任务用于预测所述第二文档与所述第一输入文本的匹配度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人腾讯科技(深圳)有限公司,其通讯地址为:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励