百图生科(北京)智能技术有限公司成幸毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉百图生科(北京)智能技术有限公司申请的专利蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116959571B 。
龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310832203.6,技术领域涉及:G16B25/10;该发明授权蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品是由成幸毅;陈波;李绅;曾信;刘迟明;唐杰;宋乐设计研发完成,并于2023-07-06向国家知识产权局提交的专利申请。
本蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品在说明书摘要公布了:本公开涉及蛋白质语言模型训练领域,具体涉及蛋白质语言模型的训练方法、利用蛋白质语言模型来提取氨基酸序列表征的方法、利用蛋白质语言模型来获得新氨基酸序列的方法、利用蛋白质语言模型来获得相关氨基酸序列的方法、利用蛋白质语言模型来预测氨基酸序列困惑度的方法、电子设备、计算机可读介质和程序产品。蛋白质语言模型的训练方法包括:在训练过程中,执行第一类型的训练任务和第二类型的训练任务包括的两个训练子任务中至少一个训练子任务;基于第一类型训练任务对应的第一损失值和第二类型训练任务对应的损失值调整蛋白质语言模型的参数,获得训练完成的蛋白质语言模型。
本发明授权蛋白质语言模型的训练方法、电子设备、计算机可读介质和程序产品在权利要求书中公布了:1.一种蛋白质语言模型的训练方法,包括: 在训练过程中,执行第一类型的训练任务和第二类型的训练任务包括的两个训练子任务中至少一个训练子任务; 所述第一类型的训练任务包括:获取第一氨基酸序列;对所述第一氨基酸序列进行第一预处理操作,以得到第一预处理氨基酸序列;所述第一预处理操作包括选取所述第一氨基酸序列中的一个或多个第一位点,并对所述第一位点上的词元进行掩码;将所述第一预处理氨基酸序列输入蛋白质语言模型,得到第一预测结果;根据所述第一氨基酸序列中所述第一位点上的词元和所述第一预测结果中第一计算位点上的元素,计算第一损失值;所述第一计算位点为与所述第一位点对位的位点; 所述第二类型的训练任务中的第一个训练子任务包括:获取第二氨基酸序列;对所述第二氨基酸序列进行第二预处理操作,以得到第二预处理氨基酸序列;所述第二预处理操作包括选取所述第二氨基酸序列中的一个或多个第二位点,并对所述第二位点上的词元进行掩码;将所述第二预处理氨基酸序列输入蛋白质语言模型,得到第二预测结果;根据所述第二氨基酸序列中所述第二位点上的词元和所述第二预测结果中第二计算位点上的元素,计算第二损失值;所述第二计算位点选自与所述第二位点对位的位点之后的位点; 所述第二类型的训练任务中的第二个训练子任务包括:获取第三氨基酸序列;对所述第三氨基酸序列进行第三预处理操作,以得到第三预处理氨基酸序列;所述第三预处理操作包括选取所述第三氨基酸序列中位于序列尾部且彼此毗邻的一个或多个第三位点,并对所述第三位点上的词元进行删除;将第三预处理氨基酸序列输入蛋白质语言模型,得到第三预测结果;根据第三氨基酸序列中第三位点上的词元和第三预测结果中第三计算位点上的元素,计算第三损失值;所述第三计算位点选自与所述第三位点对位的位点之后的位点; 基于所述第一损失值和所述第二类型的训练任务对应的损失值调整所述蛋白质语言模型的参数,获得训练完成的蛋白质语言模型,所述第二类型的训练任务对应的损失值包括所述第二损失值和所述第三损失值中至少一者。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人百图生科(北京)智能技术有限公司,其通讯地址为:100094 北京市海淀区永腾北路9号院10号楼二层101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励