Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京深势科技有限公司高志锋获国家专利权

北京深势科技有限公司高志锋获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京深势科技有限公司申请的专利用于分子属性预测的堆叠式集成模型的处理方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116343950B

龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310389668.9,技术领域涉及:G16C20/50;该发明授权用于分子属性预测的堆叠式集成模型的处理方法和装置是由高志锋;吉小洪;赵国江;汪鸿帅;郑行;柯国霖;张林峰;孙伟杰设计研发完成,并于2023-04-12向国家知识产权局提交的专利申请。

用于分子属性预测的堆叠式集成模型的处理方法和装置在说明书摘要公布了:本发明实施例涉及一种用于分子属性预测的堆叠式集成模型的处理方法和装置,所述方法包括:基于两级堆叠机制构建集成模型记为对应的第一集成模型;基于预设的原始数据集对第一集成模型进行模型训练;模型训练成功,则基于第一集成模型进行分子属性预测处理。通过本发明可以解决常规方案中模型结构单一、分子表征尺度单一等问题。

本发明授权用于分子属性预测的堆叠式集成模型的处理方法和装置在权利要求书中公布了:1.一种用于分子属性预测的堆叠式集成模型的处理方法,其特征在于,所述方法包括: 基于两级堆叠机制构建集成模型记为对应的第一集成模型; 基于预设的原始数据集对所述第一集成模型进行模型训练; 所述模型训练成功,则基于所述第一集成模型进行分子属性预测处理; 其中,所述第一集成模型包括数据预处理模块、分子多模态表征处理模块、一级堆叠基学习器处理模块和二级堆叠元学习器处理模块;所述分子多模态表征处理模块包括分子指纹处理单元、分子描述符处理单元、一维分子序列处理单元、二维分子图处理单元和三维分子构象处理单元;所述一级堆叠基学习器处理模块包括多模态融合单元、多个并行堆叠的基学习器和评估单元;所述二级堆叠元学习器处理模块包括一级预测筛选单元、多个并行堆叠的元学习器和二级预测平均单元; 所述分子指纹处理单元、所述分子描述符处理单元、所述一维分子序列处理单元、所述二维分子图处理单元和所述三维分子构象处理单元的输入端分别与所述数据预处理模块连接、输出端分别与所述多模态融合单元连接;所述多模态融合单元的多个输出端分别与各个所述基学习器的输入端连接;各个所述基学习器的输出端与所述评估单元的输入端连接;所述评估单元的输出端与所述一级预测筛选单元的输入端连接;所述一级预测筛选单元的多个输出端与各个所述元学习器的输入端连接;各个所述元学习器的输出端与所述二级预测平均单元的输入端连接;所述二级预测平均单元的输出端为所述第一集成模型的模型输出端; 所述基学习器为基于机器学习模型、神经网络模型或预训练模型实现的以融合了多模态分子特征的融合特征张量为输入的一级分子属性预测模型,其中,机器学习模型包括GBDT模型、extraTree模型、LR模型、MLP神经网络和SVM模型,预训练模型包括BERT模型、图神经网络模型、SE3等变神经网络模型和Uni-Mol模型;所述元学习器为基于机器学习模型实现的以初筛分子属性张量为输入的二级分子属性预测模型;其中,机器学习模型包括GBDT模型、extraTree模型、LR模型、MLP神经网络和SVM模型; 所述基于预设的原始数据集对所述第一集成模型进行模型训练,具体包括: 将所述原始数据集输入所述数据预处理模块进行分子数据异常检测处理和标签数据归一化处理得到对应的预处理数据集;所述原始数据集多个第一原始数据;所述第一原始数据包括一个SMILES格式的第一分子数据和一个对应的第一分子属性标签,所述第一分子属性标签包括多个分子属性类型及其对应的属性数值;所述预处理数据集包括多个第一预处理数据;所述第一预处理数据包括一个SMILES格式的第二分子数据和一个对应的第二分子属性标签,所述第二分子属性标签包括多个分子属性类型及其对应的属性数值; 将所述预处理数据集输入所述分子多模态表征处理模块进行多模态分子表征识别处理生成对应的第一数据集;所述第一数据集包括多个第一分子表征数据;所述第一分子表征数据包括分子指纹特征张量、分子描述符特征张量、一维分子特征张量、二维分子图特征张量、三维分子构象特征张量和第三分子属性标签; 将所述第一数据集输入所述一级堆叠基学习器处理模块进行一级模型训练得到对应的第一输出数据集;所述第一输出数据集包括多个第一基学习器输出数据;所述第一基学习器输出数据包括多个第一批次输出数据;所述第一批次输出数据包括第一预测-标签对集合和第一交叉验证评分;所述第一预测-标签对集合包括多个第一预测-标签对;所述第一预测-标签对包括第一属性预测张量和所述第四分子属性标签; 将所述第一输出数据集输入所述二级堆叠元学习器处理模块进行二级模型训练; 所述将所述第一数据集输入所述一级堆叠基学习器处理模块进行一级模型训练得到对应的第一输出数据集,具体包括: 将所述第一数据集输入所述一级堆叠基学习器处理模块; 并由所述一级堆叠基学习器处理模块的所述多模态融合单元,为各个所述基学习器创建一个对应的训练数据集记为第一学习器数据集;并将所述第一数据集的任一个所述第一分子表征数据作为对应的当前分子表征数据;并将所述当前分子表征数据中的所述分子指纹特征张量、所述分子描述符特征张量、所述一维分子特征张量、所述二维分子图特征张量、所述三维分子构象特征张量提取出来组成对应的当前特征张量序列,并将所述当前分子表征数据的所述第三分子属性标签提取出来作为对应的第四分子属性标签;并对预设的反映融合张量-基学习器对应关系的第一对应关系表的各个第一对应关系记录进行遍历,并在遍历时将当前遍历的所述第一对应关系记录作为对应的当前记录,并将所述当前记录的第一融合张量特征范围字段和第一基学习器标识字段提取出来作为对应的当前特征范围和当前基学习器标识,并将与所述当前基学习器标识匹配的所述基学习器作为对应的当前基学习器,并对所述当前特征张量序列中与所述当前特征范围匹配的一个或多个特征张量进行多模态特征融合得到对应的第一分子融合特征张量,并由所述第一分子融合特征张量和对应的所述第四分子属性标签组成对应的第一学习器数据,并为所述第一学习器数据与所述当前基学习器标识建立对应关系;并在遍历结束时,将得到的各个所述第一学习器数据存入各自对应的所述第一学习器数据集中;所述第一对应关系表包括多个所述第一对应关系记录;所述第一对应关系记录包括所述第一融合张量特征范围字段和所述第一基学习器标识字段;所述第一融合张量特征范围字段包括指纹特征类型、描述符特征类型、一维特征类型、二维特征类型和三维特征类型;所述第一学习器数据集与所述基学习器一一对应;所述第一学习器数据集包括多个所述第一学习器数据;所述第一学习器数据包括所述第一分子融合特征张量和所述第四分子属性标签; 并由所述一级堆叠基学习器处理模块将各个所述第一学习器数据集按预设比例划分成两个数据集分别为:第一训练数据集和第一验证数据集;并将所述第一训练数据集等分成多个数据子集记为对应的单批次训练数据子集;并基于各个所述单批次训练数据子集对对应的所述基学习器进行逐批次模型训练;并在每批次模型训练中,以FocalLoss+GHMloss作为模型训练损失函数;并在每批次模型训练结束时,使用所述基学习器对所述第一验证数据集的各个所述第一分子融合特征张量进行分子属性预测处理生成对应的所述第一属性预测张量,并由各个所述第一属性预测张量和对应的所述第四分子属性标签组成对应的所述第一预测-标签对,并由得到的所有所述第一预测-标签对组成对应的所述第一预测-标签对集合,并由所述评估单元对所述第一预测-标签对集合进行交叉验证打分得到对应的所述第一交叉验证评分,并由所述第一预测-标签对集合和所述第一交叉验证评分组成对应的所述第一批次输出数据;并在所有批次模型训练结束时,将得到的所有所述第一批次输出数据组成对应的所述第一基学习器输出数据;并由所有所述基学习器对应的所述第一基学习器输出数据组成对应的所述第一输出数据集; 所述基于所述第一集成模型进行分子属性预测处理,具体包括: 获取用户输入的SMILES格式的分子数据作为对应的当前分子数据; 将所述当前分子数据输入所述数据预处理模块,并由所述数据预处理模块按3西格玛原则对所述当前分子数据进行异常数据识别得到对应的第一识别结果;所述第一识别结果包括异常数据和非异常数据; 当所述第一识别结果为非异常数据时,将所述当前分子数据输入所述分子多模态表征处理模块,并由所述分子指纹处理单元按预设指纹格式对所述当前分子数据进行分子指纹特征提取处理生成对应的第一分子指纹特征张量;并由所述分子描述符处理单元按预设的描述符类型集合对所述当前分子数据进行多类描述符特征提取处理生成对应的第一分子描述符特征张量;并由所述一维分子序列处理单元使用预设的一维特征提取模型对所述当前分子数据进行一维特征提取处理生成对应的第一一维分子特征张量;并由所述二维分子图处理单元使用预设的二维特征提取模型对所述当前分子数据进行二维分子图特征提取处理生成第一二维分子图特征张量;并由所述三维分子构象处理单元使用预设的三维特征提取模型对所述当前分子数据进行三维分子图特征提取处理生成第一三维分子构象特征张量;并由所述第一分子指纹特征张量、所述第一分子描述符特征张量、所述第一一维分子特征张量、所述第一二维分子图特征张量、所述第一三维分子构象特征张量和所述第一第三分子属性标签组成对应的第二分子表征数据;所述预设指纹格式包括Morgan指纹格式、ECFP指纹格式、MACCS指纹格式、RDKit指纹格式和Topological指纹格式;所述描述符类型集合包括多个分子描述符类型;所述一维特征提取模型包括Transformer模型、BERT-like模型和K-BERT模型;所述二维特征提取模型包括GROVER模型、MOLCLR模型、KPGT模型和HIGNN模型;所述三维特征提取模型包括EGNN模型、SE3等变神经网络和Uni-Mol模型; 将所述第二分子表征数据输入所述一级堆叠基学习器处理模块的所述多模态融合单元,并由所述多模态融合单元对预设的反映融合张量-基学习器对应关系的第一对应关系表的各个第一对应关系记录进行遍历;并在遍历时,将当前遍历的所述第一对应关系记录作为对应的当前记录;并将所述当前记录的第一融合张量特征范围字段和第一基学习器标识字段提取出来作为对应的当前特征范围和当前基学习器标识;并将与所述当前基学习器标识匹配的所述基学习器作为对应的当前基学习器;并对所述第二分子表征数据中与所述当前特征范围匹配的一个或多个特征张量进行多模态特征融合得到对应的第二分子融合特征张量,并为所述第二分子融合特征张量与所述当前基学习器标识建立对应关系;并在遍历结束时,将得到的各个所述第二分子融合特征张量输入各自对应的所述基学习器进行分子属性预测处理得到对应的第二属性预测张量;并由所述评估单元对各个所述第二属性预测张量进行交叉验证打分得到对应的第二交叉验证评分;所述第一对应关系表包括多个所述第一对应关系记录;所述第一对应关系记录包括所述第一融合张量特征范围字段和所述第一基学习器标识字段;所述第一融合张量特征范围字段包括指纹特征类型、描述符特征类型、一维特征类型、二维特征类型和三维特征类型; 并由所述一级堆叠基学习器处理模块将各个所述第二交叉验证评分和对应的所述第二属性预测张量组成对应的第二输出数据;并由得到的所有所述第二输出数据组成对应的第二输出数据集; 将所述第二输出数据集输入所述二级堆叠元学习器处理模块,并由所述一级预测筛选单元将所述第二输出数据集中高于预设评分阈值的所述第二交叉验证评分对应的所述第二属性预测张量筛选出来组成对应的第一张量序列;并由各个所述元学习器对所述第一张量序列的各个所述第二属性预测张量进行分子属性预测处理得到对应的第三属性预测张量;并由得到的所有所述第三属性预测张量组成对应的第二张量序列; 将所述第二张量序列输入所述二级堆叠元学习器处理模块的所述二级预测平均单元,由所述二级预测平均单元按分子属性类型维度对所述第二张量序列的所有所述第三属性预测张量进行均值计算得到对应的第四属性预测张量;并将所述第四属性预测张量作为所述第一集成模型的模型预测结果输出。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京深势科技有限公司,其通讯地址为:100080 北京市海淀区海淀东三街2号14层1401;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。