Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 北京工业大学李春华获国家专利权

北京工业大学李春华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉北京工业大学申请的专利基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119580835B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410177964.7,技术领域涉及:G16B20/50;该发明授权基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法是由李春华;孙晓晗;孔晓天设计研发完成,并于2024-02-08向国家知识产权局提交的专利申请。

基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法在说明书摘要公布了:基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法,属于蛋白质稳定性变化预测技术领域。首先构建训练集和测试集,收集整理了四个数据集。然后按以下四个步骤进行:一是基于反对称性对数据进行增强处理,平衡训练集中稳定和不稳定突变的样本数据;二是提取蛋白质特征;三是采用回归分层采样策略训练模型;四是构建基于多个CNN子模型的集成模型用于蛋白质突变稳定性变化预测。本发明首次引入空间近邻进化信息;第一次提出回归分层采样策略并成功应用在模型的训练过程中,有效提高了模型对于极端ΔΔG的预测能力;将训练的CNN子模型进行组合,充分利用训练集中全部样本的信息,有利于增强模型的泛化能力。

本发明授权基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法在权利要求书中公布了:1.基于集成卷积神经网络模型和回归分层采样训练的蛋白质突变稳定性变化预测方法,其特征在于,考虑反对称性和利用空间近邻进化信息、持续同调提取拓扑特征,并采用回归分层策略训练模型,包含四个步骤:一是基于反对称性对数据进行增强处理,平衡训练集中稳定和不稳定突变的样本数据,二是提取蛋白质特征,三是采用回归分层采样策略训练模型,四是构建基于多个CNN子模型的集成模型用于蛋白质突变稳定性变化预测; 建立模型前,首先构建了训练集和测试集: 收集有关蛋白质突变稳定性变化即ΔΔG的实验数据:Q3421数据集;Ssym数据集;P53数据集;Myoglobin数据集;以Q3421为训练集,其他三个数据集Ssym,P53和Myoglobin为测试集;删除训练集中与测试集中相同的样本,然后使用BLAST方法去除训练集中与测试集中蛋白质序列E值小于0.001的蛋白质;经过处理以后,最后得到训练集Q3211包含147个蛋白质,共3211个蛋白质突变数据,包括702个稳定突变和2509个不稳定突变;测试集Ssym包含15个蛋白质,共684个蛋白质突变数据,包括342个稳定突变和342个不稳定突变;P53数据集包含1个p53蛋白,共42个蛋白质突变数据,包括11个稳定突变和31个不稳定突变;Myoglobin数据集包含1个myoglobin蛋白,共134个蛋白质突变数据,包括38个稳定突变和96个不稳定突变; 步骤1:基于反对称性对数据进行增强处理 Q3211数据集是一个不平衡的数据集,包括702个稳定突变和2509个不稳定突变;利用反对称性对数据进行数据增强处理生成了一个新数据集,命名为Qanti3211,Qanti3211包括2509个稳定突变和702个不稳定突变;最后,构建的平衡训练集Q6422由Qanti3211和Q3211两个数据集组合而成,包括3211个稳定突变和3211个不稳定突变; 步骤2:提取蛋白质特征 从蛋白质中提取每个样本的序列以及结构特征,其中包括理化特征,二级结构特征,深度和突出指数,进化信息PSSM和SNB-PSSM,以及基于持续同调的拓扑特征;每个样本的特征考虑野生型,突变型,以及它们之间的差值,具体描述如下: 1理化特征 从AAindex数据库中获取氨基酸的9项物理化学性质,包括每种氨基酸的原子数目、疏水性、亲水性、界面倾向性、等电点、质量、体积、可及表面积和氨基酸的静电性质分类,总共构建了27维特征; 2二级结构特征 利用SPOT-1D-LM软件计算蛋白质二级结构特征,包括蛋白质二级结构的三种状态:螺旋H,链E和环C,蛋白质二级结构的八种状态:310-螺旋G,α-螺旋H,π-螺旋I,β-链E,桥B,转弯T,弯曲S和其他C,相对溶剂可及性,蛋白质主链角度:ψ角、φ角、θ角和τ角,半球暴露度和接触数,最终共提取了57维特征; 3深度指数DPX和突出指数CX 深度指数和突出指数分别被用来表征蛋白质结构中原子的埋藏和暴露程度,使用PSAIA软件来计算突变残基的DPX和CX,包括残基中所有原子的DPX和CX的均值及其标准差,以及侧链原子的DPX和CX的均值及其标准差,最后共产生24维特征; 4位置特异性打分矩阵PSSM和空间近邻的位置特异性打分矩阵SNB-PSSM PSSM给出了蛋白质序列上各位置的进化保守性信息,可通过迭代三次PSI-BLAST生成,同时考虑到蛋白质残基进化的空间协同性,采用基于空间近邻的PSSM提取残基的进化信息,SNB-PSSM使用基于空间近邻的平滑处理和窗口方法来编码进化信息,目标残基的进化得分是标准PSSM中与目标残基的Cα原子距离不超过7.5Å的所有残基进化得分的平均值,通过PSSM和SNB-PSSM只提取突变位点的进化得分,最后一共产生6维特征; 5基于持续同调的拓扑特征 拓扑特征是从拓扑不变量计算而来的,拓扑不变量由独立组成、环和腔组成,它们分别用Betti-0、Betti-1和Betti-2表示;拓扑特征的计算过程分为两个步骤:单纯复型的构建和拓扑特征的生成; 5.1单纯复型的构建 在蛋白质拓扑空间中,将与突变残基Cα原子距离不超过12Å的原子构建成一个只包含C、N和O原子的点云,以其中每个点为中心生成球,球半径为过滤半径,生成一系列单纯复型,单纯复型是由点、线段、三角形单纯形粘合而得的拓扑对象; 5.2拓扑特征的生成 持续同调的传统输出是一个条形码,每个独立组件、环和腔都用一根条Bar表示,在条形码中,水平轴表示过滤半径的大小,设置最大值为12Å,采用分箱法将整个过滤范围分为12个1.0Å的箱子Bin,然后计算每个Bin的统计量;对于Betti-0条形码,计算每个Bin中Bar条数和Bar死亡事件的数量,共得到648维特征;对于Betti-1和Betti-2条形码,计算Bar长度的最大值、最小值、均值、标准差、总和以及Bar最开始的出生时间和最后的死亡时间,共得到378维特征;最终整合得到总共1026个特征; 步骤3:采用回归分层采样策略训练模型 设计一种回归分层采样的训练方案,方法分为三步:第一步,将数据集中的ΔΔG值范围划分为八个不同间隔的区间,包括-∞,-7],-7,-3],-3,-1],-1,0],0,1],1,3],3,7],7,+∞,根据每个样本所在区间,为每个样本分配其所对应的标签;第二步,将每个区间的数据等分为15份,其中来自每个区间的一份组成验证集,而剩下的14份用作训练集;第三步,重复第二步15次,每次采用一份不同的验证集,得到15组不同组合的验证集和训练集,然后训练CNN模型; 步骤4:构建基于多个CNN子模型的集成模型 使用步骤3得到的15组不同的数据进行训练,选择CNN作为模型框架;CNN的网络结构包含六个一维卷积Convolutional层、两个随机失活Dropout层、两个最大池化MaxPooling1D层、一个展平Flatten层和一个全连接FullyConnected层,每个卷积层使用线性整流函数ReLU作为其激活函数,最大池化层的池化大小为3;第一个和第二个Dropout层的丢失率分别设置为0.2和0.5,CNN模型的批处理大小和迭代次数分别设置为20和1000,使用Adam优化器以学习率为0.0001进行CNN模型的训练,在训练过程中,使用均方差作为损失函数,通过训练最终得到15个CNN子模型,然后将这15个子模型进行集成构建最终的蛋白质突变稳定性变化预测模型PMSPcnn。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京工业大学,其通讯地址为:100124 北京市朝阳区平乐园100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。