华南农业大学陈小川获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉华南农业大学申请的专利一种基于深度学习的蛋白质变构位点识别系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120089210B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510250499.X,技术领域涉及:G16B40/20;该发明授权一种基于深度学习的蛋白质变构位点识别系统是由陈小川;张慧玲;李悦彤;郑健强;许梓淇;黄珍妮;黄俊晔;庄璋盛设计研发完成,并于2025-03-04向国家知识产权局提交的专利申请。
本一种基于深度学习的蛋白质变构位点识别系统在说明书摘要公布了:本发明公开了一种基于深度学习的蛋白质变构位点识别系统,包括:数据导入模块,加载具有变构效应的蛋白质的PDB文件及其变构位点位置信息的CSV文件并进行预处理,得到蛋白质的空间结构数据;特征提取模块,对蛋白质的空间结构数据提取二级结构特征、接触网络特征及残基微环境理化特征,并融合生成特征矩阵;训练模块,基于改进的空洞卷积神经网络从融合生成的特征矩阵中学习每个变构蛋白的局部和全局特征分布,捕获变构位点的特征信息,学习其中变构位点的约束条件以及空间上的复杂依赖性,最终得到训练好的改进模型;识别模块,使用改进模型,根据蛋白质的PDB文件,对蛋白质上的变构位点进行识别并提供识别解释。本发明可有效识别变构位点,可靠性高。
本发明授权一种基于深度学习的蛋白质变构位点识别系统在权利要求书中公布了:1.一种基于深度学习的蛋白质变构位点识别系统,其特征在于,包括: 数据导入模块,用于加载具有变构效应的蛋白质的PDB文件及其变构位点位置信息的CSV文件,并进行预处理,得到蛋白质的空间结构数据; 特征提取模块,利用DSSP工具、残基接触网络和Feature软件对蛋白质的空间结构数据提取二级结构特征、接触网络特征及残基微环境理化特征,将二级结构特征、接触网络特征及残基微环境理化特征融合生成特征矩阵; 训练模块,基于改进的空洞卷积神经网络DCNN从融合生成的特征矩阵中学习每个变构蛋白的局部和全局特征分布,捕获变构位点的特征信息,学习其中变构位点的约束条件以及空间上的复杂依赖性,最终得到训练好的改进模型;该改进模型是对空洞卷积神经网络DCNN的特征捕捉模块和预测模块进行改进;对特征捕捉模块的改进是:引入三层并行空洞卷积,分别提取大、中、小感受野的特征,同时结合频域通道注意力机制,通过频域特征的转换和全局池化增强对周期性和长距离依赖性特征的捕捉;对预测模块的改进是:引入XGBoost模型,利用串联多个决策树的方法,通过对提取的关键特征进行加权和正则化,提升模型的预测精度和泛化能力; 识别模块,使用训练好的改进模型,根据蛋白质的PDB文件,对蛋白质上的变构位点进行识别并提供识别解释; 所述特征提取模块执行以下操作: 1基于DSSP工具提取二级结构特征: DSSP工具通过解析蛋白质的空间结构数据,基于二级结构预测方法,识别每个残基的二级结构类型及其对应的序列位置和链标识;首先,输入蛋白质的空间结构数据到DSSP工具,生成包含该蛋白质的二级结构特征的DSSP文件,接着,通过解析蛋白质的空间结构数据和DSSP文件中的二级结构特征,提取蛋白质口袋区域的二级结构特征,包括残基的二级结构类型和相对溶剂可及性RSA,随后,利用Biopython中的Bio.PDB.DSSP模块解析DSSP文件,将每个残基的二级结构类型转化为独热编码,并计算和归一化其相对溶剂可及性RSA,以用于后续特征矩阵的构建,最后,生成的DSSP文件将被保留,以便后续通过Feature软件进一步提取残基微环境中的二级结构特征; 2基于残基接触网络提取原子的接触网络特征,即近距离相互作用特征: 首先,通过Biopython和NetworkX工具生成蛋白质的接触网络;从蛋白质的PDB文件中解析出每个残基的空间坐标,选择每个残基的α碳原子作为代表原子,并基于三维空间中的距离关系,按照设定的阈值分别为其中是一个描述原子间距的单位,寻找接触残基,构建α碳原子-α碳原子的接触网络: 式中,dk,cR为k位残基R以c为阈值时的残基接触密度,lenP为蛋白质P的序列长度,Ck,cR是k位残基R以c为阈值时的总接触数; 接着,根据残基R的α碳原子空间坐标,将残基R接触分为上半球和下半球,统计每个残基在不同阈值下的上半球和下半球接触数,计算暴露比例: Dk,cR=1-Uk,cR 式中,Uk,cR为k位残基R以c为阈值时的上半球暴露比,Dk,cR为k位残基R以c为阈值时下半球暴露比,Cu,k,cR为k位残基R以c为阈值时上半球的接触数,Ck,cR为k位残基R以c为阈值时上下半球的总接触数; 在接触网络中,进一步分析每个残基的局部网络属性,计算每个残基的聚类系数ClusteringCoefficient和介数中心性BetweennessCentrality: 式中,CcR是残基R的聚类系数,TR是网络中通过残基R的三角形数量,degR是残基R在网络中的度数,为R残基的理论最大三角形数量; 式中,CBR是残基R的介数中心性,V是节点的集合,s和t是网络中的任意两个节点,σs,t是节点s到节点t的最短路径的总数,并且σs,t|R是通过节点s、节点t与残基R的最短路径数目;在该网络中定义:若σs,t=0,则 通过残基接触网络,提取蛋白质接触网络中的残基近距离相互作用特征;残基接触密度揭示残基的局部接触情况,半球暴露比例反映了残基在空间中的暴露特性,聚类系数和介数中心性则从网络属性角度刻画了残基在接触网络中的局部和全局重要性; 3基于Feature软件提取残基微环境理化特征: 通过Feature软件的featurize模块进行微环境采样,在原子水平上分析蛋白质结构,对每个残基的α碳原子为中心的区域进行微环境采样,在微环境采样中,定义微环境的空间范围为半径为和的球壳; 使用Feature软件的Atomselect模块,选择目标残基的α碳原子,逐一对每个残基进行微环境特征化,特征化的内容包括球体和球壳内的物理、化学和结构特性: 根据元素水平提取球壳或球体内各种元素的数量,包括:任意元素数量ELEMENT_IS_ANY、碳元素数量ELEMENT_IS_C、氮元素数量ELEMENT_IS_N、氧元素数量ELEMENT_IS_O、硫元素数量ELEMENT_IS_S、除碳、氮、氧、硫的其它元素数量ELEMENT_IS_OTHER; 根据原子水平提取球壳或球体内各种原子的数量,包括: 与氧原子相连的碳原子数量ATOM_TYPE_IS_C、侧链上的终端碳原子数量ATOM_TYPE_IS_CT、与氨基碳原子相连的碳原子数量ATOM_TYPE_IS_CA、氨基上的氮原子数量ATOM_TYPE_IS_N、PDB文件中结构原子标识为N2的原子数量ATOM_TYPE_IS_N2、PDB文件中结构原子标识为N3的原子数量ATOM_TYPE_IS_N3、与α碳原子相连的氮原子数量ATOM_TYPE_IS_NA、与α碳原子相连的双键氧原子数量ATOM_TYPE_IS_O、侧链上与α碳原子最近的α碳原子的羧基双键氧原子数量ATOM_TYPE_IS_O2、与α碳原子相连的羟基氢原子数量ATOM_TYPE_IS_OH、硫原子ATOM_TYPE_IS_S数量、硫上的氢原子数量ATOM_TYPE_IS_SH、除以上原子外的所有原子数量ATOM_TYPE_IS_OTHER; 根据残基水平提取球壳或球体内各种电荷量,包括:原子部分电荷量PARTIAL_CHARGE、负电荷量NEG_CHARGE、正电荷量POS_CHARGE、考虑组氨酸的总电荷量CHARGE_WITH_HIS、不考虑组氨酸的总电荷量CHARGE; 根据原子水平提取球壳或球体内各种残基的数量,包括: 丙氨酸数量RESIDUE_NAME_IS_ALA、精氨酸数量RESIDUE_NAME_IS_ARG、天门冬酰胺数量RESIDUE_NAME_IS_ASN、天门冬氨酸数量RESIDUE_NAME_IS_ASP、半胱氨酸数量RESIDUE_NAME_IS_CYS、谷氨酰胺数量RESIDUE_NAME_IS_GLN、谷氨酸数量RESIDUE_NAME_IS_GLU、甘氨酸数量RESIDUE_NAME_IS_GLY、组氨酸数量RESIDUE_NAME_IS_HIS、异亮氨酸数量RESIDUE_NAME_IS_ILE、亮氨酸数量RESIDUE_NAME_IS_LEU、赖氨酸数量RESIDUE_NAME_IS_LYS、甲硫氨酸数量RESIDUE_NAME_IS_MET、苯丙氨酸数量RESIDUE_NAME_IS_PHE、脯氨酸数量RESIDUE_NAME_IS_PRO、丝氨酸数量RESIDUE_NAME_IS_SER、苏氨酸数量RESIDUE_NAME_IS_THR、色氨酸数量RESIDUE_NAME_IS_TRP、酪氨酸数量RESIDUE_NAME_IS_TYR、缬氨酸数量RESIDUE_NAME_IS_VAL、残基名字不属于以上所有残基名RESIDUE_NAME_IS_OTHER; 根据微环境中的各种残基和原子特性,统计球体或球壳内的整体理化性质,包括: 具有疏水性的残基数量RESIDUE_CLASS1_IS_HYDROPHOBIC、带电荷的残基数量RESIDUE_CLASS1_IS_CHARGED、具有极性的残基数量RESIDUE_CLASS1_IS_POLAR、不属于疏水性、极性且不带电荷的残基数量 RESIDUE_CLASS1_IS_UNKNOWN、具有非极性的残基数量RESIDUE_CLASS2_IS_NONPOLAR、RESIDUE_CLASS2_IS_POLAR与CLASS1区别的具有疏水性的残基数量、具碱性的残基RESIDUE_CLASS2_IS_BASIC、具有酸性的残基数量RESIDUE_CLASS2_IS_ACIDIC、不属于非极性类且不具酸碱性的残基数量RESIDUE_CLASS2_IS_UNKNOWN; 结合DSSP工具提供的二级结构特征,统计微环境中包含的各种二级结构的数量,包括: 二级结构类型为3圈α螺旋的数量SECONDARY_STRUCTURE1_IS_3HELIX、二级结构类型为4圈α螺旋的数量SECONDARY_STRUCTURE1_IS_4HELIX、二级结构类型为5圈α螺旋的数量SECONDARY_STRUCTURE1_IS_5HELIX、二级结构类型为连接α螺旋和β螺旋的短片段的数量SECONDARY_STRUCTURE1_IS_BRIDGE、二级结构类型为β-链和反β折叠的数量SECONDARY_STRUCTURE1_IS_STRAN、二级结构类型为转角的数量SECONDARY_STRUCTURE1_IS_TURN、二级结构类型为有规则弯曲的数量SECONDARY_STRUCTURE1_IS_BEND、二级结构类型不属于strand、helix、bend、bridge、turn、杂环的数量SECONDARY_STRUCTURE1_IS_COIL、杂原子的数量SECONDARY_STRUCTURE1_IS_HET、无法被DSSP识别的二级结构的数量SECONDARY_STRUCTURE1_IS_UNKNOWN、二级结构类型为α螺旋的数量SECONDARY_STRUCTURE2_IS_HELIX、二级结构类型为包括BRIDGE、BEND、TURN的β螺旋的数量SECONDARY_STRUCTURE2_IS_BETA、二级结构类型为无规则弯曲的数量SECONDARY_STRUCTURE2_IS_COIL、二级结构类型为杂环结构的数量SECONDARY_STRUCTURE2_IS_HET、不属于HELIX、BETA、COIL、HET的二级结构数量SECONDARY_STRUCTURE2_IS_UNKNOWN; 最后,统计球壳或球体内的特殊结构和官能团,包括:羟基HYDROXYL、酰胺AMIDE、胺AMINE、羰基CARBONYL、环系统RING_SYSTEM、肽PEPTIDE;以及原子水平的物理性质:范德华体积VDW_VOLUME、疏水性HYDROPHOBICITY、可移动性MOBILITY、溶剂可及性SOLVENT_ACCESSIBILITY; Feature软件通过分析功能相似蛋白质的结构,将蛋白质功能与其结构相关联;该Feature软件的核心思想是在原子水平分析蛋白质结构,采样每个原子或指定点集周围的小球体积,这些体积被称为微环境;微环境由一个特征向量的实数向量表示,特征向量包含球体或球壳内的物理化学特征信息;通过提取微环境信息,能够将蛋白质的复杂三维结构数据转化为能用于机器学习模型的数值特征; 4使用Python环境中的pandas工具包,将步骤1、步骤2、步骤3得到的二级结构特征、接触网络特征及残基微环境理化特征拼接起来,得到蛋白质的特征矩阵;通过特征提取模块,蛋白质的每个残基生成了258个特征描述。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华南农业大学,其通讯地址为:510642 广东省广州市天河区五山路483号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。