浙大城市学院明朝燕获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙大城市学院申请的专利一种生物序列处理和模型训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114881131B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210446243.2,技术领域涉及:G06F18/241;该发明授权一种生物序列处理和模型训练方法是由明朝燕;陈湘竣设计研发完成,并于2022-04-26向国家知识产权局提交的专利申请。
本一种生物序列处理和模型训练方法在说明书摘要公布了:本发明提供了一种生物序列处理和模型训练方法,包括以下步骤:S1、获取生物基因序列的数据并对数据进行整合;S2、对数据进行预处理,对所读取的生物基因序列进行遍历,过滤出符合要求的生物基因序列;S3、构建训练模型所需的数据集,根据数据集内每一类别数据的数目对数据集进行微调,保证各类数据在数据集中的规模大致相等;S4、对数据集的数据进行数据集内各类数据的数量平衡以及基因数据长度平衡处理,得出训练集;S5、利用训练集训练具备反向互补网络的模型。本发明提出的方法能够在和传统基因分类识别方法准确度达到相近水平的基础上节约时间,并且能正确预测部分传统生物学方法无法正确分类的基因。
本发明授权一种生物序列处理和模型训练方法在权利要求书中公布了:1.一种生物序列处理和模型训练方法,其特征在于:包括以下步骤: S1、获取生物基因序列的数据并对数据进行整合; S2、对数据进行预处理,对所读取的生物基因序列进行遍历,过滤出符合要求的生物基因序列; S3、构建训练模型所需的数据集,根据数据集内每一类别数据的数目对数据集进行微调,保证各类数据在数据集中的规模大致相等; S4、对数据集的数据进行数据集内各类数据的数量平衡以及基因数据长度平衡处理,得出训练集; S5、利用训练集训练具备反向互补网络的模型; 所述步骤S4中, (a)对长度小于本地数据库中长度排序位于前5%位置的基因进行复制填充至所需长度:随机选择长度小于本地数据库中长度排序位于前5%位置的的基因上的某一个碱基作为自我复制片段的起始位置,从起始位置到该基因序列的最后一个碱基之间的这段基因序列就是用作自我复制填充的基因序列片段,再将这一基因片段填充到原基因序列的末尾;重复上述操作,直到基因的长度达到所需要的长度; (b)对训练集数据不足的类进行数据集扩充:复制已有的某条生物基因序列的一部分,将其视为一条独立的并能够代表这个类的生物基因序列,从而达到平衡数据集的效果; (c)对完整长度的基因进行切分:采用滑动窗口采样法,每间隔一定的长度采样一个基因片段,该基因片段即作为模型训练时的输入数据,也称为基因序列的子序列,当间隔的长度足够小时,可以采样出充足的基因片段; 所述步骤S5中, S01:在生物基因序列转化成数字编码的表达上,采用one-hot编码、Skip-Gram、CBOW或Elmo模型来对生物基因进行预训练,并输出生物基因各个碱基的向量表示,将其作为本方法的输入数据; S02:采用序列反向互补处理,在模型训练的同时输入DNA链及其互补链到模型内进行训练,并行使用两个独立的分支网络结构来分别处理两条不同的数据,两个网络之间每一对相同的网络层之间共享权值参数,在从最后一层输出数据之前,将两条链的数据合并输出最终的预测结果; S03:训练模型时,根据不同的子序列长度、滑动窗口提取子序列的间隔长度以及训练模型使用的深度学习网络种类,灵活地调整参数并训练不同的模型;在训练过程中,保存性能最佳的模型参数,以供模型测试时调用最佳模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙大城市学院,其通讯地址为:310015 浙江省杭州市拱墅区湖州街51号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。