恭喜厦门安胜网络科技有限公司蔡淑苹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜厦门安胜网络科技有限公司申请的专利一种基于深度学习的文本训练增强方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113887724B 。
龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111233752.9,技术领域涉及:G06N3/045;该发明授权一种基于深度学习的文本训练增强方法与系统是由蔡淑苹;黄惠海;魏丽珍;陈贵民;周剑宇;陈思德设计研发完成,并于2021-10-22向国家知识产权局提交的专利申请。
本一种基于深度学习的文本训练增强方法与系统在说明书摘要公布了:本发明给出了一种基于深度学习的文本训练增强方法与系统,包括首先针对特定需求获取对应的文本样本,并对文本样本进行初步处理;再将预处理数据分为训练集、验证集、测试集;最后通过特定的格式转化成机器语言,进行深度学习训练,得到一个深度学习模型,使用测试集对模型结果进行验证,对验证后发现问题的数据进行加强后加入原本的文本样本中,重新进行训练得到新的模型。对数据进行加强包括语句句式转换、不同词语之间的结合,还包括对词频较高的词语创设不同语境中都适用的句式,最终加强了原始的文本样本。使得在数据样本单一、数据样本数量少的情况下,依然能够进行文本训练,从而提高了信息甄别的准确率。
本发明授权一种基于深度学习的文本训练增强方法与系统在权利要求书中公布了:1.一种基于深度学习的文本训练增强方法,其特征在于,包括以下步骤: S1:针对待训练文本进行初步的数据分析从而将所述待训练文本划分在一定范围内然后在所述一定范围内对所述待训练文本进行检索,获取所述待训练文本的定位再获取其中各个词语的词频,将词频超过一定数量的词语作为关键词;设置能够在多种不同的语境中被使用的句式,以所述句式作为创建样本的模板将所述待训练文本中的词语分别加入所述句式中得到新样本,利用所述新样本对所述待训练文本进行加强,具体还包括:针对所述待训练文本中的各个词语执行如下步骤: 设置能够在多种不同的语境中被使用的句式,所述句式中包含文本不确定并且可填入任意词语的固定位置,且所述句式中除所述固定位置外的文本均为确定信息; 将所述待训练文本中的各个词语分别填入所述固定位置,根据各个词语在不同情境中的用法不同来创建包含各个词语的正样本;同时根据各个词语在不同情境中的相反含义来创建包含各个词语的负样本; 最后利用所述正样本增强所述待训练文本的正向数据,利用所述负样本增强所述待训练文本中的干扰数据; S2:对所述待训练文本打上标签后再将其划分为训练集、验证集、测试集,将所述训练集、所述验证集和所述测试集中的文本所使用的语言经过预处理后成为机器所使用的语言,再利用预处理后的所述训练集、所述验证集和所述测试集进行深度学习训练得到训练结果模型,再使用所述测试集验证所述训练结果模型的测试效果; S3:若所述测试效果不符合所需的要求,则取出所述测试效果中出错的数据记为问题数据,对所述问题数据进行加强后跳转至所述S2;若所述测试效果符合所需的要求则输出所述训练结果模型; 对所述问题数据进行加强包括:针对所述问题数据进行语句句式的转换之后,生成所述问题数据对应的新数据加入所述待训练文本中;对所述问题数据中包含的关键词进行不同程度、不同顺序的结合之后,生成所述问题数据对应的新数据加入所述待训练文本中,具体包括:对所述问题数据中的关键词进行不同程度的拆词,再用拆词后得到的多个词进行随机组词,得到所述关键词所对应的多个新词,根据所述多个新词将所述关键词所在的语句变为多条新语句加入到所述待训练文本中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门安胜网络科技有限公司,其通讯地址为:361008 福建省厦门市集美区软件园三期诚毅大街358号1502-5单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。