浙江大学刘兴高获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学申请的专利一种基于强编码和中文分词的中文文本分拣系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115391544B 。
龙图腾网通过国家知识产权局官网在2025-09-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211244693.X,技术领域涉及:G06F16/353;该发明授权一种基于强编码和中文分词的中文文本分拣系统是由刘兴高;赵世强;张逸然;王文海;张志猛;张泽银设计研发完成,并于2022-10-12向国家知识产权局提交的专利申请。
本一种基于强编码和中文分词的中文文本分拣系统在说明书摘要公布了:本发明公开了一种基于强编码和中文分词的中文文本分拣系统,该系统基于强编码模型和中文分词数据实现中文文本分拣,首先获取包含大量中文文本及对应标签的数据库,采用带标签的中文文本数据作为输入,对中文文本进行分词后再编码成机器可识别格式,将该编码后的句子输入中文文本分拣模型进行模型训练,得到训练好的模型便可用于新获取的中文文本自动分拣。本发明实现了自动化、高准确率的中文文本分拣,考虑了中文字词的前后关系,克服了人工进行文本分拣效率低以及传统方法准确率低的不足,可广泛应用并有助于军事情报分拣、新闻主题分类和电影评论分类等领域的智能化。
本发明授权一种基于强编码和中文分词的中文文本分拣系统在权利要求书中公布了:1.一种基于强编码和中文分词的中文文本分拣系统,其特征在于:包含中文文本数据库、预处理模块、中文文本分拣建模模块、中文文本自动分拣模块、分拣结果输出模块; 其中,所述中文文本数据库用以存放历史的中文文本数据及新获取的中文文本,同时该模块实时更新新获取的用于分拣的中文文本,完善数据库内容; 所述预处理模块用以对中文文本数据进行处理,包括以下步骤: A对中文文本句子首先采用jieba分词器将句子拆分为字和词; B将这些中文的字和词转化数字形式,具体为:把所有字词读入一个列表,删掉其中不符合现代文字结构的字词,并统计每个出现的字词的频率,删掉出现频率2次的不常用字词,最后,将列表中剩余的第i个字词采用one-hot编码得到wi=[0,0,...1,…0,0],其中除了第i个值为1,其余的值都为0,并通过下式得到每个字或词对应的256维的一个表示向量xi xi=Wwi 其中,W为提前用数据库中数据预训练好的转换矩阵;第i个字词对应的位置pi也是一个256维的向量 最终的编码值yi=xi+pi,其中编码维数dmodel=256,c1,c2为位置调控系数,值在0-1之间; 从数据库中提取80%的数据作为训练集,剩余数据作为验证集,通过验证集来查看模型的识别效果; 所述中文文本分拣建模模块基于训练集自动学习如何提取有效句子表示特征并进行分拣,具体为:将编码后得到的训练集中的中文文本和标签输入由6个transformer的encoder组成的模型中,训练并更新模型参数; 通过观察模型在验证集中的测试结果,来进一步修改selfattention中multi-head的个数,从而对模型进行优化;最终得到模型C; 所述中文文本自动分拣模块模块用于对预处理模块处理后的待分拣的中文文本进行分拣,得到分拣结果; 所述分拣结果输出模块对识别得到的结果进行输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。