北京建筑大学徐跃家获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京建筑大学申请的专利一种古文文本语义理解分隔方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119886134B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411963910.X,技术领域涉及:G06F40/284;该发明授权一种古文文本语义理解分隔方法及系统是由徐跃家;张鑫浩;陈未;严鑫;金心怡;杨一诺;李煜设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本一种古文文本语义理解分隔方法及系统在说明书摘要公布了:本发明属于文本处理技术领域,提供了一种古文文本语义理解分隔方法及系统;包括:S1、收集并生成古文语料数据集;S2、进行数据预处理,并划分为训练集和验证集;S3、将训练集输入至Llama3.2模型进行训练,扩展模型的词汇表;S4、利用扩展后的模型词汇表重新初始化词嵌入层,得到扩展Llama3.2模型;S5、生成优化后的古文标注语料集;S6、扩展Llama3.2模型进行训练和调整;S7、使用验证集对模型进行评估和再次调整;S8、使用自适应优化算法对模型的参数进行优化,生成分隔模型;S9、将古文文本输入至分隔模型,对古文文本进行古文分词和词性标注。本发明可以提升古文分词的准确性,实现精准的词性标注,适用于复杂的古文语法结构,支持多场景应用扩展。
本发明授权一种古文文本语义理解分隔方法及系统在权利要求书中公布了:1.一种古文文本语义理解分隔方法,其特征在于,包括以下步骤: S1、收集古文文本数据,生成古文语料数据集; S2、对古文语料数据集进行预处理,生成标注数据集,并将标注数据集划分为训练集和验证集; S3、将训练集输入至Llama3.2模型,对Llama3.2模型进行训练,并扩展Llama3.2模型的古文词汇表; S4、将经训练的Llama3.2模型作为基础模型,利用扩展后的Llama3.2模型词汇表重新初始化词嵌入层,得到扩展Llama3.2模型; S5、将古文分词任务和词性标注任务设计为序列标注,对步骤S2中的训练集进行序列标注,形成优化后的古文标注语料集; S6、使用优化后的古文标注语料集,对步骤S4中得到的扩展Llama3.2模型进行训练,并引入损失函数对模型进行调整,得到调整Llama3.2模型; S7、使用步骤S2中的验证集,对调整后的Llama3.2模型进行评估,并引入损失函数再次对模型进行调整,判断再次调整后的模型预测值与验证集中的实际值的差异是否符合预设标准,如果不符合,进行优化; S8、使用自适应优化算法对模型预测值不符合预设标准的Llama3.2模型的参数进行优化,并降低模型的学习率,将优化后的模型记为分隔模型; S9、将古文文本输入至分隔模型,对古文文本进行古文分词和词性标注,输出古文文本结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京建筑大学,其通讯地址为:100044 北京市西城区展览馆路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。