浙江工业大学徐新黎获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种碳中和领域中文文本的实体关系联合抽取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118585643B 。
龙图腾网通过国家知识产权局官网在2026-01-09发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410548218.4,技术领域涉及:G06F16/355;该发明授权一种碳中和领域中文文本的实体关系联合抽取方法及系统是由徐新黎;姚高超;杨旭华;马钢峰;李响设计研发完成,并于2024-05-06向国家知识产权局提交的专利申请。
本一种碳中和领域中文文本的实体关系联合抽取方法及系统在说明书摘要公布了:一种碳中和领域中文文本的实体关系联合抽取方法,针对碳中和的中文文本,利用Atom‑7B大模型得到文本句子的特征表示向量,然后通过PFN以联合抽取的方式得到文本中的实体关系三元组。以及提供一种碳中和领域中文文本的实体关系联合抽取系统,针对关系类型标注不平衡的训练数据,使用ChatGLM3接口对关系类型样本量少的文本句子进行数据增强;使用Atom‑7B大模型,通过在Embedding层添加噪声以及解码器层采用分层去掩码的策略,提取中文文本句子的特征表示向量;根据命名实体识别任务和关系抽取任务的难易程度,加入了动态损失函数,使PFN能关注更难的子任务。本发明提升了中文文本中抽取实体关系三元组的性能。
本发明授权一种碳中和领域中文文本的实体关系联合抽取方法及系统在权利要求书中公布了:1.一种碳中和领域中文文本的实体关系联合抽取方法,其特征在于,所述方法包括如下步骤: 步骤一,碳中和中文文本数据的收集:从中国碳核算数据库、全球实时碳数据、世界银行数据库网站获取中国和世界各国的碳排放数据,收集各省市的碳排放评价要求指南,在碳中和信息网,用网络爬虫的方法爬取碳中和政策标准、通知公告和相关信息,从指定段落中得到待抽取实体关系非结构化的碳中和中文文本,以及给定的本体约束集合,所述本体约束集合包括关系名称、头实体类型和尾实体类型,根据预设比例将已标注的碳中和中文文本数据划分为训练集D1和验证集D2,所述碳中和中文文本数据包括各样本所包含的主语、宾语、关系以及类别标签; 步骤二,用ChatGLM3对训练集D1进行数据增强:统计训练集D1中所有三元组中各种关系出现的次数,判断关系类型是否存在长尾分布情况,针对关系类型不平衡的训练数据,使用ChatGLM3接口对样本量少的关系类型进行数据增强,生成原文本有相同的关系三元组的样本集加入D1中; 步骤三,用扩充后的D1训练实体关系联合抽取模型:将D1的中文文本句子输入Embedding层,得到嵌入向量后添加噪声,依次输入分层去掩码的Atom-7B大模型和PFN模型,输出文本句子对应的实体和关系预测值,并通过自动调整命名实体识别和关系抽取的损失权重计算动态损失函数,根据损失梯度联合优化实体关系联合抽取模型的参数,并保存验证集D2上抽取性能最佳的模型参数; 步骤四:将没有标注的碳中和中文文本句子输入训练好的Atom-7B大模型,得到文本句子的特征表示向量后,再将特征表示向量传入PFN模块,输出实体关系三元组。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励