金现代信息产业股份有限公司黎峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉金现代信息产业股份有限公司申请的专利非结构化数据文档的标注方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115599908B 。
龙图腾网通过国家知识产权局官网在2025-07-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211371394.2,技术领域涉及:G06F16/34;该发明授权非结构化数据文档的标注方法及系统是由黎峰;许新颖;于沺;邵柄莱;察兴坤;张永强;贾玉强设计研发完成,并于2022-11-03向国家知识产权局提交的专利申请。
本非结构化数据文档的标注方法及系统在说明书摘要公布了:本发明公开了非结构化数据文档标注方法及系统;其中所述方法,包括:构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务;进行数据标注,对数据标注结果进行审核,判断审核是否通过,如果是判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料;如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理。本发明通过知识图谱和标注工具结合的方式实现标注数据的可视化,而且在数据标注完成以后,可以在线预览标注数据。
本发明授权非结构化数据文档的标注方法及系统在权利要求书中公布了:1.一种非结构化数据文档标注方法,其特征是,包括: (1)构建标注规则;上传待标注文档,对待标注文档进行审核;创建标注任务; (2)进行数据标注,对数据标注结果进行审核,进入(3); (3)判断审核是否通过,如果是就进入(4);如果否就返回(2); (4)判断任务模式是语料模式还是入图模式,如果是语料模式,则直接将标注结果生成语料,生成语料的过程包括: 将标注结果从数据库取出,转化为包含实例、关系、属性的json格式的txt文本;所述将标注结果生成语料,根据不同用途生成实体语料、关系语料和属性语料; 如果是入图模式,则对标注结果进行对齐操作,将对齐操作后的结果进行入图处理,其中对齐操作的具体过程包括:对标注数据的同一实体类型的任意两个实体,计算两个实体之间的文本相似度;将文本相似度高于设定阈值的实体进行对齐操作; 其中,对齐操作的具体过程还包括: 接收对齐指令,将至少两个待对齐的实体的名称、属性和关系进行显示; 接收用户从两个待对齐的实体中所选择的实体,对所选择的实体进行保存; 根据用户选择,对实体的属性进行合并,所述合并是指保存两个待对齐实体的所有属性;或根据用户选择,对实体的属性进行第一次覆盖,所述第一次覆盖,是指只保留被用户选中的实体的属性; 根据用户选择,对实体的关系进行合并去重,所述合并去重,是指将两个待对齐实体的关系进行合并,去除重复关系;或根据用户选择,对实体的关系进行第二次覆盖,所述第二次覆盖是指只保留被用户选中的实体关系; 将对齐后的实体的名称、属性和关系进行数据预览;对对齐后的实体的名称、属性和关系进行数据保存。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人金现代信息产业股份有限公司,其通讯地址为:250000 山东省济南市高新区新泺大街1166号奥盛大厦2号楼21层东区2101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。