北京理工大学张华平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于知识驱动的网页表格抽取与结构化处理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116628301B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310420021.8,技术领域涉及:G06F16/951;该发明授权一种基于知识驱动的网页表格抽取与结构化处理方法是由张华平;雷沛钶;李玉岗设计研发完成,并于2023-04-19向国家知识产权局提交的专利申请。
本一种基于知识驱动的网页表格抽取与结构化处理方法在说明书摘要公布了:本发明涉及一种基于知识驱动的网页表格抽取与结构化处理方法,属于计算机科学中的信息处理技术领域。该方法包括:解析Web网页内容数据,判断是否存在表格;若存在表格,提取所有表格的内容并存储;获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;对表格项内容进行匹配,得到每一个表项对应的标签;根据表项标签,获取行列标签;计算行列置信度,判断表头实体属性;以及生成包括实体、属性、以及属性值的结构化三元组。本发明通过融合规则与自然语言处理技术,基于知识库对网页表格数据进行抽取解析,使得结构化后的信息更加清晰、准确、和实用,为各种装备性能参数的构建提供技术支持,具有很大的实用价值。
本发明授权一种基于知识驱动的网页表格抽取与结构化处理方法在权利要求书中公布了:1.一种基于知识驱动的网页表格抽取与结构化处理方法,其特征在于:所述方法包括步骤:S1,解析Web网页内容数据,判断是否存在表格;S2,若存在表格,提取所有表格的内容并存储;S3,获取表格后,对每一行数据和每一列数据进行解析,判断是实体还是属性;S4,对表项内容进行匹配,得到每一个表项对应的标签,对表项内容进行匹配的方法为:对一个表格中的所有表项做正则匹配,按照存储表格的格式同样存储每一个表项对应的标签模式,对于未匹配到的,则标签赋为“Not_Know”;默认表格第一行或第一列为候选实体或属性,不做赋标签处理;S5,根据表项标签,获取行列标签,获取行列标签方法为:除第一行外,对剩余行的每一行的表项标签做统计,若该行中“Not_Know”占据一大半,即“Not_Know”标签数据超过此行表项数量的二分之一,则此行的标签为None;否则,除去此行中的“Not_Know”标签;若剩下的标签一致,返回True;若剩下标签不一致,返回False;除第一列外,对剩余列的每一列的表项标签做统计;若该列中“Not_Know”占据一大半,即“Not_Know”标签数据超过此列表项数量的二分之一,则此列的标签为None;否则,除去此列中的“Not_Know”标签;若剩下的标签一致,返回True;若剩下标签不一致,返回False;S6,计算行列置信度,判断表头实体属性,首先通过公式计算行列置信度: 置信度=, 其中,指行列表中标签为True的个数,表示除第一行或第一列外的总行数或总列数;若该表格中行置信度列置信度,则行表头为属性,列表头为实体;若该表格中行置信度列置信度,则行表头为实体,列表头为属性;若该表格中行置信度=列置信度,则默认行表头为属性,列表头为实体;以及S7,生成结构化三元组。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励