山东亿云信息技术有限公司陈通获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东亿云信息技术有限公司申请的专利基于统计规则的族群网页正文提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115510307B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211200790.9,技术领域涉及:G06F16/9532;该发明授权基于统计规则的族群网页正文提取方法及系统是由陈通;展一鸣;李晓;王瑞霜;杨春;纪丽萍设计研发完成,并于2022-09-29向国家知识产权局提交的专利申请。
本基于统计规则的族群网页正文提取方法及系统在说明书摘要公布了:本发明提供了一种基于统计规则的族群网页正文提取方法及系统,以网页族群的形式获取一组待处理网页,得到网页族群列表;遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表;遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合;遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置;选取从起始位置到结束位置的文本,输出正文文本列表;本发明无需人工参与,无需特殊规则,能够提取不同形式的网页文本,极大的提高了提取精度和提取效率。
本发明授权基于统计规则的族群网页正文提取方法及系统在权利要求书中公布了:1.一种基于统计规则的族群网页正文提取方法,其特征在于: 包括以下过程: 以网页族群的形式获取一组待处理网页,得到网页族群列表; 遍历网页族群列表,提取每个网页的原始HTML代码,形成HTML代码列表; 遍历HTML代码列表,提取每个网页中的所有文本内容,根据HTML结构,将全部网页的各长文本转化为短文本字符串列表,并保留文本顺序;其中,各短文本字符串列表均属于整个网页族群的文本列表集合; 建立去重字典,去重字典的键为文本字符串,去重字典的值为字符串在整个网页族群出现的次数,遍历文本列表集合并对每个短文本字符串列表去除重复的字符串,得到去重后的短文本字符串列表,并依此填充去重字典; 字符串在去重字典中对应的值大于设定阈值则被剔除,否则字符串被保留; 遍历文本列表集合并对每个短文本字符串列表定位起始位置和结束位置; 选取从起始位置到结束位置的文本,输出正文文本列表。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东亿云信息技术有限公司,其通讯地址为:250014 山东省济南市高新区新泺大街2008号银荷大厦B座4层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。