杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司彭敬伟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司申请的专利网页数据采集方法、电子设备及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121167008B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511679319.6,技术领域涉及:G06F16/951;该发明授权网页数据采集方法、电子设备及计算机可读存储介质是由彭敬伟;黄塑哲;李邦;李晓平;张晗烁设计研发完成,并于2025-11-17向国家知识产权局提交的专利申请。
本网页数据采集方法、电子设备及计算机可读存储介质在说明书摘要公布了:本申请提供一种网页数据采集方法、电子设备及计算机可读存储介质,该方法包括:获取参考网页的原始HTML文本;对原始HTML文本进行预处理,得到参考网页对应的目标HTML文本,目标HTML文本中包括与数据采集相关的多个属性标签;根据目标HTML文本以及预先训练得到的规则生成大模型,生成数据采集规则信息,数据采集规则信息中包括至少一个内容采集规则项以及至少一个页面关系规则项,各内容采集规则项分别用于描述网页中一项内容元素的采集规则,各页面关系规则项分别用于描述网页之间的跳转规则;基于数据采集规则信息,对网络中的网页进行数据采集。该方法具有较强的通用性和重用性,且能够实现全链路的自动化数据采集。
本发明授权网页数据采集方法、电子设备及计算机可读存储介质在权利要求书中公布了:1.一种网页数据采集方法,其特征在于,包括: 获取参考网页的原始超文本标记语言HTML文本; 对所述原始HTML文本进行预处理,得到所述参考网页对应的目标HTML文本,所述目标HTML文本中包括与数据采集相关的多个属性标签; 根据所述目标HTML文本以及预先训练得到的规则生成大模型,生成数据采集规则信息,所述数据采集规则信息中包括至少一个内容采集规则项以及至少一个页面关系规则项,各所述内容采集规则项分别用于描述网页中一项内容元素的采集规则,各所述页面关系规则项分别用于描述网页之间的跳转规则; 基于所述数据采集规则信息,对网络中的网页进行数据采集; 所述根据所述目标HTML文本以及预先训练得到的规则生成大模型,生成数据采集规则信息,包括: 根据所述目标HTML文本,生成第一提示词; 将所述第一提示词输入所述规则生成大模型,由所述规则生成大模型输出所述参考网页对应的多个第一参考规则项,各所述第一参考规则项分别为一个所述内容采集规则项或一个所述页面关系规则项; 若所述参考网页为列表页,则获取所述参考网页中至少一个列表链接所链接到的详情页的HTML文本; 根据各详情页的HTML文本,生成各详情页对应的第二提示词; 将所述第二提示词输入所述规则生成大模型,由所述规则生成大模型输出各所述详情页对应的多个第二参考规则项,各所述第二参考规则项分别为一个所述内容采集规则项; 分别测试所述多个第一参考规则项中的各内容采集规则以及各详情页对应的各第二参考规则项的信息抽取结果; 根据所述多个第一参考规则项中的各内容采集规则项以及各详情页对应的各第二参考规则项的信息抽取结果,从所述多个第一参考规则项中的各内容采集规则项以及各详情页对应的各第二参考规则项中选择出所述数据采集规则信息中的各所述内容采集规则项,并将所述多个第一参考规则项中的各页面关系规则项分别作为所述数据采集规则信息中的一个页面关系规则项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州恒生聚源信息技术有限公司;上海恒生聚源数据服务有限公司,其通讯地址为:310018 浙江省杭州市钱塘区白杨街道科技园路2号2幢1701-1714室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励