Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中电信数智科技有限公司谭尼平获国家专利权

中电信数智科技有限公司谭尼平获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中电信数智科技有限公司申请的专利一种网页爬虫的爬取时间频率选择方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115221386B

龙图腾网通过国家知识产权局官网在2025-12-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210968153.X,技术领域涉及:G06F16/951;该发明授权一种网页爬虫的爬取时间频率选择方法及装置是由谭尼平设计研发完成,并于2022-08-12向国家知识产权局提交的专利申请。

一种网页爬虫的爬取时间频率选择方法及装置在说明书摘要公布了:本发明涉及一种网页爬虫的爬取时间频率选择方法及装置,属于机器学习技术领域。方法包括:判断目标网站是否有反爬策略,若是,则获取所述目标网站的爬取时间频率临界值;构建训练数据,利用所述训练数据对模型进行训练,得到时间频率选择模型;调用所述时间频率选择模型,根据所述爬取时间频率临界值,输出最优的爬取时间频率。该方法能够自动选择针对目标网站的最优爬取时间频率,根据该最优爬取时间频率进行数据的爬取,提高了爬虫爬取数据的效率,减轻了技术人员的工作强度。

本发明授权一种网页爬虫的爬取时间频率选择方法及装置在权利要求书中公布了:1.一种网页爬虫的爬取时间频率选择方法,其特征在于,所述方法包括以下步骤: S1:判断目标网站是否有反爬策略,若是,则获取所述目标网站的爬取时间频率临界值; S2:构建训练数据,利用所述训练数据对模型进行训练,得到时间频率选择模型; S3:调用所述时间频率选择模型,根据所述爬取时间频率临界值,输出最优的爬取时间频率; 所述获取所述目标网站的爬取时间频率临界值包括: 从目标网站的IP地址库中选取一个没有被封的IP,以多个逐渐递增的不同时间频率爬取数据,并记录每次请求的执行结果,直至IP被封,得到爬取时间频率的临界值; 所述构建训练数据,利用所述训练数据对模型进行训练,得到时间频率选择模型包括: 通过域名查询服务获取目标网站的域名对应的服务端IP列表,将服务端IP地址、爬取时间频率、爬取状态作为训练数据,对模型进行训练; 所述模型为梯度提升树GBDT模型,将训练数据中的服务端IP地址、爬取时间频率作为特征,爬取状态作为标签,训练所述GBDT模型,得到所述时间频率选择模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中电信数智科技有限公司,其通讯地址为:100036 北京市海淀区复兴路33号13层东塔13层1308室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。