盈乾家智能科技(武汉)有限公司代佳斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉盈乾家智能科技(武汉)有限公司申请的专利基于动态特征识别的智能爬虫安全采集方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120658463B 。
龙图腾网通过国家知识产权局官网在2026-01-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510810397.9,技术领域涉及:H04L9/40;该发明授权基于动态特征识别的智能爬虫安全采集方法及系统是由代佳斌;胡涛;曾锋;聂晓斌设计研发完成,并于2025-06-17向国家知识产权局提交的专利申请。
本基于动态特征识别的智能爬虫安全采集方法及系统在说明书摘要公布了:本发明公开了一种基于动态特征识别的智能爬虫安全采集方法及系统,包括URL管理器、调度器、解析器、下载器和数据存储器。URL管理器用于添加和维护待爬取URL集合与已爬取URL集合,实现URL去重;调度器用于协调和分配下载任务;解析器用于分析目标网站的页面类型、结构、请求响应特征,自动调整爬取参数,优化页面访问频率,自动化验证验证码,分析页面深度,合规验证爬取内容;下载器用于模拟用户行为下载页面;数据存储器用于存储数据。本发明的优点为:使用动态特征识别方法完成了爬取参数动态调整,访问频率自适应,验证码自动化处理,爬取过程拟人化,爬取页面深度可控,爬取内容合规,实现了网络数据采集过程的自适应性、高效性和安全性。
本发明授权基于动态特征识别的智能爬虫安全采集方法及系统在权利要求书中公布了:1.基于动态特征识别的智能爬虫安全采集方法,其特征在于:包括如下步骤: S1.设置种子URL地址、目标字段名称、运行主机及输出数据源信息; S2.调度URL访问目标网站页面获取数据,采用页面类型分析法、页面结构分析法和请求响应分析法分析目标网站的页面类型、结构和请求响应特征; S3.若获取响应失败,则根据HTTP状态码,自动调整代理IP、动态生成User-Agent和添加完整的HTTP请求头,动态渲染后进入S2;若获取响应成功,则进入S4; S4.根据响应时间及错误率,采用指数退避算法公式枚举确定最优访问时间间隔,采用访问时间间隔成功概率公式动态设置概率计算调整实际访问时间间隔; S5.若目标网站页面出现验证码,采用图片验证码识别方法、滑动拼图点选文字验证码识别方法或短信验证码识别方法实现自动化验证; S6.模拟用户行为模块按照正常用户使用鼠标行为,采用机器学习算法模拟鼠标滑动速度、运动轨迹、点击间隔时长和页面停留时间行为,生成拟人化操作给网页下载模块; S7.进行网页加密和下载,完成页面解析,提取新URL加入URL管理器,并对比链接记录表进行URL去重; S8.使用回调函数获取当前爬取的页面深度,若当前深度大于5,则停止爬取,若当前深度小于等于5,则进入S9; S9.若下载页面过程中出现下载异常,进入S3; S10.若下载页面正常,启用安全合规模块按照robots.txt规则解析页面,去除对敏感字段的爬取; S11.将安全合规的数据储存至预先配置好的数据库中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人盈乾家智能科技(武汉)有限公司,其通讯地址为:430000 湖北省武汉市东西湖区金银湖办事处海口一路6号A08;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励