广州钛动科技股份有限公司华健贺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州钛动科技股份有限公司申请的专利基于性能监控的分布式爬虫系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120653820B 。
龙图腾网通过国家知识产权局官网在2026-02-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510561757.6,技术领域涉及:G06F16/951;该发明授权基于性能监控的分布式爬虫系统是由华健贺;姚福设计研发完成,并于2025-04-30向国家知识产权局提交的专利申请。
本基于性能监控的分布式爬虫系统在说明书摘要公布了:本发明一种基于性能监控的分布式爬虫系统中,其中,初始化配置模块,用于配置所述分布式爬虫系统运行的初始化配置项;主从通信控制模块,用于基于所述初始化配置项建立master节点和slave节点之间的通信连接,所述通信连接使得master节点对slave节点的性能进行监控以将爬虫任务分发到性能满足设定性能指标的slave节点上运行;环境依赖管理模块,用于将爬虫任务所在爬虫项目的依赖包下载到所述slave节点上,以使得所述爬虫任务在所述slave节点上可运行;数据存储模块,用于对所述爬虫任务在所述slave节点上进行运行时得到爬虫数据进行存储。
本发明授权基于性能监控的分布式爬虫系统在权利要求书中公布了:1.一种基于性能监控的分布式爬虫系统,其特征在于,包括: 初始化配置模块,用于配置所述分布式爬虫系统运行的初始化配置项; 主从通信控制模块,用于基于所述初始化配置项建立master节点和slave节点之间的通信连接,所述通信连接使得master节点对slave节点的性能进行监控以将爬虫任务分发到性能满足设定性能指标的slave节点上运行; 环境依赖管理模块,用于将爬虫任务所在爬虫项目的依赖包下载到所述slave节点上,以使得所述爬虫任务在所述slave节点上可运行; 数据存储模块,用于对所述爬虫任务在所述slave节点上进行运行时得到爬虫数据进行存储; 其中,上述环境依赖管理模块的工作时包括如下步骤: 依赖包解析:依赖包配置子模块对对象服务器存储的项目配置文件进行解析,提取所有依赖项,并确定每个依赖项的版本范围要求; 节点信息收集:收集每个slave节点的网络带宽、可用存储容量信息; 下载优先级计算:对于每个slave节点,计算每个依赖项的下载优先级,并对依赖项进行排序; 下载任务分配:根据下载优先级和存储容量限制,确定在每个slave节点下载哪些依赖项,并为每个下载任务分配线程数; 并发下载:在每个slave节点上启动多线程并发下载任务,根据计算得到的下载时间进行监控和优化; 其中,依赖包下载引入以下数学模型:对于每个分配了爬虫任务的slave节点,考虑网络状况、存储容量和依赖包的可用性因素: 设是slave节点与对象服务器之间的网络带宽,是slave节点的可用存储容量,对于每个依赖项,设是对象服务器上可用的版本集合,是依赖包的大小; 定义一个下载优先级函数,用于评估在slave节点下载依赖项的优先级: ,其中: 、、是权重系数,且,分别表示版本匹配度、存储容量和网络带宽在下载决策中的重要程度; 是版本匹配度函数,用于计算版本范围与可用版本集合的匹配程度,定义为: ,其中表示集合的基数, 是依赖包的平均下载时间,通过历史下载数据统计得到; 根据下载优先级,对所有依赖项进行排序,优先下载优先级高的依赖包,同时,需要满足存储容量的限制:,其中是一个布尔函数,表示是否在slave节点下载依赖项。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州钛动科技股份有限公司,其通讯地址为:510000 广东省广州市天河区华观路时代E-PARK 8栋02(钛动科技中心);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励