【Python基础】常见的分布式网络爬虫架构有什么

2021-02-02 10:11发布

3条回答
赵小刀
2021-02-23 09:16

首先爬虫框架有三种 分布式爬虫:Nutch JAVA单机爬虫:Crawler4j,WebMagic,WebCollector 非JAVA单机爬虫:scrapy 第一类:分布式爬虫优点:海量URL管理 网速快缺点:Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取

一周热门 更多>