Python中比较常用的爬虫组合工具有哪些?

2020-04-13 17:23发布

2条回答
灰机带翅膀
2021-08-26 16:06


一、页面下载器

1、requests(必学)

2、scrapy

3、selenium+chrome + PhantomJS(抓取动态网页,不推荐)

4、Splash(抓取动态网页,推荐)



二、页面解析器

1、BeautifulSoup(入门级)

2、pyquery (类似jQuery)

3、lxml

4、parsel

5、scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)



三、数据存储

1、txt文本

2、csv文件

3、sqlite3 (python自带)

4、MySQL

5、MongoDB


四、其他工具

1、execjs :执行js

Python爬虫:execjs在python中运行javascript代码

2、pyv8: 执行js

mac安装pyv8模块-JavaScript翻译成python

3、html5lib

Python爬虫:scrapy利用html5lib解析不规范的html文本



一周热门 更多>