2020-04-13 17:23发布
2、scrapy
3、selenium+chrome + PhantomJS(抓取动态网页,不推荐)
4、Splash(抓取动态网页,推荐)
1、BeautifulSoup(入门级)
2、pyquery (类似jQuery)
3、lxml
4、parsel
5、scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)
1、txt文本
2、csv文件
3、sqlite3 (python自带)
4、MySQL
5、MongoDB
四、其他工具
1、execjs :执行js
Python爬虫:execjs在python中运行javascript代码
2、pyv8: 执行js
mac安装pyv8模块-JavaScript翻译成python
3、html5lib
Python爬虫:scrapy利用html5lib解析不规范的html文本
最多设置5个标签!
一、页面下载器
1、requests(必学)
2、scrapy
3、selenium+chrome + PhantomJS(抓取动态网页,不推荐)
4、Splash(抓取动态网页,推荐)
二、页面解析器
1、BeautifulSoup(入门级)
2、pyquery (类似jQuery)
3、lxml
4、parsel
5、scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)
三、数据存储
1、txt文本
2、csv文件
3、sqlite3 (python自带)
4、MySQL
5、MongoDB
四、其他工具
1、execjs :执行js
Python爬虫:execjs在python中运行javascript代码
2、pyv8: 执行js
mac安装pyv8模块-JavaScript翻译成python
3、html5lib
Python爬虫:scrapy利用html5lib解析不规范的html文本
一周热门 更多>