爬虫框架或者模块有哪些？哪个好用呀？_Python

3条回答

给你三个亿

2楼 · 2020-03-31 19:04

爬虫框架中比较好用的是 Scrapy 和PySpider

撸串儿去不

3楼 · 2020-12-07 20:09

1、Scrapy框架

Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。

2.PySpider

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器

3.Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用python开发的可用于提取文章内容的程序。

IT学习助手 - qq：2676427015

4楼 · 2022-04-21 16:05

Python 自带：urllib、urllib2

第三方：requests

框架： Scrapy

urllib 和 urllib2 模块都做与请求 URL 相关的操作，但他们提供不同的功能。

urllib2：　urllib2.urlopen 可以接受一个 Request 对象或者 url，（在接受 Request 对象时候，并以此可以来设置一个 URL 的 headers），urllib.urlopen 只接收一个 url。urllib 有 urlencode,urllib2 没有，因此总是 urllib，urllib2 常会一起使用的原因。

scrapy 是封装起来的框架，它包含了下载器，解析器，日志及异常处理，基于多线程，twisted 的方式处理，对于固定单个网站的爬取开发，有优势，但是对于多网站爬取，并发及分布式处理方面，不够灵活，不便调整与括展。

request 是一个 HTTP 库，它只是用来，进行请求，对于 HTTP 请求，他是一个强大的库，下载，解析全部自己处理，灵活性更高，高并发与分布式部署也非常灵活，对于功能可以更好实现。

Scrapy 优点：

scrapy 是异步的；

采取可读性更强的 xpath 代替正则；

强大的统计和 log 系统；

同时在不同的 url 上爬行；

支持 shell 方式，方便独立调试；

写 middleware,方便写一些统一的过滤器；

通过管道的方式存入数据库

Scrapy 缺点：

基于 python 的爬虫框架，扩展性比较差；

基于 twisted 框架，运行中的 exception 是不会干掉 reactor，并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉。

相关问题推荐

Python爬虫技术现在还吃香吗？python爬虫 爬虫 2022-02-21 14:15

回答 5

现在是大数据人工智能时代，数据是核心资源。但大部分企业是没有数据的，或者数据很少。要得到数据，要么花钱购买，要么使用爬虫进行爬取。所以，爬虫是大数据和人工智能的基础。这是智联招聘网站爬虫岗位最新的招聘信息。可以看出工资水平还是相当高的。在掌...
分布式爬虫框架有哪些？爬虫 2022-02-21 14:14

回答 1

scrapy-redis可以
网络爬虫是什么，可以只学这一个东西吗爬虫 2022-02-21 14:14

回答 1

简单理解就是去网上通过一定的技术手段获取想要的数据之类的，学习这个的话需要一定的Python知识基础不是能直接学的，需要一步一步的来
Python爬虫抓取都需要学那些内容 python爬虫 爬虫 2022-02-21 14:14

回答 2

爬虫也是python一个很重要的一个应用方向，那么爬虫需要哪些知识呢？1 要具备扎实的python语法基础，这是一切的根基2 对前端知识有一定的了解，起码做到能看懂3 如何获取目标数据：requests模块等4 如何解析目标数据：正则，xpath，jsonpath等5 如何做到做到...
爬虫学起来难吗？爬虫 2022-02-21 14:13

回答 2

爬虫学起来挺简单的，需要自己多动手才行
请问什么是爬虫？爬虫 2022-02-21 14:13

回答 3

我目测不是在地上蛄蛹蛄蛹的虫子
java有什么库和模块能用于爬虫的爬虫 2022-02-21 14:13

回答 1

referer：有的源代码有，有的没有;它代表的是你是从哪个页面跳转到这个页面的，即：你的下一个页面。user-agent：每个源代码都有这一项;cookie：绝大部分是通过我们访问页面的时候给我们返回来的;urllib是不能进行反爬的;urllib模块可以提供进行urlencode的方...
python涉及到爬虫吗？python爬虫 爬虫 2022-02-21 14:13

回答 4

爬虫是python的一个使用方向，包含网页数据爬取和手机app数据爬取。爬下来数据之后，还有数据存储和清洗等工作要做。爬虫程序代码编写完成，还需要进行部署、启动、暂停、维护等一系列工作。现在是大数据人工智能时代，大数据的主要来源之一就是爬虫。因此，...
有没有前后端分离的python爬虫系统推荐？python爬虫 爬虫 2022-02-21 14:13

回答 3

小伙伴们，大家好！这次来填坑了，关于前后端分离这个话题，我必须要交作业了，因为在私信里实在被问得太频繁了。前后端分离的开发模式，这两年确实被炒得如火如荼，导致这个话题也成了面试极其爱问的一个问题，尤其是换工作、跳槽，之前不管你是做后端，还是...
python爬虫学习教程哪个好？python爬虫 爬虫 2022-02-21 14:11

回答 2

转载请注明作者和出处：http://blog.csdn.net/c406495762Github代码获取：https://github.com/Jack-Cherish/python-spiderPython版本：Python3.x运行平台：WindowsIDE：Sublimetext3 更多教程，请查看：https://cuijiahua.com/blog/spider/ 一前言**强烈建议...
python中，进行爬虫抓取怎么样能够使用代理I python python爬虫 2021-01-08 11:26

回答 7

代理ip网址http://www.goubanjia.com/http://www.ip181.com/https://www.kuaidaili.com/python 环境安装requests库安装bs4库proxies设置代理服务器地址proxies = {'http': 'http://61.155.164.110:3128'}http://www.goub......
python里的爬虫是可以随便爬数据的吗？爬虫 2020-04-07 15:30

回答 1

爬虫采集数据叫做网络数据，是指非传统数据源，这种类型的数据可以是结构化的，也可以是非结构化的（更有可能的），可以由网络链接，文本数据，数据表，图像，视频等组成。网络爬虫可以根据你的不同需求，选择爬取对象、爬取字段进行爬取（必须是公开数据），...
python怎么做数据挖掘？爬虫 python 2020-03-20 16:24

回答 4

Python爬虫主要是模拟浏览器发送信息给对方服务器，然后获取服务器端的发过来的响应，这样就能在响应中提取有用的信息。本人专精爬虫，不懂的可以私信我。

没有解决我的问题，去提问

【爬虫】爬虫框架或者模块有哪些？哪个好用呀？

相关问题推荐

等你来答

热门问答

相关文章

【爬虫】爬虫框架或者模块有哪些？哪个好用呀？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间