程序设计】网络爬虫是什么?_第2页回答

2020-12-17 15:47发布

请教下网络爬虫的概念

请教下网络爬虫的概念

16条回答
帅帅马
2楼 · 2020-12-20 19:29

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

下面我们来分析网络爬虫具体要做哪些核心工作:

通过网络向指定的 URL 发送请求,获取服务器响应内容。

使用某种技术(如正则表达式、XPath 等)提取页面中我们感兴趣的信息。

高效地识别响应页面中的链接信息,顺着这些链接递归执行此处介绍的第 1、2、3 步;

使用多线程有效地管理网络通信交互。

如果直接使用 Python 内置的 urllib 和 re 模块是否能写出自己的网络爬虫呢?答案是肯定的,只是比较复杂。就像我们要从广州去韶关,走路可以去吗?答案是肯定的,只是比较麻烦。

下面继续分析网络爬虫的核心工作:

向 URL 发送请求,获取服务器响应内容。这个核心工作其实是所有网络爬虫都需要做的通用工作。一般来说,通用工作应该由爬虫框架来实现,这样可以提供更稳定的性能,开发效率更高。提取页面中我们感兴趣的信息。这个核心工作不是通用的!每个项目感兴趣的信息都可能有所不同,但使用正则表达式提取信息是非常低效的,原因是正则表达式的设计初衷主要是处理文本信息,而 HTML 文档不仅是文本文档,而且是结构化文档,因此使用正则表达式来处理 HTML 文档并不合适。使用 XPath 提取信息的效率要高得多。识别响应页面中的链接信息。使用正则表达式可以实现这个核心工作,但是效率太低,使用 XPath 会更高效。多线程管理:这个核心工作是通用的,应该由框架来完成。


风中浪子
3楼 · 2020-12-21 17:04

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

网络爬虫(Web crawler)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。版

网络权爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。


猫的想法不敢猜
5楼 · 2021-01-07 19:41

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

天使的奶爸
6楼 · 2021-01-13 15:54

网络爬虫(Web crawler)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。版

网络权爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。


亦橙
7楼 · 2021-01-24 20:07

就是一种脚本语言,在网页上通过数据挖掘进行爬取信息数据

一颗悲伤的小树苗
8楼 · 2021-03-03 19:46

爬取数据啊,比如豆瓣排行榜,谁排名比较高

lucky璐呀
9楼 · 2021-11-22 09:42

网络爬虫(Web crawler)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络权爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

相关问题推荐

  • 回答 9

    netsh interface ip set address name=本地道连专接属 source=static addr=10.161.0.32 mask=255.255.255.0  netsh interface ip add address name=本地连接 addr=1.1.1.1 mask=255.255.255.0  netsh interface ip set addres......

  • 回答 7

    synchronized是Java中的关键字,是一种同步锁。它修饰的对象有以下几种: 1. 修饰一个代码块,被修饰的代码块称为同步语句块,其作用的范围是大括号{}括起来的代码,作用的对象是调用这个代码块的对象; 2. 修饰一个方法,被修饰的方法称为同步方法,其作用...

  • 回答 2

    VB.Net是一种简单,现代,面向对象的计算机编程语言,由微软开发,将.NET Framework和公共语言运行库的强大功能与作为Visual Basic标志的生产力优势相结合。

  • 回答 1

    感觉scala 写出来的就是文言文,短符号用的太多,而且随场合不同含义还会不同,感觉比较难记忆

  • 回答 5
    已采纳

    1、需求:阅读需求,理解需求,与客户、开发、架构多方交流,深入了解需求。--testing team2、测试计划: 根据需求估算测试所需资源(人力、设备等)、所需时间、功能点划分、如何合理分配安排资源等。---testing leader or testing manager3、用例设计:根据...

  • 回答 10

    王者荣耀英雄联盟和平精英都可以啊。

  • 回答 1

    有很大的实用性5G技术是一种比4G技术提升了近100倍,理论下载速率达到了10Gbps,而实际下载速率一般不超过5Gbps。但是,这也已经很快了,一部电影一秒钟就下载完了!根据普通人而言,在5G的时代,可以得到更好的发展,其实大可以围绕快这一个字来做文章。因为...

  • 回答 4

    家里姐姐姐夫做的开发,觉得前景比较好,然后大学专业就学习的计算机,

  • 回答 3

    IT行业前景还是不错的,其中Java就业方向是最多的,有:1、企业e69da5e887aa7a686964616f31333433626437级应用开发企业级应用开发大可以做全国联网的系统,小到中小企业的应用解决方案。多数没有前端开发的通常是从一个服务器接收数据,处理后发给另一个处理...

  • 回答 2

    1、由于我本人是Java后端开发出身,因此所推荐的学习内容是Java Web和Java后端开发的路线,非Java Web和Java后端开发的同学请适当参考其学习思想即可,切勿照搬。2、下面对于【第一部分】的推荐内容,目的是让你尽快成为一个可以参加工作的Java开发者,更适用...

  • 回答 5

    DW是网页前端开发综合性非常强的工具,特别是现在的CS6版本,可以集成开发智能机应用,可以实时设计不同分辨率下的响应式网页,支持CSS3等优越功能。

  • 回答 4

    我了解到的,整体还是不错的,在招聘网站上,有很多招聘,工资也都不少

  • 回答 1

    Ruby on Rails这对缺乏编程经验的人更易于掌握,最大的优点是易于阅读,Ruby是一种动态、面向对象的脚本语言,它被大量应用于Web开发。包括Groupon和GitHub在内的网站都在各自的后端上使用Ruby。由于不需要学习大量命令,Ruby学起来更容易一点。虽然Ruby是一...

  • 回答 1

    1.一开始的时候都是发动亲朋好友帮忙转发获取关注度,面熟了之后开展活动就会很方便2.与其他的之后合作或者是大V合作,让他们帮您宣传推广,不过有时候要付费。3.在社群互动,获得知名度和好感度之后吸引大家关注公众号群里进行交流4.免费送福利进行宣传赠送...

  • 回答 1

    1

没有解决我的问题,去提问