0

快速入门网络爬虫系列 Chapter11 | 将数据存储成文件

通常,如果我们抓取的是图片、音频、视频、文档等内容,那么我们会把东西保存成文件。importrequests image_url='http://httpbin.org/image/png'file_path='test.png're...

0

快速入门网络爬虫系列 Chapter10 | 数据结构化存储

一、结构化过程1、非结构化数据《互联网大数据处理技术与应用》一书是由曾剑平编著,并由清华大学出版社于2017年出版。 清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。2、半结构化数据(书名:互联网大数据处理技术与...

0

快速入门网络爬虫系列 Chapter09 | JSON数据处理

一、JSONJSON是指JavaScript对象表示法(JavaScript Object Notation):独立于语言和平台与XML类似,存储和交换文本信息与XML语言更快、更易解析JSON的主要表达形式:单个JSON对象,书写格式为{string:value,string:value}1、获取...

0

快速入门网络爬虫系列 Chapter08 | 使用Python库抽取

一、基础知识点1、XpathXML路径语言(XML Path Language,XPath)是一种用来确定XML文档中某部分位置的语言基于XML的树形结构,提供在数据结构树中找寻节点的能力Xpath可以用来标记XML和HTML语言的某一部分xml格式示例:与正则表达式相同,Xpath拥有自己的语法....

0

快速入门网络爬虫系列 Chapter07 | 正则表达式

一、网页介绍1、网站静态网站:纯粹采用HTML语言编写,内容不变动态网站:①服务器段动态生成:使用ASP、PHP等语言进行编写,在服务器端运行,根据浏览器请求的地址及参数,动态从数据库中读取数据,并填入预先写好的模板中,实时生成所需要的HTML网页,返回...

0

Chapter06 | 面向百度百科得深度与宽度优先爬虫

一、需求分析1.1、爬什么网站=>百度百科:网络爬虫词条开始得三层节点=>了解网站结构数据=>词条名称、URL、描述、关键字信息=>了解数据存放位置1.2、存哪里位置=>本地磁盘文件=>确定存放位置、文件类型1.3、怎么爬网站=>百度百科策略=>无更新...

0

Chapter05 | 抓取策略与爬虫持久化

一、抓取策略从网络爬虫的角度来看,整个互联网可以划分为:在网络爬虫的组成部分中,待抓取URL队列是最重要一环待抓取队列中的URL以什么样的顺序排列,这涉及到页面抓取的先后问题决定待抓取URL排列顺序的方法,成为抓取策略网络爬虫使用不同的抓取策略,实...

0

快速入门网络爬虫系列 Chapter04 | URL管理

一、URL去重1、URL去重的重要性网络爬虫爬取重复的URL链接,会下载相同网页的内容,造成计算资源的消耗,给服务器带来不必要的负担解决重复下载的问题,可以提高爬虫效率,减少不必要的资源消耗深度优先(DFS)和广度优先(BFS)的抓取策略,遇到的网页链接重复是...

0

快速入门网络爬虫系列 Chapter03 | 抓取网页

一、了解URL统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简介的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器怎样处理它。一个基本URL包含以下内容:模式(或称协议)、...

0

快速入门网络爬虫系列 Chapter02 | 爬取数据之HTTP原理

1、网页的访问过程第一步:网络浏览器通过本地或者远程DNS,获取域名对应的IP地址第二步:根据获取的IP地址与访问内容封装HTTP请求第三步:浏览器发送HTTP请求第四步:服务器接收信息,根据HTTP内容寻找web资源第五步:服务器创建HTTP请求并封装第六步:服务...

0

快速入门网络爬虫系列 Chapter01 | 初识网络爬虫

一、什么是网络爬虫网络爬虫英文名叫Web Crawler(又称Web Spiader),是一种自动浏览网页并采集你所需要的信息的程序,被广泛用于互联网搜索引擎(称为通用爬虫)。随着互联网的发展,爬虫技术不再局限于搜索领域,任何人都可以利用爬虫技术从互联网上获取自己想...

0

爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书

一、小小课堂由于只是属于教学性质,学长本人在此以就以爬取Python相关的图书为例!链接:https://search.douban.com/book/subject_search?search_text=python&cat=1001首先我们需要先找下有没有接口但是通过查看,我们发现是没有...

0

爬虫入门经典(十三) | 一文教你简单爬取腾讯招聘

刚刚经过了豆瓣电影的爬取,你是不是有点懵逼呢?那么博主今天带来一篇较为简单得动态html数据采集的文章。今天我们来爬取腾讯招聘的相关信息。链接:https://careers.tencent.com/search.htm一、网页分析首先我们打开链接,如下图:通过查看源码,我们发现其...

0

爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影

一、小小课堂在古代,每当你闲暇之时,会同老友几人一起吃酒喝茶,觥筹交错,畅所欲言!而在如今,我们在无聊之时,又正值好友几人闲暇之时,可能会同去看当下最新的电影。但是如果只有我们自己一人,这时的你会怎如何做呢?如果是我的话,我就会先自行查看豆...

0

爬虫入门经典(十一) | 一文带你爬取传统古诗词

一、小小课堂中国文学源远流长,早在远古时代,虽然文字还没有产生,但在人民中间已经流传着神话传说和民间歌谣等口头文学。随着时间线的推移,先后出现了:诗经(西周)——楚辞(战国)——乐府(汉)——赋(晋)——唐诗——宋词——元曲——明清小说。想象一下,...