240 私信
这个人很懒,暂无签名信息
0

R语言入门 Chapter01 | 向量

一、向量的概念及简单介绍1、概念向量,vector,是R中最重要的一个概念,它是构成其他数据结构的基础。R中的向量概念与数学之间的向量是不同的,类似于数学上的集合的概念,由一个或多个元素所构成。向量其实是用于存储数值型、字符型或逻辑型数据的一维数组。用函数C来创建向量。c代表concatenate连接,也可理解为收集collect,或者合并combine。其中R内置的函数中,格式为为向量的有:eu...

0

快速入门网络爬虫系列 Chapter16 | 爬虫性能提升

一、基础简介1、任务调度操作系统通常采用时间片轮转的抢占式调度方式一个任务执行一段时间后强制暂停,去执行下一个任务每个任务轮流执行2、线程与进程2.1、进程具有独立功能的程序在数据集合上的一次动态执行过程系统进行资源分配和调度的一个独立单位任务调度的最小单位以资源管理器为例2.2、线程线程是CPU调度和分派的基本单位能独立运行基本上不拥有系统资源,可与通一个进程的其他线程共享进程的资源一个进程中可...

0

快速入门网络爬虫系列 Chapter15 | 验证码识别

一、模拟登录知乎如果访问过于频繁,服务器要求输入验证码如果短时间内在知乎上频繁的登录退出,知乎就会要求输入验证码对于比较简单的字符型验证码,可以尝试用pytesseract库识别这些验证码pytesseract是一款用于光学字符识别的Python第三方库,可以从图片中识别出其中嵌入的文字我们可以看到有些验证码是识别不出来的。随着计算能力和机器学习的发展,涌现出很多新型验证码,使得验证码处理越来越难...

0

快速入门网络爬虫系列 Chapter13 | 模拟登陆

一、什么是CookieCookie,有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密)。Cookie是小量信息,是由Web服务器创建的,将信息存放在用户计算机的文件上通过上述页面我们可以看到,登陆上去会有提示,图中马赛克部分。由于HTTP是一种无状态的协议,服务器但从网络连接上不能知道客户身份。如果想要知道客户身份,这是...

0

快速入门网络爬虫系列 Chapter12 | 将数据存储到数据库

数据模型是现实生活中数据的抽象,用来描述数据的概念和定义,是数据库中数据的存储方式,是数据库系统的基础。常用的数据模型有以下三种:层次模型:以树形结构表示数据之间的关系网状模型:以网,图型结构表示数据之间的关系关系模型:以二维表结构表示数据之间的关系根据数据库的数据模型划分,数据库可以分为以下类型:网状型数据库(Network Database)关系型数据库(Relational Darabase...

个人介绍
暂无介绍