快速入门网络爬虫系列 Chapter13 | 模拟登陆

2020-10-30 15:00发布

一、什么是Cookie

Cookie,有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密)。
Cookie是小量信息,是由Web服务器创建的,将信息存放在用户计算机的文件上
1
通过上述页面我们可以看到,登陆上去会有提示,图中马赛克部分。

  • 由于HTTP是一种无状态的协议,服务器但从网络连接上不能知道客户身份。如果想要知道客户身份,这是就需要一张通行证,每人一个,无论谁访问都必须携带自己的通行证。这样服务器就能通过通行证来确定客户身份,这就是Cookie的工作原理。
    2

上述返回200代表成功访问,这是为什么呢?因为我们添加了Cookie

3

一个简单的Cookie
4
或者通过console输入查找
5

6
7

上述的过程都是建立在登录有Cookie的前提下才能进行访问查看,如果没有登录则不能查看及操作。

8

我们可以看到返回值为302,查看也没有cookie信息

2、登陆时的页面

下图中的img_base64实际上时验证码登录的提示

9
10
在输入账号密码和验证码成功后,要点击Preserve log,如果不选择此处,当我们打开新的的网页时,会被冲刷掉。

3、登陆后

11
由上图我们通过点击sign_in可以查看到生成的cookie,这个cookie实际上是由sign_in上面的页面生成的。
12

红框1是一个K-V键值对的结构,相当于我们get时写的那些参数。
红框2是加密过的信息

13

上图红框处为一个不知道的参数,但是如果没有这个可能就会请求不到我们想要的东西

14

上图红框处为为防跨站攻击的
sign_in实际上就是我们登录网页的所有操作的页面,
15

它返回的Cookie如下图:
16

下面我们进行的操作可能都要带着这个返回的Cookie来进行

如果想要产生新的cookie,我们只需要clear掉原来的cookie即可。如下图:
17

但是删除cookie以后就不保持登录状态了,我们打开网页还要重新进行登录:
18

19
经过观察发现,上述标记处都返回有cookie,每一个都有set-cookie,其中,captcha?lang=cn属于验证码页面,如果显示为False则此次不用输入验证码,如果显示为Ture,则此次需要输入验证码。
20

下面登陆成功后,我们来看一下登录的接口:
21

这个时候我们来看一下responseCookie,
22
然后接着往下看这个cookie会添加到后来的Request Cookies
23
24

转载自:CSDN   作者:不温卜火

原文链接:https://blog.csdn.net/qq_16146103/article/details/105311998