python爬虫前奏【成信笔记】

用户8870936 • 2023-01-02 • 云技术社区 • 261 阅读

在浏览器中发送一个http请求的过程:

1.当用户在浏览器的地址栏中输入一个URL并按回车键之后,浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为"Get"和"Post"两种方法。

2.当我们在浏览器输入URL htp://www baidu .com的时候，浏览器发送-个Request请求去获取htp:/www baidu com的html文件,服务器把Response文件对象发送回给浏览器。

3.浏览器分析Response中的HTML,发现其中引用了很多其他文件，比如Images文件，CSS文件, JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

4.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

#url详解:

URL是Uniform Resource Locator的简写，统一资源定位符。

一个URL由以下几部分组成:

scheme://host:port/path/>query-string=xxx#ancho

●scheme:代表的是访问的协议，-般为http或者https以及ftp等。

●host:主机名，域名，比如www.baidu.com

●port: 端口号。当你访问-一个网站的时候，浏览器默认使用80端口。

●path:查找路径。比如: www.jianshu.com/trending/now ,后面的trending/now就是path

●query-string: 查询字符串，比如: www.baidu.com/s?wd=python ,后面的wd=python就是查找的字符串。

●anchor:锚点，后台一般不用管,前端用来做页面定位的。

在浏览器中请求- -个ufl ,浏览器会对这个url进行一个编码. 除英文字母，数字和部分符号外，其他的全部使用百分号+十六进制码值进行编码。

#请求头常见参数:

在http协议中，向服务器发送一个请求，数据分为三部分，第-一个是把数据放在url中，第二个是把数据放在body中(在post请求中) ,第三个就是把数据放在head中。这里介绍在网络爬虫中经常会用到的一些请求头参数:

User-Agent :浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页的时候，服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求，那么我们的User-Agent 就是Python ,这对于那些有反爬虫机制的网站来说，可以轻易的判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值，来伪装我们的爬虫。

Referer :表明当前这个请求是从哪个url 过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的，那么就不做相关的响应。

Cookie : http协议是无状态的。也就是同-一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用cookie来做标识。一般如果想要做登录后才能访问的网站，那么就需要发送cookie 信息了。