1. HTTP协议概述
HTTP协议:又被称为"超文本传输协议",是一种使用非常广泛的应用层协议,我们之前在文件章节介绍过文本文件与二进制文件的区别,文本可以看做字符串(能在utf8/gbk等编码表中查找到合法字符),我们有必要区分文本、超文本、富文本之间的区别。
- 文本:能在码表中查找到对应的合法字符,可以使用记事本打开查看的内容
- 超文本:在文本的基础上,还可以携带一些图片等特殊格式内容,如HTML文件
- 富文本:比超文本的内容更加全面,可以调整行间距等等具体格式,例如word等文件
HTTP版本:HTTP协议诞生于1991年,较常见的版本有HTTP1.0、HTTP1.1、HTTP2.0、HTTP3.0,但是目前主流使用的仍然是HTTP1.1与HTTP2.0版本,本篇文章主要围绕的也是HTTP1.1版本。
HTTP往往是基于传输层的TCP实现的,只有HTTP3.0是基于UDP实现的
HTTP应用领域:HTTP协议最常见的应用领域就是"网站开发",即实现浏览器与服务器之间的数据传输,后端(服务器端)通常是HTTP服务器,前端(浏览器端)通常是浏览器
HTTP协议的交互方式是如图所示"一问一答型",对于基本的网站开发来说是够用的,但是网站开发中我们经常能看到如下的情景:
这种类似于"QQ"对话框的实现就不是HTTP协议所能做到的了,其通信模型可以简化如下:
可以看出,这不是"一问一答型",这个场景需要服务器主动给浏览器发送消息,这个功能业界也叫做消息推送,所以应用层除了HTTP协议之外,还有一个与之搭配的协议称为"websocket",可以补充HTTP协议所办不到的功能
2. HTTP报文格式
2.1 抓包工具
Fiddler:是一款专注于HTTP、HTTPS协议的抓包工具,本质上是一个"代理程序",可以获取到网络上传输的数据包并展示给程序员用以分析调试程序
注:我知道很多小伙伴在计算机网络课堂上使用过WireShark等工具,但是相比于这种"高大全"的工具,fiddler专注于HTTP协议数据包,且使用更加简单方便,也是我们后端开发程序员经常使用的工具!因此我推荐这款工具
安装地址:https://www.telerik.com/fiddler/)
代理程序:再来谈谈有关代理的概念,代理本身也是一种程序,可以实现数据包的转发效果,市面上所谓的"翻墙"很多也是通过代理实现的,Fiddler等工具就是通过获取到浏览器向服务器发送的HTTP请求数据包,然后由Fiddler转发给服务器,服务器返回HTTP响应数据包后也是由Fiddler获取到,然后再转发给浏览器,此时Fiddler就能够非常了解数据的传送过程以及具体的格式内容
代理也有正向代理、反向代理之分,感兴趣的小伙伴可以自行查阅资料!
2.2 HTTP报文格式
下面我们就通过访问www.baidu.com
网站为例进行抓包分析
- 在Fiddler工具中使用快捷键
ctrl + A + DEL
删除所有数据包 - 打开浏览器输入
www.baidu.com
,按下回车 - 打开Fiddler呈现如下数据包
其中显示蓝色的部分表示返回的是一个HTML格式数据,通常是访问一个网站的入口
- 选中数据包双击显示明细,右上角呈现请求报文格式,右下角显示响应报文格式,点击
Raw
可以显示原始数据样式
2.2.1 HTTP请求报文格式
HTTP请求报文一共有以下四部分组成:
- 首行:如
GET https://www.baidu.com/ HTTP/1.1
,表明请求方法为GET,访问URL为https://www.baidu.com/ ,HTTP版本号为1.1,三者之间用空格来分隔 - 请求头(header):如
Host: www.baidu.com
等等键值对格式都是请求头中的内容,每个键值对用换行分隔,键和值之间使用:空格
分隔,图中第二行到最后一行都是请求头的内容 - 空行:请求头最下方有一个空行,这个空行可以用作结束标记
- 正文(body):HTTP请求报文的载荷部分,可以有也可以没有
2.2.2 HTTP响应报文格式
HTTP响应报文一共有以下四部分组成:
- 首行:如
HTTP/1.1 200 OK
,表明HTTP协议版本为1.1,响应状态码为200,响应描述信息是OK,三者之间用空格来分隔 - 响应头(header):如
Content-Type: text/html; charset=utf-8
等等键值对格式都是相应头中的内容,每个键值对用换行分隔,键和值之间使用:空格
分隔 - 空行:响应头最下方有一个空行,这个空行可以用作结束标记
- 正文(body):HTTP响应报文的载荷部分,通常来说会携带
2.3 报文详细字段
2.3.1 认识URL
URL与URI:URL全程统一资源定位符,URI全程统一资源标识符,严格的来说URI的表示范围大于URL,上述我们看到的https://www.baidu.com/
就是最简单的URL,描述了网络资源所处的位置,一个完整的URL结构如下:
- 协议方案名:表示协议名称
- 登录信息(认证):因为不够安全,已经逐渐淘汰
- 服务器地址:表示服务器所在位置,域名也可以使用IP地址
- 服务器端口号:表示访问的服务器的应用程序所处端口号,如果不带端口号则使用默认的协议端口号,如HTTP协议的80端口号,HTTPS协议的443端口号
- 带层次的文件路径:访问资源在服务器指定应用程序的文件目录
- 查询字符串:浏览器传递给服务器信息的重要途径,是请求内容的补充说明(很重要,后续单独讨论)
- 片段标识符:用来标识当前页面的哪个部分,可以实现页面内部跳转(如Vue官网就使用到了)
URL encode:我们谈论到有关查询字符串中带有一些字符如**&有具体含义,此时如果我们想要携带的信息也带有&符号该怎么办呢?又或者如果我们携带的数据中带有中文字符怎么办呢?此时我们就需要使用URL encode**进行编码传输,我们可以使用十六进制表示并在前面加上%
的形式进行转义
例如:我们在百度上搜索"米饭"二字,对应的URL就变为
[https://www.baidu.com/s?wd=%E7%B1%B3%E9%A5%AD](https://www.baidu.com/s?wd=%E7%B1%B3%E9%A5%AD)
,其中%E7%B1%B3%E9%A5%AD就是对应中文的url encode码
注意:在查询字符串中带有中文或者需要转义的内容时,一定要设置url encode!!!