一、什么是HTTPS
早期很多公司刚起步的时候,使用的应用层协议都是HTTP,而HTTP无论是用GET方法还是POST方法传输,都是明文传输的,因此早期很多的信息都是可以通过抓包工具抓到的。
为了解决数据安全这个问题,于是出现了HTTPS协议,HTTPS实际就是在应用层和传输层协议之间加了一层加密层(SSL&TLS),这层加密层本身也是属于应用层的,它会对用户的个人信息进行各种程度的加密。HTTPS在交付数据时先把数据交给加密层,由加密层对数据加密后再交给传输层。
当然,通信双方使用的应用层协议必须是一样的,因此对端的应用层也必须使用HTTPS,当对端的传输层收到数据后,会先将数据交给加密层,由加密层对数据进行解密后再将数据交给应用层。
二、数据的加密
- 加密 :加密就是把明文(要传输的信息)进行一系列变换,生成密文。
- 解密:解密就是把 密文 再进行一系列变换, 还原成 明文 。
- 密钥 :在这个加密和解密的过程中, 往往需要一个或者多个中间的数据, 辅助进行这个过程, 这样的数据称为 密钥 。
1、常见的加密方式
对称加密
例如下面的加密过程,我们将服务器端对数据10进行异或7进行加密形成X,客户端再对数据进行异或7进行解密拿到数据10,这样的过程就是简单的对称加密和解密。
- 采用单钥密码系统的加密方法,同一个密钥可以同时用作信息的加密和解密,这种加密方法称为对称加密,也称为单密钥加密,特征:加密和解密所用的密钥是相同的。
- 常见对称加密算法(了解):DES、3DES、AES、TDEA、Blowfish、RC2等
- 特点:算法公开、计算量小、加密速度快、加密效率高。
对称加密其实就是通过同一个 “密钥” , 把明文加密成密文, 并且也能把密文解密成明文。
非对称加密
- 需要两个密钥来进行加密和解密,这两个密钥是公开密钥(
public key
,简称公钥)和私有密钥(private key
,简称私钥),非对称加密的数学原理比较复杂, 涉及到一些数论相关的知识。 - 常见非对称加密算法(了解):RSA,DSA,ECDSA
- 特点:算法强度复杂、安全性依赖于算法与密钥。但是由于其算法复杂,而使得加密解密速度远远低于对称加密解密的速度。
非对称加密有两种使用方式:
- 通过公钥对明文加密, 变成密文,通过私钥对密文解密, 变成明文。
- 通过私钥对明文加密, 变成密文,通过公钥对密文解密, 变成明文。
注意:公钥加密,不能公钥解密,私钥加密,不能私钥解密。
2、数据摘要(数据指纹)
- 数据摘要(又叫数字指纹),其基本原理是利用单向散列函数(Hash函数)对信息进行运算,生成一串固定长度的数字摘要。数字指纹并不是一种加密机制,但可以用来判断数据有没有被窜改。
- 摘要常见算法:有MD5、SHA1、SHA256、SHA512等,算法把无限的映射成有限,因此可能会有碰撞(两个不同的信息,算出的摘要相同,但是概率非常低)
- 摘要特征:和加密算法的区别是,摘要严格意义不是加密,因为没有解密,只不过从摘要很难反推原信息,数据摘要通常用来进行数据对比。
这里以 MD5 为例, 我们不需要研究具体的计算签名的过程, 只需要了解 MD5 的特点:
- 定长: 无论多长的字符串, 计算出来的 MD5 值都是固定长度 (16字节版本或者32字节版本)
- 分散: 源字符串只要改变一点点,最终得到的 MD5 值都会差别很大。
- 不可逆: 通过源字符串生成 MD5 很容易, 但是通过 MD5 还原成原串理论上是不可能的。
正因为 MD5 有这样的特性, 我们可以认为如果两个字符串的 MD5 值相同, 则认为这两个字符串相同.
例如网盘中的一个应用场景:
当用户上传数据的时候有时候很快,能够达到"秒传"的效果,其大致原理就是:因为在服务器端网盘中存在大量的文件,服务器端对这些文件进行提取其数字摘要,当你上传一个文件时,先在你本地客户端对文件提取其摘要,然后将此摘要与服务器端的摘要进行一 一对比,如果服务器端存在相同的数据摘要,那么就不需要用户上传了此文件了,直接在服务器后台设置一个软链接指向服务器中已经存在的文件就行了,这样服务器中也不必保存多份相同的文件了,提高了效率的同时,也节省了服务器的存储资源。
3、数字签名
对数据摘要经过加密,就得到数字签名。
三、HTTPS 的工作过程探究
既然要保证数据安全, 就需要进行 “加密”,网络传输中不再直接传输明文了, 而是加密之后的 “密文”,加密的方式有很多, 但是整体可以分成两大类: 对称加密和非对称加密。
下面我们来讨论使用怎样的方案能够保证数据传输过程中数据的安全性。
1、方案 1 - 只使用对称加密
如果通信双方都各自持有同一个密钥X,且没有别人知道,这两方的通信安全当然是可以被保证的(除非密钥被破解),但是实际在使用时会存在下面的问题:
怎么保证第一次明文通信时的安全性呢?
例如:第一次当客户端向服务器端发起请求时告诉服务端,我们以后通信采用密钥X进行加密,但是第一次的通信数据是明文的,所以黑客是能够获取这个密钥的,所以以后双方的通信的安全性是没有办法保证的。
当然我们可以在客户端里面内置密钥来保证第一次明文通信时的安全性,但是如果是这样的话,每个客户端用的秘钥都必须是不同的(如果是相同那密钥就太容易扩散了,而且被破解后危害巨大)。
因此服务器就需要维护每个客户端和每个密钥之间的关联关系,这是个很麻烦的事情,而且对于流量巨大的APP来说维护成本很大。
所以对称加密并不能很好的解决数据安全问题。
2、方案 2 - 只使用非对称加密
服务端拥有公钥S与对应的私钥S’。
鉴于非对称加密的机制:
- 当客户端向服务器发起请求时,服务器先把公钥以明文方式传输给客户端(这个过程中黑客是可以拿到公钥的!)
- 之后客户端向服务器传数据时前都先用这个公钥加密好以后再传,由于黑客只拿到了公钥,无法进行解密,所以从客户端到服务器信道似乎是安全的(有安全问题,后面说),因为只有服务器有相应的私钥能解开公钥加密的数据。
3、方案 3 - 双方都使用非对称加密
服务端拥有公钥S与对应的私钥S’,客户端拥有公钥X与对应的私钥X’。
- 刚开始通信时,客户端和服务端先交换公钥,确保双方能够拿到加密钥匙。
- 客户端给服务端发信息:先用公钥S对数据加密再发送,由于黑客没有私钥S’无法解密,因为只有服务器有私钥S’所以只能由服务器解密。
- 服务端给客户端发信息:先用公钥X对数据加密再发送,由于黑客没有私钥X’无法解密,因为只有客户端有私钥X’所以只能由客户端解密。
所以从客户端到服务器信道,和从服务器到客户端信道似乎都是安全的(有安全问题)
这样的解决方案貌似解决了我们通信过程中的数据安全问题,但是其又带来了新的问题,由于非对称加密的特点是加密速度慢,而通信双方均采用非对称加密,这就会导致通信的效率下降的问题。
4、方案 4 - 非对称加密 + 对称加密
服务端具有非对称公钥S和私钥S’,客户端拥有对称密钥C。
- 客户端发起
https
请求,获取服务端公钥S(这个过程中黑客是可以拿到公钥S的!)。 - 客户端在本地生成对称密钥C, 通过公钥S加密, 发送给服务器。由于黑客没有私钥S’, 即使截获了数据, 也无法还原出内部的原文, 也就无法获取到对称密钥。
- 服务器通过私钥S’解密, 还原出客户端发送的对称密钥C. 并且使用这个对称密钥加密给客户端返回的响应数据。
- 后续客户端和服务器的通信都只用对称加密即可,由于该密钥只有客户端和服务器两个主机知道, 其他主机/设备不知道密钥即使截获数据也没有意义。
由于对称加密的效率比非对称加密高很多, 因此只是在开始阶段协商密钥的时候使用非对称加密, 后续的传输仍然使用对称加密,这样就提高了通信效率。
四、一种网络攻击方式——中间人攻击
虽然上面的方案4已经比较接近与正确答案了,但是依旧有安全问题,假设中间人的攻击,如果在最开始通信双方握手协商之前的时候就进行攻击了,那就不一定能够保证数据的安全性了。
假设下面的场景:
小明正在逛商场,但是由于自己没有了流量,于是打开WIFI看到了一个没有密码的WIFI,于是小明高兴的连接上此WIFI进行上网,那么如果此WIFI是黑客部署的WIFI,那么黑客就已经成功成为了中间人,黑客可以在此网络设备中安装一些抓包工具,来获得你要传输的信息,因为你连接的是黑客的网络设备,所以你的的通信必定会经过黑客的网络设备,服务器对你的响应也必须经过此WIFI。
假设hacker已经成功成为中间人。
服务器具有非对称加密算法的公钥S,私钥S’,客户端具有对称密钥C,hacker拥有公钥M和私钥M’。
- 客户端向服务器发起请求,服务器明文传送公钥S给客户端
- 中间人劫持数据报文,提取公钥S并保存好,然后将被劫持报文中的公钥S替换成为自己的公钥M,并将伪造报文发给客户端。
- 客户端收到报文,提取公钥M(自己当然不知道公钥被更换过了),自己形成对称秘钥C,用公钥M加密C,形成报文发送给服务器。
- 中间人劫持后,直接用自己的私钥M’进行解密,得到通信秘钥C,再用曾经保存的服务端公钥S加密后,将报文推送给服务器。
- 服务器拿到报文,用自己的私钥S’解密,得到通信秘钥C
- 双方开始采用C进行对称加密,进行通信。但是一切都在中间人的掌握中,劫持数据,进行窃听甚至修改,都是可以的。
上面的攻击方案,同样适用于方案2,方案3。
问题本质出在哪里了呢?
本质:客户端无法确定收到的公钥,就是目标服务器发送过来的!即:Client无法验证公钥的合法性!
五、CA证书
为了解决上面的问题,出现了一个机构叫做CA机构。
服务端在使用HTTPS前,需要向CA机构申领一份数字证书,数字证书里含有证书申请者信息、公钥信息等。浏览器和服务器通信时,服务器先把证书传输给浏览器,浏览器从证书里获取公钥就行了,证书就如身份证,证明服务端公钥的权威性。
这个证书可以理解成是一个结构化的字符串, 主要包含两部分:
- 明文信息:里面包含了各种信息如:证书发布机构,证书有效期,公钥,证书所有者…
- 数字签名:对明文信息进行哈希形成数据摘要(数据指纹)以后再利用CA的私匙进行加密。
1、见一见CA证书
例如下面我们在Edge浏览器中的设置界面进行搜索,打开管理证书:
我们看到,我们有一个百度的证书:我们点击查看:
我们可以看到一些基本情况,我们还可以点击详细信息:
我们可以看到一些更加详细的信息
或者我们可以直接在地址栏中点击小锁进行查看:
2、 CA认证的流程
申请证书的时候,需要在特定平台生成CSR文件,在生成的同时会生成一对儿密钥对儿,即公钥和私钥。这对密钥对儿就是用来在网络通信中进行加密和解密的。
这是一个在线生成CSR和私钥的网站
其中公钥会随着CSR文件,一起发给CA进行权威认证,私钥服务端自己保留,用来后续进行通信(其实主要就是用来交换对称秘钥)
形成CSR之后,后续就是向CA进行申请认证,不过一般认证过程很繁琐(有的还有上门寻访),网络上有各种提供代理证书申请的服务商,一般真的需要,直接找平台解决就行。
当服务器端申请CA证书的时候,CA机构会对该服务器端进行审核,并专门为该网站形成数字签名,过程如下:
- CA机构拥有非对称加密的私钥A和公钥A’
- CA机构对服务端申请的证书明文数据进行
hash
,形成数据摘要 - 然后对数据摘要用CA私钥A’加密,得到数字签名S。
- 服务端申请的证书明文和数字签名S 共同组成了数字证书,这样一份数字证书就可以颁发给服务端了。
3、CA证书的验证流程
因为CA是权威机构,为了保证合法性,一般OS和浏览器内部,在出厂下载的时候,就已经内置了CA的公钥。
在客户端和服务器刚一建立连接的时候, 服务器给客户端返回一个证书,证书包含了服务端的公钥, 也包含了网站的身份信息。
当客户端获取到这个证书之后, 会对证书进行校验(防止证书是伪造的)。
- 判定证书的有效期是否过期。
- 判定证书的发布机构是否受信任(操作系统中已内置的受信任的证书发布机构)。
- 验证证书是否被篡改: 从系统中拿到CA机构的公钥,对签名解密, 得到一个 hash 值(称为数据摘要), 设为 hash1。 然后计算整个证书的 hash 值, 设为 hash2. 对比 hash1 和 hash2 是否相等,如果相等, 则说明证书是没有被篡改过的,可以正常通信,否则说明被篡改了,终止通信。
- 如果可以正常通信,客户端就可以生成对称密钥C,然后使用公钥进行加密,然后发送给服务器,服务器接收,以后双方的通信数据都使用对称密钥进行加密和解密。
4、方案 5 - 非对称加密 + 对称加密 + 证书认证
接下来我们继续讨论上面的中间人攻击的场景:
- 第一种方式:hacker只篡改公钥 :
- 客户端发起
https
请求,获取服务端证书(这个过程中黑客是可以拿到证书的!)。 - hacker拿到证书并更换证书中的服务器公钥S信息,然后发送给客户端。
- 客户端对证书进行检验,发现证书中的数据hash的值与证书签名解密的数据不一致,说明证书被修改了,终止通信。
- 第二种方式:hacker只篡改签名 :
同理也会失败,因为浏览器只会使用CA的公钥进行对签名解密,这会导致解密失败,进而影响散列值的对比。
- 第三种方式:hacker整个掉包证书 :
首先因为hacker没有CA私钥,所以无法制作假的数字签名,进而就无法伪造CA证书,所以hacker只能向CA申请真证书,然后用自己申请的证书进行掉包
这个确实能做到证书的整体掉包,但是别忘记,证书明文中包含了域名等服务端认证信息,如果整体掉包,客户端依旧能够识别出来。(这种做法非常愚蠢,因为证书是实名制的,可以根据证书找到其本人)。
- 永远记住:中间人没有CA私钥,所以对任何证书都无法进行合法修改,包括自己的。
5、常见的问题
1. 为什么摘要内容在网络传输的时候一定要加密形成签名?
因为如果不进行加密形成签名,黑客就可以修改证书中的公钥,并将修改后的数据重新进行哈希形成新的摘要,然后伪造一个证书,这样就会出现数据安全的问题。
2.为什么签名不直接加密,而是要先hash形成摘要?
- 因为这样可以缩小签名密文的长度,加快数字签名的验证签名的运算速度。
- 有些加密算法对密文的长度是有限制的。
六、总结
HTTPS 工作过程完整流程:(左侧是客⼾端,右侧是服务器)
HTTPS 工作过程中涉及到的密钥有三组
- 第一组(非对称加密): 用于校验证书是否被篡改. 服务器持有私钥(私钥在形成CSR文件与申请证书时获得), 客户端持有公钥(操作系统包含了可信任的 CA 认证机构有哪些, 同时持有对应的公钥). 服务器在客户端请求时,返回携带签名的证书. 客户端通过CA的公钥进行证书验证, 保证证书的合法性,进一步保证证书中携带的服务端公钥权威性。
- 第二组(非对称加密): 用于协商生成对称加密的密钥,客户端用收到的CA证书中的公钥(是可被信任的)给随机生成的对称加密的密钥加密, 传输给服务器, 服务器通过私钥解密获取到对称加密密钥。
- 第三组(对称加密): 客户端和服务器后续传输的数据都通过这个对称密钥加密解密。
其实一切的关键都是围绕这个对称加密的密钥,其他的机制都是辅助这个密钥工作的,第二组非对称加密的密钥是为了让客户端把这个对称密钥传给服务器,第一组非对称加密的密钥是为了确保让客户端拿到第二组非对称加密的公钥。