CDN是如何工作的?

简介: CDN是互联网中使用较频繁的一种技术。你也许常听人说:“我们的网站使用了CDN技术”,但可能他们对CDN的了解并不多,也许只局限于--用了以后网站访问速度会变快。其实,CDN的原理非常简单。当浏览器请求一资源时,第一步是做DNS解析,DNS解析就像是从通讯录根据姓名找号码,浏览器发送域名,然后得到DNS服务器返回的IP地址。

CDN是互联网中使用较频繁的一种技术。你也许常听人说:“我们的网站使用了CDN技术”,但可能他们对CDN的了解并不多,也许只局限于--用了以后网站访问速度会变快。

其实,CDN的原理非常简单。当浏览器请求一资源时,第一步是做DNS解析,DNS解析就像是从通讯录根据姓名找号码,浏览器发送域名,然后得到DNS服务器返回的IP地址。浏览器通过IP地址和服务器连接并获取资源(DNS服务器会有很多层的缓存,但超出本文范围)。

对于小站点或个人博客,一个域名对应一个IP地址,而大站点可能含多个IP地址。

当请求一个资源时(如网站),距离会影响连接速度,所以从国内访问国外的网站会比较慢。因此,一些大公司在世界各地配置服务器并同步数据,这就叫CDN,而那些离当地用户最近的服务器叫“边缘服务器(edge servers)”。

DNS解析

当浏览器通过CDN做域名解析请求时,针对单IP的网站会有一些不同。DNS服务器会找出最适合的服务器来处理请求,而且非常简单,DNS会找出离请求地点最近的边缘服务器。如下图所示,如果我从维吉尼亚州发送一个指向美国中部服务器的请求,就会得到位于东海岸的边缘服务器地址,如果我从加利福尼亚州发送请求,就会得到位于西海岸的边缘服务器地址。

image

也就是说处理请求的第一步:找出离请求位置最近的服务器。有些公司可能会用其他的方式优化CDN服务器,例如,如果最近的服务器满负荷运作,那么接下来的请求就会转到其他闲置的服务器。总之,CDN总会找出最适合的服务器来处理请求。

获取内容

边缘服务器是一种代理缓存,类似浏览器缓存。当请求到达边缘服务器,它会首先检查内容是否是最新的。缓存标识(key)就是整个Url地址(跟浏览器一样),如果内容已被缓存且没有过期,就直接返回缓存内容。

如果没有缓存或已过期,边缘服务器会向源服务器发送请求获取内容,并缓存起来。

image

雅虎创建了一个开源项目叫Apache Traffic Server,用来管理CDN直接的交互,如果想了解更多代理缓存的原理,推荐你读一下这个项目的文档。

示例

雅虎的CDN服务中,使用一个工具叫“组合处理器(combo handler)”,它会把多个文件的请求整合到一起,变成一个请求-响应操作。下面是例子:

http://yui.yahooapis.com/combo?3.4.1/build/yui-base/yui-base-min.js&3.4.1/build/array-extras/array-extras-min.js

域名yui.yahooapis.com是雅虎CDN服务的一部分,会把你的请求转给离你最近的边缘服务器,这个请求包含两个文件yui-base-min.js和array-extras-min.js,但只需一次响应便可完成。这些逻辑处理操作不在边缘服务器,只能在源服务器上。

静态指什么?什么情况适合使用CDN?

每当我描述类似上文的“组合处理器”之类的系统时,经常会看到别人困惑的表情。CDN有时候容易跟FTP资源混淆,因为它们都是上传静态资源供其他人获取。我希望我上文的描述能让大家搞清楚两者不一回事。边缘服务器是一个代理,源服务器告诉边缘服务器返回什么内容,源服务器可能是Java,Ruby,Node.js,.Net等,因此可以实现任何逻辑。边缘服务器什么也不做只是发生请求并返回内容。

既然CDN如此高效,为什么不把网站所有东西都用CDN来提高性能?CDN本质是缓存,如果保存的是动态页面,每次页面内容都会有所变化,那么每次请求都要边缘服务器和源服务器交互一次,那么这个缓存也就没有意义。

这也是为什么Javascript,CSS,images,Flash,音频,视频等文件特别适合使用CDN技术,因为这些文件是不变的,所有的用户获取的都一样,一旦通过CDN缓存,所有用户都将受益。

缓存过期

雅虎性能指南规定静态资源应该要有缓存过期标识保存在Http协议的header中,这么做有两个原因:其一,浏览器会缓存资源,其二,CDN也会将资源缓存一段时间。这同样意味着你不能使用重复的文件名,因为他们至少会被缓存在两个地方,用户可能会一直获取不到最新版本的文件。

有几种方式解决这个问题,YUI 库用包含不同版本库的目录来区分。通常也可以在文件名末尾加入标识符,如MD5的哈希值或者版本控制软件的修订号。任何一种方式都为了确保当用户的请求包含过期标识的时候,依然能获得最新版本的资源文件。

结语

CDN技术已经是当今互联网重要的一部分,随着时间的推移,它只会变得越来越重要。即便是现在,一些公司仍然努力尝试把更多的功能移到边缘服务器,以便能给用户更快速的体验。这里包含了一种技术叫Edge Side Includes (ESI),用来缓存页面的部分内容。

更好的理解CDN技术及工作原理是提升CDN性能的关键。

 

原文:http://www.nczonline.net/blog/2011/11/29/how-content-delivery-networks-cdns-work/

注:这是我第一次翻译英文文章,花了比想象中要多的时间,如果看完文章对你有帮助是我最大的欣慰,不足的地方欢迎批评指出。

相关文章
|
存储 JSON 监控
Viper,一个Go语言配置管理神器!
Viper 是一个功能强大的 Go 语言配置管理库,支持从多种来源读取配置,包括文件、环境变量、远程配置中心等。本文详细介绍了 Viper 的核心特性和使用方法,包括从本地 YAML 文件和 Consul 远程配置中心读取配置的示例。Viper 的多来源配置、动态配置和轻松集成特性使其成为管理复杂应用配置的理想选择。
634 2
|
网络协议 Unix Shell
FreeBSD的特点是什么?如何使用?
【10月更文挑战第29天】FreeBSD的特点是什么?如何使用?
623 2
|
监控 关系型数据库 MySQL
MySQL 5.7在高并发下性能劣化问题的详细剖析
TL;DR MySQL 5.7高并发读写混合场景下rt飙升,业务系统大量超时报错。本文总结了阿里业务场景下遇到的坑,剖析问题背后的原因,帮助读者更好的理解MySQL内核原理,降低升级MySQL 5.7的风险。
10324 0
|
前端开发 测试技术 对象存储
Grafana Loki查询加速:如何在不添加资源的前提下提升查询速度
Grafana Loki查询加速:如何在不添加资源的前提下提升查询速度
612 59
|
9月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
423 1
|
10月前
|
人工智能 运维 数据可视化
申报开启丨2025年6月批次阿里云协同育人项目申报指南,支持所有学科丨云工开物
阿里云支持教育部产学合作协同育人项目,助力高校教学创新与人才培养。2025年6月批次申报通知发布,包含教学内容和课程体系改革、实践条件和实践基地建设两大类。具体方向涵盖AI+X专业课程、计算机实践、AIGC设计、大数据分析及人工智能通识教育等,提供资金、技术及资源支持。申报院校需具备实践基地,课程不少于8学时。详情及流程见官方链接,联系刘老师了解更多。
|
数据采集 监控 测试技术
大型IM稳定性监测实践:手Q客户端性能防劣化系统的建设之路
本文以iOS端为例,详细分享了手 Q 客户端性能防劣化系统从0到1的构建之路,相信对业界和IM开发者们都有较高的借鉴意义。
492 3
|
SQL 关系型数据库 MySQL
SQL自动启动设置指南:详细步骤与技巧
在数据库管理中,确保SQL服务能够自动启动对于保持数据服务的连续性和稳定性至关重要
1155 0
|
存储 弹性计算 缓存
阿里云2核CPU云服务器租用收费标准与活动价格参考
阿里云2核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云2核CPU云服务器租用收费标准与活动价格参考
|
消息中间件 Cloud Native Java
10 个开源项目、47 个课题可选丨欢迎报名阿里云云原生开源之夏
10 个开源项目、47 个课题可选丨欢迎报名阿里云云原生开源之夏
下一篇
开通oss服务