Netflix基于云的“防故障”系统怎样顶住了AWS故障

简介:

尽管在线流媒体巨头Netflix运作的业务完全依赖亚马逊网络服务(AWS)的云平台,不过它声称,AWS周日爆出服务停运事件后,自己的服务很快恢复了正常――这表明了其构建基于云的“防故障”系统这种做法的重要性。

AWS在周日遇到重大故障后,构建可以抵御故障的云服务具有的重要性体现了出来。

AWS平台上的20多种服务开始出现故障后,互联网上的一些最大网站和应用系统随之间歇性地无法使用。

这起停运事件影响了弗吉尼亚州北部数据中心(亚马逊称之为US-EAST-1地区)负责运行的AWS服务。

Netflix、Tinder、Airbnb和IMDb等知名在线网站及服务的客户声称,服务受到影响的六到八个小时这段期间,访问出现了问题。这些问题还影响了亚马逊的产品,比如Echo,亚马逊的这个智能语音助理使用了名叫Alexa的基于云的语音识别系统。

问题似乎最早出现在周日太平洋夏令时凌晨3点,当时用户就开始遇到了AWS的NoSQL数据库DynamoDB出错率增加的现象。

然而,出错率增加和网络延迟这些问题随后开始扩大到另外大约22个服务:包括亚马逊的几大知名服务,比如AWS弹性计算云(EC2)、虚拟桌面服务AWS WorkSpaces以及AWS事件驱动计算服务AWS Lambda。

在短短几小时内,AWS就查明了DynamoDB遇到的问题的“根源”,指出这归咎于“管理表和分区信息的内部子服务出了故障”。

等到上午9点刚过,AWS就解决了DynamoDB的问题,声称服务运行恢复正常。到这个时候,大多数服务已正常运行,不过另外几项服务(比如AWS Auto Scaling服务)仍受到了影响,直到上午11:30才排除故障。

Netflix如何以乱治乱?

据亚马逊发言人声称,有一个AWS客户设法避免了这次停运引起的任何“重大影响”,那就是视频流服务网站Netflix。

据这位发言人称,这个在线媒体巨头依赖亚马逊网络服务,以媒体流的形式将电影和电视节目传输给全球5000多万户家庭,能够“迅速”将服务恢复到完全正常的水平。

帮助这家服务商经受住这次服务故障事件考验的,正是它竭力颂扬的“混沌工程技术”(chaos engineering)。

Netflix采用的混沌工程技术运用了Simian Army,这款软件有意对其系统造成严重破坏。Simian Army从多个方面攻击Netflix的基础设施:Chaos Monkey随机地禁用生产环境下的实例,Latency Monkey给客户机/服务器通信造成延迟,而主要法宝Chaos Gorilla模拟了整个亚马逊可用性区域出现停运。

通过不断给系统带来故障,这家公司得以增强防范问题的能力,比如周日影响AWS的问题。

在这种情况下,Netflix得以迅速将流量从受到影响的AWS地区,重定向到未受到影响的地区的数据中心。

Netflix之所以能做到这一点,就是因为它实施了所谓的多地区主动/主动复制。按照这种复制技术,其服务需要的所有数据都在不同的AWS地区之间加以复制,以便遇到故障后能迅速恢复。

Netflix在概述这种做法的一篇博文中表示:“地区性基础设施全面停运的可能性微乎其微,但是我们的变化速度有时太快了,会扰乱某个地区的关键服务,我们想让Netflix能适应任何复杂的底层依赖关系。”

Netflix负责高性能技术计算的前首席架构师Adrian Cockcroft在推特上表示,主动/主动复制技术增加了大约“25%”的成本,声称这种方法如同“保险单”。

他补充说:“额外成本主要是由于始终在两头对存储层进行100%的重复数据删除所致。”

Netflix使用了Apache Cassandra,这是一种开源NoSQL分布式数据库。Cockcroft表示,为了保持可用性,这家服务商必须在“所有地区”维护“几千个”Cassandra节点。


本文作者:云头条

来源:51CTO

相关文章
|
缓存 Linux 开发工具
CentOS 7- 配置阿里镜像源
阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助 :2、查看不同版本的系统操作: 下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.
251945 0
|
11月前
|
编解码 算法 测试技术
在不影响动画质量的前提下对 Lottie 动画文件进行压缩
【10月更文挑战第16天】在不影响动画质量的前提下对 Lottie 动画文件进行压缩需要综合运用多种方法和策略。通过细致的分析、合理的调整和适当的技术手段,可以在保持动画视觉效果的同时,有效地减小文件的大小,提升动画的性能和用户体验。
641 57
|
Java Go
java 继承关系的内存图解 (通俗易懂)
Java 继承关系中的内存图解,逐步拆分!
1127 0
java 继承关系的内存图解 (通俗易懂)
|
存储 弹性计算 固态存储
阿里云服务器价格表(2023新版报价)
阿里云服务器1核1G1M优惠价17.49元3个月,251.86元一年、2核4G1M带宽40.98元3个月,590.11元一年、4核8G服务器73.38元3个月,1056.67元一年、8核16G配置138.18元3个月,1989.79元一年、8核32G服务器1M带宽214.50元3个月,3088.80元一年
12263 1
阿里云服务器价格表(2023新版报价)
|
机器学习/深度学习 人工智能 自然语言处理
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(1)
MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型
420 0
|
Unix iOS开发 Ruby
Mac 从零安装cocoapods
最近申请换了台 MacBook Pro(之前用的是MacBook Air),一台干净的像小孩子屁股一样的电脑,iOS开发相关的常用软件一个也没有。当下载了item2(本人很不喜欢Mac自带的终端,所以还是习惯的下载了item2,如果有小伙伴需要了解,请点击https://www.jianshu.com/p/93f5c3491954)Xcode和项目后,由于我们项目用了cocoapods,所以不得不安装它。关于cocoapods的介绍就不多说了,下面直接开始安装步骤吧!
Mac 从零安装cocoapods
|
存储 人工智能 运维
SLS 大模型可观测&安全推理审计标准解决方案
本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。
105479 1
|
人工智能 安全 Linux
从龙蜥Anolis OS看国产操作系统的未来
作为我国的自主研发操作系统之一,龙蜥操作系统在技术创新和生态建设方面取得了一定的成绩。该操作系统以Linux为内核,结合国产化软硬件技术,具备了高度的自主可控性和安全性,在国家信息安全和国防安全方面具有重要意义。本文结合龙蜥操作系统的一些背景和亮点,引出对国产操作系统现状的深思,号召通过加强技术创新和生态建设、促进行业间的合作与交流、建立更加规范化的管理体系等方面,推动国产操作系统健康有序发展。只有这样,我们才能建立一个技术领先、安全可控、生态完善的国产操作系统生态,真正让国产操作系统成为一张具有丰富内涵和价值的名片。
从龙蜥Anolis OS看国产操作系统的未来
|
机器学习/深度学习 运维 算法
从K-means到高斯混合模型:常用聚类算法的优缺点和使用范围?
从K-means到高斯混合模型:常用聚类算法的优缺点和使用范围?
1895 0
|
负载均衡 Cloud Native Java
一文搞懂微服务架构之注册中心
介绍两种微服务架构中比较流行的注册中心:Consul、Nacos
一文搞懂微服务架构之注册中心