从特斯拉“断网” 看应用高可用

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
私网连接 PrivateLink,5万GB流量 1.5万小时实例时长
简介: 近日,据英国广播公司(BBC)报道,数十名特斯拉车主在社交媒体上抱怨,他们在手机应用程序上收到错误提示“故障代码500”,无法连接到自己的汽车。这种问题该如何避免或者优化?阿里云网络给出了答案。英国《卫报》称,来自美国、加拿大的车主率先报告这一问题,欧洲和亚洲的车主也发现了类似状况。据网络状况监控网站DownDetector的数据显示,在美东时间19日16时40分左右,约500名用户报告该问题,而到当日21时20分左右,仍有60份问题报告。(新闻内容源于网络)

11211.gif


前言


近日,据英国广播公司(BBC)报道,数十名特斯拉车主在社交媒体上抱怨,他们在手机应用程序上收到错误提示“故障代码500”,无法连接到自己的汽车。这种问题该如何避免或者优化?阿里云网络给出了答案。英国《卫报》称,来自美国、加拿大的车主率先报告这一问题,欧洲和亚洲的车主也发现了类似状况。据网络状况监控网站DownDetector的数据显示,在美东时间19日16时40分左右,约500名用户报告该问题,而到当日21时20分左右,仍有60份问题报告。(新闻内容源于网络)


image.png


随着特斯拉“断网”事件的发酵,很多人逐渐将目光移到了这次全球范围故障的原因上,比如那个“故障代码500”的错误提示。这个代码是http协议中常见的错误码提示,代表服务器由于遇到错误而不能及时处理用户的http请求,或者说应用程序的高可用出现了问题。




没有高可用的智能,极大可能变"智障"


在没有今天这样的事件发生以前,大家往往都会认为,特斯拉汽车高度智能化,将汽车解锁,启动等车钥匙的功能都集成进入了一张小小的卡片,或是用户手机上的一款APP,这样无需带实体钥匙,便可实现车辆的解锁与启动,方便快捷,体验感拉满。但是我们必须注意到这样的便捷不是没有代价的,其背后有着一套复杂的云端业务处理系统在时刻不间断的提供服务,从而创造出便捷的用户体验。但假如这套系统没有高可用保障,时不时出现各种故障,可真就不如最传统的机械钥匙来的靠谱了,“智能”就变成了“智障”。


image.png

image.png


如何构建云端应用的高可用?


通常云端应用都需要构建4级高可用架构,即:应用级、集群级、可用区级以及地域级;


应用级高可用客户端一般都会具备高可用逻辑,有各种重试机制保护,而服务端则要提供相应的服务探活能力,也被称为健康检查。当某个服务实例出现不可用情况,要及时将其从服务链路中隔离,避免请求分发到不可用的服务实体;


集群级高可用:一般云端应用多分集群部署,避免单机故障,某一台机器因为各种意外出现不可用情况时,还有其他机器可以接替服务;


可用区高可用:当代云端应用通常都会把服务部署在多个不同可用区,不同可用区之间是物理隔离的机房,有着独立的供电与网络连接,确保在某一个机房出现整体故障时,服务依然可续;


地域级高可用:在金融、能源等核心关键领域,对高可用有着更高要求,往往还会要求多地域容灾能力建设,即在某一个地域发生洪水、地震等不可抗力的灾难时,服务依然要能够永续。



阿里云应用型负载均衡ALB


要构建上述4级高可用,就离不开负载均衡。阿里云应用型负载均衡ALB可以提供完整的4级高可用能力,确保业务Always Online;


image.gifimage.png



在今年的云栖大会上,应用型负载均衡ALB进行了重磅升级,SLA提升至99.995%


image.pngimage.gif


性能超强的ALB可以处理高达100万QPS的业务请求,拥有极其丰富的高级路由能力,可替代自建3方负载均衡,支持业界领先的可编程能力,ALB不仅与阿里云云原生相关服务深度集成(ACK/ASK/SAE/FC等),还支持原生K8S,


image.gif




相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
19天前
|
消息中间件 存储 NoSQL
物联网设备频繁断网,如何打赢智慧社区的流量洪峰之战?
本文详细介绍了智慧社区中物联网(IOT)技术的应用,重点讨论了物联网流量洪峰的处理方法。文章分析了上行和下行消息的特点,并提出了上下行拆分、多泳道消息队列、实时消息优先处理、连接计算存储分离及推拉结合的消息策略,以优化消息队列,确保系统稳定运行。通过这些技术手段,智慧社区的物联网设备能在各种场景中保持高效运作。
32 2
|
Windows
电脑硬件出现故障如何去修理?
电脑硬件出现故障如何去修理?
|
缓存 运维 监控
撤出云平台六年后,我们做了一次“断网测试”
把时间线拨到 2021 年 11 月 18 日星期四,Dropbox 服务一切如常。用户没有感觉到任何异样,就如同无数个岁月静好的日子。但真是这样吗?当然不是,那天下午五点,一群 Dropbox 员工在 Zoom 频道里吵作一团,因为大家突然接到命令,要求把圣何塞数据中心跟 Dropbox 网络直接断开。
193 0
撤出云平台六年后,我们做了一次“断网测试”
|
供应链 监控 数据可视化
人工成本上升+设备停机率高,制造企业该如何破而后立?
随着制造业的高度成熟,当代企业面临劳动力成本持续上升,明明已经实现工厂半机械化,但是生产成本依然居高不下的同时,深陷行业价格战而难以自拔等问题。当面对这些问题的夹击,围绕着如何“破”以及如何“立”,成为制造业企业迫切需要解决的问题。
人工成本上升+设备停机率高,制造企业该如何破而后立?
|
存储 SQL Oracle
有“备”无患,互联网“黑天鹅”事件杀手锏来了!
我们“拍了拍”你,送你一份必杀技
1626 0
有“备”无患,互联网“黑天鹅”事件杀手锏来了!
全国性大面积网络故障 又一起暴风影音事件?
  6月25日17:45左右,记者在广州地区上网发现许多网页都无法打开,只有部分网站能偶尔打开,但打开的速度非常缓慢。而腾讯QQ则出现不时掉线的情况。   网友猜:电信有问题?又一起暴风影音事件?   记者通过QQ与朋友联络,发现广州地区普遍出现上述情况。
1742 0