带你读《企业数字化基石-阿里巴巴云计算基础设施实践》第一章基础设施架构综述1.3基础设施的技术价值(二)

简介: 《企业数字化基石-阿里巴巴云计算基础设施实践》第一章基础设施架构综述1.3(二)

1.3.2稳定性

基础设施作为支持和运行业务的重要生产资料之一,其稳定性也极大地影响着业务的稳定性。

基础设施特别是硬件类设备一定会存在故障,云计算将基础设施的不稳定作为基本假设来设计系统——这一点也成为云计算区别于传统设备供应商的核心竞争力之一——因此会在业务层设计容灾措施,例如阿里巴巴电商类业务的同城双活、异地多活架构就降低了对基础设施的依赖。但是并非所有业务都拥有完善的架构来应对基础设施故障,因此基础设施的稳定性 SLAServiceLevelAgreement/OLAOperational LevelAgreement)仍然是一个长期的挑战。

同时,稳定性的 SLA/OLA并非越高越好,针对某些特定业务,我们适当降低

SLA/OLA的要求可以有效提高成本优势和效率,这将在后面各章节详细展开。

IDC

UptimeInstituteTIA都将数据中心分为四个等级,即 TierITierIV,直观来说,等级越高的数据中心稳定性越好。

中国质量认证中心(CQC的标准 GB50174-2008将数据中心分为ABC个等级,其中 A级为最高。

IDC作为底层的基础设施,出问题之后影响面也往往最大,同时稳定性的挑战也最大。一般来说,IDC触发的故障都是非常严重的故障,例如,2015621日阿里云中国香港机房故障导致的业务中断超过12 小时的严重事件:

6 21 日上午 9 37 分,阿里监控系统发现阿里云中国香港 IDC运营商名气通机房出现访问异常,名气通机房反馈的原因为供电系统故障导致数据中心大楼整体断电,并触发消防报警。根据当地的消防规定,必须彻底排查隐患并完全消除后,才能获准进场做电力抢修。2122分,机房正式恢复稳定供电,阿里立即执行既定预案逐项恢复服务,2132分,安全防护服务恢复正常,各项服务陆续恢复,截至 23

39分全部服务恢复。”

因此,IDC作为底层的基础设施,稳定性是重中之重。 

网络

作为连通所有服务器、所有服务与用户的管道,网络稳定与否将第一时间影响业务及用户,因此也被提出非常高的稳定性要求,特别是要杜绝大规模故障。

网络稳定性的典型表征是故障多、影响大、排查难、恢复慢。

在影响业务的严重故障中,网络的原因也经常有,2015527日支付宝故障就是非常典型的例子:

杭州市萧山区某地光纤被挖断,造成目前少部分用户无法使用支付宝,运营商正在抢修,支付宝工程师正在紧急将用户请求切换至其他机房,受影响的用户正在逐步恢复。用户的资金安全并不会因此受到任何影响。如果出现交易信息不同步的情况,在修复后会恢复同步。”

传统网络作为一套封闭系统,涉及复杂的软硬件及多厂商设备、协议等兼容性问题,非常容易触发稳定性问题。小到一台接入交换机(ToRSwitch/ASW,大到核心交换机、路由器及运营商网络和光纤,都可能出现轻微或非常严重的问题。

对于网络稳定性,如何做到架构上冗余、出问题快速发现乃至自动恢复是未来网络的重点课题,这部分,我们将在第 5 章及第 10 章重点探讨。

服务器

成熟的互联网应用是基于硬件的不可靠性这一基本假设来设计的,对单一服务器的稳定性要求不高。但是对服务器稳定性的挑战有以下两个方面:

•   批次性问题:损失超出了业务设计的容忍范围或者多余的人力投入。

•   资源售卖型云计算服务对单机的可靠性依赖。

如何从服务器的设计、研发、生产、交付、运营各个环节系统化地避免服务器的批次性问题,是服务器研发的重要挑战,我们将在第 6 章做相关探讨。

1.3.3 TCO

任何有竞争力的产品对用户来说都应该是 TCOTotalCostofOwnership)最优的。在基础设施领域,TCO也是稳定性之外最重要的衡量指标,或者极端地说,任何不能降低 TCO的创新都是假创新。

TCO的核算是一个非常复杂和困难的课题,比如阿里巴巴之前以单笔交易(或支付)成本作为衡量指标来评估基础设施水平。但是由于业务的不断发展、业务类型

 

不断丰富、用户体验提升、安全对抗加剧、市场容量饱和等因素,需要全局的成本建模,这会在第 2 章详细阐述。

1.3.4 稳定性、性能、成本的平衡

任何事情都有两面性,就像RFC192512条中的第 7条说的一样,基础设施的特性决定了基础设施研发和创新的困难:

•   稳定性、性能、成本平衡困难(如图 1-11所示

•   复杂的系统工程,领域众多、依赖度高、牵一发而动全身。

•   硬件研发和迭代周期长,投入资源量巨大。

image.png

 

1-11稳定性、性能、成本

 

要应对这些困难和挑战,做到基础设施的宏观架构与微观架构统一,需要科学的方法论和实践,更需要 AI等技术的加持,才能求得基础设施的最优解,详见第9和第 10 章的相关内容。

1.3.5追求效率、标准化、规范化

因为大规模系统在建设、采购、交付和运营各个环节都要保证效率最大化,所以对规范、标准方面的要求就成为提升效率的最有效抓手,且规范和标准也是提升稳定性的有效手段之一。

例如如何做到大规模情况下服务器交付效率的提升,已经成为当前阶段的重要课题。互联网行业的最佳实践是采用整机柜交付模式,这一交付模式本身就要求在机架层面的规范化和标准化,以实现以机柜为单位的可复制,来提升交付效率。

僵化的规范与标准可能会成为阻碍创新的绊脚石,我们要能够根据技术发展、业务变化快速地更新优化规范与标准。


相关文章
|
14天前
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
207 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
2月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
2月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
10天前
|
机器学习/深度学习 缓存 自然语言处理
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
DeepSeekMoE是一种创新的大规模语言模型架构,融合了专家混合系统(MoE)、多头潜在注意力机制(MLA)和RMSNorm归一化。通过专家共享、动态路由和潜在变量缓存技术,DeepSeekMoE在保持性能的同时,将计算开销降低了40%,显著提升了训练和推理效率。该模型在语言建模、机器翻译和长文本处理等任务中表现出色,具备广泛的应用前景,特别是在计算资源受限的场景下。
242 29
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型架构
|
2月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
197 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
7天前
|
机器学习/深度学习 算法 文件存储
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
35 10
YOLOv11改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
3天前
|
机器学习/深度学习 算法 文件存储
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
16 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
1天前
|
弹性计算 负载均衡 安全
【上云基础系列-02】企业推荐!必学必会的上云标准架构(弹性架构)
本文介绍上云标准弹性架构,针对企业业务发展需求,推荐使用多服务器的弹性架构而非单体架构。方案包含负载均衡、NAT网关、云服务器ECS、云数据库RDS等组件,确保业务的负载分担、冗余备份及平滑扩展。通过统一公网暴露面管理和VPC网络设计,保障架构的稳定性、安全性和可扩展性。该架构适用于中小企业上云,避免性能瓶颈和迭代升级困难,支持业务持续发展。更多内容可参考下方演进说明总览。
|
19天前
|
存储 缓存 关系型数据库
社交软件红包技术解密(六):微信红包系统的存储层架构演进实践
微信红包本质是小额资金在用户帐户流转,有发、抢、拆三大步骤。在这个过程中对事务有高要求,所以订单最终要基于传统的RDBMS,这方面是它的强项,最终订单的存储使用互联网行业最通用的MySQL数据库。支持事务、成熟稳定,我们的团队在MySQL上有长期技术积累。但是传统数据库的扩展性有局限,需要通过架构解决。
57 18
|
2月前
|
监控 数据可视化 架构师
为什么企业需要开展架构治理?
随着数字化转型加速,企业面临的技术和业务环境日益复杂,传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键,通过确保技术与战略对接、优化资源利用、降低风险和复杂性,提升企业灵活性、效率和创新能力,支持快速响应市场变化,推动数字化转型成功。
143 7
为什么企业需要开展架构治理?