带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 带你读《2022龙蜥社区全景白皮书》——6.2.3 龙蜥社区助力阿里数据中心大幅降低成本

6.2.3 龙蜥社区助力阿里数据中心大幅降低成本


每年双十一创造奇迹的背后,是巨大的成本投入。为了完成对流量峰值的支撑,我们需要大量的计算资源,而在平时,这些资源往 往又是空闲的。另一方面,为了在极端情况下,如机房整体断电等还能保障阿里巴巴的业务不受损失,也需要在全国各地建立冗余 资源。而且就算是一天当中,在线服务的负载也是不一样的,白天一般情况下要比凌晨高得多。根据盖特纳和麦肯锡前几年的调研 数据,全球的服务器的CPU利用率只有6%到12%。即使通过虚拟化技术优化,利用率还是只有7%-17%,而阿里巴巴的在线服务整 体日均利用率也在10%左右。


另一方面,全球从IT时代全面走向了DT时代,现在又在向更深入的AI时代迈进。各各样的大数据处理框架不断涌现,从Hadoop到 Spark,从Jstorm到Flink,甚至包括深度学习框架 Tensorflow 的出现,成千上万的数据分析背后是大量的计算任务,占用了大量的 计算资源。由于计算任务占用的计算量很高,CPU水位通常在50%-60%以上,不同于在线服务,计算任务的峰值通常出现在凌晨, 水位甚至能达到70%以上。所以我们往往就会建立独立的计算任务集群。


image.png


混部能产生这么大的帮助,可是业界能使用在生产的没有几家公司,其原因也非常简单,第一个是规模,第二个是技术门槛。当你 机器规模不够大的时候,显然意义不大。而在技术上,计算型任务通常都可以把利用率跑到很高,如果计算型任务和在线型业务运 行在同一台机器上,怎么避免计算型任务的运行不会对在线型业务的响应时间等关键指标不产生太大的影响呢,这个需要在技术上 有全方位的突破,而阿里巴巴从无到有,花了4年多的时间才让这项技术在电商域得以大规模落地。

相关文章
|
2月前
|
IDE 小程序 开发工具
【社区每周】商家平台数据中心功能升级;IDE 3.4.1 Beta 版本上线(1月第一期)
【社区每周】商家平台数据中心功能升级;IDE 3.4.1 Beta 版本上线(1月第一期)
13 0
|
人工智能 运维 新能源
阿里公布碳中和目标 阿里云数据中心助力2030绿色云
绿电交易+绿色科技+智能平台,阿里云数据中心助力2030绿色云~
阿里公布碳中和目标  阿里云数据中心助力2030绿色云
|
运维 机器人 双11
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
服务器能“泡澡”散热,机器人能值班接替近30%的重复性工作。 先进技术不仅做到高效运维,还能助力节能减排。
2021双11|央视财经走进阿里数据中心,探秘“买买买”背后的绿色科技
阿里数据中心数字孪生可视化
IDC 数字孪生产品的系统性解决方案。
阿里数据中心数字孪生可视化
|
达摩院 数据中心
阿里云集齐五大超级数据中心
位于南通、杭州和乌兰察布的三座超级数据中心正式落成,将新增超百万台服务器,辐射京津冀、长三角、粤港澳三大经济带。
1320 1
阿里云集齐五大超级数据中心
|
新零售 Java 测试技术
独家揭秘!阿里大规模数据中心的性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
6154 0
|
新零售 Java 测试技术
独家解密:阿里大规模数据中心性能分析
数据中心已成为支撑大规模互联网服务的标准基础设施。随着数据中心的规模越来越大,数据中心里每一次软件(如 JVM)或硬件(如 CPU)的升级改造都会带来高昂的成本。合理的性能分析有助于数据中心的优化升级和成本节约,而错误的分析可能误导决策、甚至造成巨大的成本损耗。
3667 0
|
算法 大数据 程序员
1月14日云栖精选夜读 | 如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!
阿里妹导读:如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。
2970 0