阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

简介: 本文整理自刘国华在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上的演讲。在演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。

211

扫描上述二维码或点我直达 免费领!

导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率达到了每个月至少85%,物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。

_

大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。

在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域- 里做的大量创新:

  • 我们已经开始大规模使用液冷集群来支持高密度计算
  • 我们在FPGA建设了统一的编译平台,可以提升研发效率接近30倍以上
  • 网络端我们也开始做大量的创新,总的带宽从25G到100G到400G

这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域,让AI重塑现有的基础设施。

智能化可以给未来的基础设施带来什么?

我们把智能化带来的价值分为三层:

_1

最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。

第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对IDC机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。

最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将所有故障的响应方式从被动响应转化为主动服务。

阿里巴巴运维体系重塑

智能化建设最关键的三件事情:

第一, 要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二, 建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三, 建立TCO模型,实现很好的反馈机制,利用反馈不断优化我们的模型。

在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这3大平台的改进与思考。

一、 基础设施规划与交付平台

首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。

我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。

第二个改造是,在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。

我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

二、集群自动化运维平台

集群自动化运维平台解决的核心问题是:

一、 怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。

但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?

第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。

在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:第一,基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;第二,通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。

第二,我们引入了一些算法去做智能异常检测,包含两部分:第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,在万分之八的误报率条件下,召回率比业界最新进展提升20%以上,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

三、数据中心智能运营平台

最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。

怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近20%的机柜密度。

同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化,实现全方位的智能化建设。

我今天分享就到这里,谢谢大家!

作者介绍:

刘国华(花名索尼),阿里巴巴研究员,2007年加入淘宝网,2009年作为核心架构师负责淘宝网重构,奠定了淘宝网系统全面服务化的基础,2013年担任聚划算事业部CTO,建立了服务阿里零售业务的智能营销平台。2016年加入基础设施事业群,负责阿里巴巴集团运维体系建设;同时兼任研发效能事业部负责人。致力于数据中心运维、集群管理、应用运维、研发支撑等领域平台建设,实现阿里巴巴对基础设施统一管控和资源优化,建设自主演进的智慧化运维和效能体系,Towards a Self-driving Data Center

PPT下载前往:https://yq.aliyun.com/download/3010

关注底部云效公众号,获取更多阿里巴巴智能运维技术干货。

关于云效:

云效,一站式企业协同研发云,源于阿里巴巴多年先进的管理理念和工程实践,提供从“需求->开发->测试->发布->运维->运营”端到端的协同服务和研发工具支撑。支持公有云、专有云和混合云的协同研发,助力企业产品快速创新迭代和研发效能升级。

_

相关文章
|
21天前
|
机器学习/深度学习 人工智能 运维
人工智能在云计算中的运维优化:智能化的新时代
人工智能在云计算中的运维优化:智能化的新时代
118 49
|
15天前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
308 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
|
5天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
51 13
|
12天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
63 12
|
23天前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
138 4
|
24天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
22天前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术在现代数据中心管理中的实际应用,分析了其带来的效率提升、成本节约及潜在风险。通过具体案例,阐述了智能监控、自动化故障排查、容量规划等关键功能如何助力企业实现高效稳定的IT环境。同时,文章也指出了实施过程中面临的数据隐私、技术整合及人才短缺等挑战,并提出了相应的解决策略。 --- ####
42 1
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
69 4
|
29天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
76 1