阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设

简介: 本文整理自刘国华在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上的演讲。在演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。

211

扫描上述二维码或点我直达 免费领!

导语:在2018年开放数据中心峰会(Open Data Center Summit 2018)开幕式上阿里巴巴研究员刘国华发表了《阿里巴巴智能运维体系建设》的主题演讲。演讲中,刘国华介绍了智能化给阿里巴巴未来基础设施带来的三大价值:数据驱动决策、全局优化和变革。基于智能化,阿里巴巴重塑了运维体系。通过智能化建设,基础设施的交付效率提升了247%,需求预测准确率达到了每个月至少85%,物理机集群实现了100%全自动化运维。以下是他的演讲内容实录。

_

大家好,很荣幸可以跟大家分享一下阿里巴巴在智能化领域的建设。

在开始智能化运维之前,先跟大家分享一下过往两年内,阿里巴巴在专业领域- 里做的大量创新:

  • 我们已经开始大规模使用液冷集群来支持高密度计算
  • 我们在FPGA建设了统一的编译平台,可以提升研发效率接近30倍以上
  • 网络端我们也开始做大量的创新,总的带宽从25G到100G到400G

这些创新支持了现有所有AI业务的发展,同时我们也把AI融入到基础设施领域,让AI重塑现有的基础设施。

智能化可以给未来的基础设施带来什么?

我们把智能化带来的价值分为三层:

_1

最底层是数据驱动决策。当我们所有的专业领域业务、所有的数据逐步实现在线化,带来的第一层价值是保证演进是围绕着数据展开的。第二层价值是,逐步透明化可以帮我们发现基础设施层可以突破的技术点,每家公司的业务都是不同的,对底层也会有不同的诉求,这是最下层数据驱动决策层的价值。

第二层是全局优化。我们把所有的业务在线化、全面数字化之后,我们才有机会看到每个专业领域里核心的突破点在什么地方。我们都知道,数据中心内部会规划上架密度,怎样的上架密度是更合理的方式?传统的方式是先对服务器的功耗提出一个评估,然后对IDC机架做评估,而现在的方式是把优化变成实时动态的方式,来提升数据中心的利用率。

最后一层是变革。当我们把智能化的能力运用到平台,就有能力把特殊的点转化为极大的优势。以前所有的硬件故障发生的时候,所有的数据中心的运维模式都是属于被动式响应。当智能化后,使用预测算法,就可以提前预估到所有故障,将所有故障的响应方式从被动响应转化为主动服务。

阿里巴巴运维体系重塑

智能化建设最关键的三件事情:

第一, 要把基础设施全面数字化,让所有东西都变成可衡量的体系。
第二, 建设端到端、从业务到基础设施全链条的自动化平台,保证你的决策规划和响应速度。
第三, 建立TCO模型,实现很好的反馈机制,利用反馈不断优化我们的模型。

在智能化领域,我们采用的是横跨专业、机器学习以及优化算法的跨界思考逻辑,基于这样的思路,阿里巴巴重新规划建设了基础设施领域的三大平台——基础设施规划与交付平台、集群自动化运维平台和数据中心智能运营平台。
通过为这三大平台引入智能化,我们重新创造出了与原来三大功能平台不一样的业务形态。下面我将具体分享智能化时代里,我们对这3大平台的改进与思考。

一、 基础设施规划与交付平台

首先分享一下阿里巴巴的基础设施规划与交付平台。这个平台的主要职责从业务需求规划到基础设施规划,再到硬件研发、IDC建设、生产供应链以及OS交付、自动化交付平台。这个平台负责阿里巴巴所有基础设施的规划、建设与交付。最主要的两个职责:第一是提升整体交付效率;第二是保证在不断供的情况下实现成本最优。

我们在很多领域里引入算法后,做了很多大的改造。第一个改造是基于机器学习的方式,建立业务规划驱动。这种方式可以让业务具有更强的规划性,在平台可以快速把业务的规划转化成基础设施的规划,提升整体的基础设施交付链路。通过这种方式,我们提升的效率接近247%。

第二个改造是,在链路已经全面在线化的时候,引入智能预测/预警系统,可以实时感知到业务的任何变化,并且做出实时决策。通过这种方式来提升运营效率,保证全面响应完全是围绕业务的驱动去建设的。

第三个改造,我们为所有专业建设了供需模拟沙盘以及上架策略模拟,通过这种方式可以在线不断模拟以及优化阿里巴巴内部供应链的策略以及上架策略,实时反馈到在线系统,持续优化供应链。

我们在做需求预测,业务端的数据,包括前端的数据,比如阿里云的销售数据,以及下沉的基础设施的库存体系,结合机器学习的方式,解决需求预测的模式。目前我们的准确率最少会达到每个月85%左右。我们现在已经推动所有的业务按这种方式运作,从而让基础设施的建设具有极强的规划性。

二、集群自动化运维平台

集群自动化运维平台解决的核心问题是:

一、 怎样提升服务器规模化后的运维效率问题,以及基于业务视角的成本最优的解决方案。
二、 怎么保证业务的稳定性。基础设施下面的任何故障不会影响上面所有业务的发展。

但是,当你业务发展规模到一定阶段的时候,故障一定是不可避免的,我们怎么做?

第一,阿里巴巴集群运维平台建设了一个全自动化的运维方式,这种运维方式最大的优势在于,我们跟所有业务调度的方式,用了一种高标准的协议交互模式,可以把所有物理机的运维跟上层运维相互解耦,实现无人化的运维。阿里巴巴现在物理机集群已经100%运用全自动化运维方式,这是第一层在工程上的建设结果。

在智能化领域,我们还为所有的业务的提供基于业务视角的数据决策支撑的平台。平台最大的价值在于:第一,基于我们的数据平台,可以把我们所有基础设施的成本、利用率融入到业务调度里,实现成本最优化;第二,通过对不同类型业务的专业优化,来提升整体业务的成本竞争力。

第二,我们引入了一些算法去做智能异常检测,包含两部分:第一部分是我们在基础设施领域在硬件领域做了大量的故障预测,通过故障预测去提前发现故障;第二部分是业务变更预测,我们会把所有业务的变更通过这个平台进行预测,来看它变更后带来的业务的影响。通过这样预测的方式,结合刚才介绍的集群运维的主动服务能力,可以把集群运维的方式从原来被动的响应式逐步转到现在做的主动服务式的模式。我们在硬盘故障上的预测结果,在万分之八的误报率条件下,召回率比业界最新进展提升20%以上,我们还在做宕机、网络故障预测以内层故障预测,会坚持用这种方式逐步把我们运维的模式从原来被动响应转成主动服务。

三、数据中心智能运营平台

最后一个平台是阿里巴巴的数据中心运营平台,这个平台的目标是提升数据中心内部运营效率以及实现能耗最优。

怎么解决运维效率的问题?通过智能的方式建设一个自主运维平台,通过很多算法的决策来尽可能提升自主运维的成功率。目前为止,通过这种方式我们可以把阿里巴巴每个人运维的服务器台数提升接近60%。
我们会建设一个全局能耗平台来做全局动态节能体系,我们会在每个领域做深度能耗优化,把能耗的数字化逐步跟上层业务结合起来,提升机柜利用率。对于最核心的业务,我们最大可以提升接近20%的机柜密度。

同时我们在做专业领域的弹性机柜电力的创新,未来会把利用率提升更高,希望未来在数据中心可以把电力利用率和设计利用率相符。这是基于机器学习的算法做PUE的优化,目前通过深度学习的方式在现在的机房实测可以优化接近20%的PUE。未来数据中心的优化联动会全自动化,实现动态优化PUE。

除了刚才介绍的供应链、服务器、数据中心外,我们在应用层、监控、集群运维都会大量投入智能化,实现全方位的智能化建设。

我今天分享就到这里,谢谢大家!

作者介绍:

刘国华(花名索尼),阿里巴巴研究员,2007年加入淘宝网,2009年作为核心架构师负责淘宝网重构,奠定了淘宝网系统全面服务化的基础,2013年担任聚划算事业部CTO,建立了服务阿里零售业务的智能营销平台。2016年加入基础设施事业群,负责阿里巴巴集团运维体系建设;同时兼任研发效能事业部负责人。致力于数据中心运维、集群管理、应用运维、研发支撑等领域平台建设,实现阿里巴巴对基础设施统一管控和资源优化,建设自主演进的智慧化运维和效能体系,Towards a Self-driving Data Center

PPT下载前往:https://yq.aliyun.com/download/3010

关注底部云效公众号,获取更多阿里巴巴智能运维技术干货。

关于云效:

云效,一站式企业协同研发云,源于阿里巴巴多年先进的管理理念和工程实践,提供从“需求->开发->测试->发布->运维->运营”端到端的协同服务和研发工具支撑。支持公有云、专有云和混合云的协同研发,助力企业产品快速创新迭代和研发效能升级。

_

相关文章
|
11天前
|
机器学习/深度学习 人工智能 运维
智能化运维####
本文深入探讨了智能化运维的前沿趋势与实践,通过融合大数据、人工智能等先进技术,重塑传统IT运维模式。我们分析了智能化运维的核心价值,包括提升效率、减少故障响应时间及增强系统稳定性,并通过具体案例展示了其在现代企业中的应用成效。对于追求高效、智能运维管理的组织而言,本文提供了宝贵的洞见和策略指导。 ####
|
13天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
11天前
|
机器学习/深度学习 人工智能 运维
智能运维在现代IT系统中的应用与挑战####
本文深入探讨了智能运维(AIOps)在现代IT系统中的关键作用,通过具体案例分析,揭示了其在提升系统稳定性、优化资源配置及自动化故障处理方面的显著优势。同时,文章也指出了实施智能运维过程中面临的数据安全、技术整合及人员技能转型等挑战,并提出了相应的解决策略,为读者提供了全面而深刻的见解。 ####
38 6
|
13天前
|
机器学习/深度学习 运维 监控
智能化运维:从被动响应到主动预防的转型之路####
本文深入探讨了智能化运维(AIOps)如何引领信息技术管理从传统的被动响应模式向主动预防机制转变,强调了大数据、人工智能算法与机器学习技术在提升系统稳定性和效率中的关键作用。通过分析智能化运维的核心价值、实施策略及面临的挑战,本文为读者揭示了一个更加智能、高效且灵活的IT运维未来蓝图。 ####
|
11天前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
11天前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
10天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
54 4
|
19天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
47 4
|
1月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
73 1