从华为IT运维,我终于知道了为什么华为敢做云

简介: 从华为IT运维,我终于知道了为什么华为敢做云

“华为虽然是一家ICT厂商,但本身也是一家企业,整个数字化转型过程其实走了三十年。”华为EBG中国区副总裁李同广在2018华为中国企业运维论坛上与笔者交流:“今天华为在运维全球200多个数据中心,基本上运维人员喝着咖啡搞运维。当然,这样的‘优雅运维’实际上经历了好几代运维体系的演进,最终实现了自动化和数字化。”

image.png

华为EBG中国区副总裁李同广


李同广的话让笔者想起了国内另一家云计算企业高管的表述:任何一家云计算领导厂商,背后都有一个母体,一方面为云业务提供巨额的资金支持;另一方面,也为云业务提供很好的应用场景。

很明显,华为就属于这一类——在很大程度上,是业务需求驱动了华为的数字化转型,驱动了华为的运维变得越来越高效,越来越自动化,越来越智能化。


业务需求之变


“前两天一位省厅委办局的客户给我提了一个问题,他说早些年IT已经形成了从省到市到县甚至到乡的四级IT架构,他特别关心行业数字化转型过程中间有谁可以帮他把整个运维体系做一个梳理。”李同广举了一个例子。

为什么省厅委办局如今对运维的需求变得越来越迫切?原因很简单,因为之前是各个委办局自己建IT,而今,IT集约化了,所有的运维压力都在省厅,哪一个地方出问题都可能会影响到业务,因此,整体运维的需求也就变得越来越迫切。

实际上,云计算也是一个典型的IT集约化的例子,当然,打通各个业务部门的孤岛,同样需要IT集约化。换句话说,今天每家企业都在提的数字化转型,其中的一个关键就是要打通以往的业务断点和数字断点,这就形成了企业IT部门运维压力的激增。

怎么破解这道难题?实际上,这也是华为举办2018华为中国企业运维论坛的初衷。

image.gifimage.png


华为是怎么做的?


“华为早期也是小作坊式的,每个业务系统做自己的运维,缺乏统一的流程与体系的支撑。”华为云数据中心总监张鹏回忆:“后来,华为的业务遍布全球之后,整个华为的用户数量越来越多,这就要求数据中心业务是永远在线的,不能美国操作中国就宕机。”

“要致富,先修路”——这句话在张鹏看来,实际上就是打造一个大平台,支撑各个业务部门精兵作战。

“我们从2014年开始,每年投资超过1000万美元,建设这个平台,为的就是降本增效。”张鹏说到关键,“这个投入是有回报的,比如从2016年到2017年,我们的全球资源利用率中,计算资源的利用率提升了近三倍;而对于用户来说,我们有800多个应用访问性能从10秒降到了3秒,在全球用户效率方面提升了3倍。”

image.pngimage.gif

华为云数据中心总监张鹏


更重要的是,通过大平台的改造,华为让自身数据中心的管理,实现了端到端全栈“毛细血管级”的数字化运营,从IaaS、PaaS到SaaS,可以实时在线洞察每个应用、每个用户的体验和效率。

这个大平台,就是华为的SmartIT运营平台,管理着华为全球200多个数据中心、5万多个机柜、30多万台服务器、1000+PB的数据、百万级的VM和多个异构的云环境。


大平台的核心


华为的SmartIT运营平台,包括eSee (可视化分析和智能运营)、eTicket(IT流程管理)、eWork(运维工作台)、eOps(运维自动化)、eWatch(监控管理)、eCMDB(配置管理)、eIAM(身份管理)等七大核心组件,并通过DevOps使能云与非云Bi-Model管理,连接各类角色与资源。

所有这些,提升用户体验和业务效率是核心,总结为“监、管、控、营、服”这五个关键字。

image.png

“监”是指数据中心、机房、计算、存储、网络等海量IaaS的智能运维管理的监控;“管”是指平台自动化联动打造按需随享的数据服务,集成共享、配置消费;“控”是指健康巡检、变更执行、自动发现实现海量运维操作自动化场景;“营”是基础设施、云服务、云资源的数字化、精细化、可视化运营;”服”就是事件、工单、流程、变更、需求、申请、权限等集中管理服务,高效运维。

很明显,这五字一体的云运维自动化能力,带来的目标只有一个:提升人机维护比,打破“海量云平台规模指数级增长与人力不显著增加”的矛盾,保障云平台基石的稳定运行。据称,华为一个10人规模的运维团队,可以高效完成150万VM云环境的运维管理。

不仅如此,华为SmartIT平台还可以实现多云管理,集成调用公有云服务,按需使用外部的多云服务,快速支撑业务应用上云。原因很简单,因为华为自己在全球各地不可能都耗费巨资部署数据中心。

华为全球百人的云数据中心运维团队,实现全球5万机柜的高效运维管理,最主要就是得益于华为的大平台。


运维也需要顶层设计


事实上,今天IT系统正在从以前的支撑系统,逐步变成各行各业的生产系统和决策系统——而有了自动化的高效运维管理,这一切都不是问题——ICT产业正在进入一个全新的产业周期。

“以前的数据中心要么是离散型的,缺乏统一的管理;建设和运维、敏捷开发和运维之间的矛盾没解决。”李同广认为:“在ICT成为企业的生产系统和决策系统之后,企业要适应市场、满足客户需求的快速迭代,不仅开发和运维必须拉通,团队组织需要变革,而且,ICT的运维变成了延伸到运营,从顶层设计就需要考虑清楚。”

具体到行业,实际上企业市场各个行业的数字化转型差异性仍然比较大,比如政府行业更关心运维组织和体系的建立,把原来烟囱式运维模式拉通;而金融客户则更关心业务连续性,特别是提前预判防止业务连续性出现问题。

“我们提出了行业运维成熟度模型,基于组织、流程与工具等维度去分析,到底现在客户处于哪一个水平?这样可以有针对性地提出我们的解决方案。”李同广所说的运维解决方案,已经从之前主要关注建设和运维阶段,向前扩到了前期顶层设计的咨询,向后延伸到运营。

在笔者看来,今天云的技术就是一种很好的通用型的顶层设计,降本增效,方便了数据资源的整合,促进了企业的数字化转型。而在IT运维管理上,由于云的集中化管理,规模巨大,就特别强调自动化和智能化,这也是华为近些年来IT运维投资的方向。

通过这次华为中国企业运维论坛,我终于知道了为什么华为敢做云,因为华为确实这些年积累了很多黑科技,也包括IT运维。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
78 2
|
8天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
29 4
|
19天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用与挑战###
本文探讨了人工智能(AI)技术在IT运维领域的应用现状、具体实现方式及其面临的挑战。通过分析AI如何优化故障预测、自动化处理和资源管理,文章旨在揭示AI赋能下运维工作的变革潜力与实践难题,为读者提供对智能化运维趋势的深刻理解。 ###
|
27天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
2月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
28天前
|
机器学习/深度学习 运维 监控
智能运维在现代IT架构中的转型之路####
【10月更文挑战第29天】 本文旨在探讨智能运维(AIOps)如何成为现代IT架构不可或缺的一部分,通过分析其核心价值、关键技术及实践案例,揭示AIOps在提升系统稳定性、优化资源配置及加速故障响应中的关键作用。不同于传统运维模式的被动响应,智能运维强调预测性维护与自动化处理,为企业数字化转型提供强有力的技术支撑。 ####
68 0
|
1月前
|
人工智能 运维 监控
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
64 0
|
1月前
|
机器学习/深度学习 边缘计算 运维
运维技术深度解析:构建高效、稳定的IT基础设施
【10月更文挑战第22天】运维技术深度解析:构建高效、稳定的IT基础设施
54 0