从华为IT运维,我终于知道了为什么华为敢做云

简介: 从华为IT运维,我终于知道了为什么华为敢做云

“华为虽然是一家ICT厂商,但本身也是一家企业,整个数字化转型过程其实走了三十年。”华为EBG中国区副总裁李同广在2018华为中国企业运维论坛上与笔者交流:“今天华为在运维全球200多个数据中心,基本上运维人员喝着咖啡搞运维。当然,这样的‘优雅运维’实际上经历了好几代运维体系的演进,最终实现了自动化和数字化。”

image.png

华为EBG中国区副总裁李同广


李同广的话让笔者想起了国内另一家云计算企业高管的表述:任何一家云计算领导厂商,背后都有一个母体,一方面为云业务提供巨额的资金支持;另一方面,也为云业务提供很好的应用场景。

很明显,华为就属于这一类——在很大程度上,是业务需求驱动了华为的数字化转型,驱动了华为的运维变得越来越高效,越来越自动化,越来越智能化。


业务需求之变


“前两天一位省厅委办局的客户给我提了一个问题,他说早些年IT已经形成了从省到市到县甚至到乡的四级IT架构,他特别关心行业数字化转型过程中间有谁可以帮他把整个运维体系做一个梳理。”李同广举了一个例子。

为什么省厅委办局如今对运维的需求变得越来越迫切?原因很简单,因为之前是各个委办局自己建IT,而今,IT集约化了,所有的运维压力都在省厅,哪一个地方出问题都可能会影响到业务,因此,整体运维的需求也就变得越来越迫切。

实际上,云计算也是一个典型的IT集约化的例子,当然,打通各个业务部门的孤岛,同样需要IT集约化。换句话说,今天每家企业都在提的数字化转型,其中的一个关键就是要打通以往的业务断点和数字断点,这就形成了企业IT部门运维压力的激增。

怎么破解这道难题?实际上,这也是华为举办2018华为中国企业运维论坛的初衷。

image.gifimage.png


华为是怎么做的?


“华为早期也是小作坊式的,每个业务系统做自己的运维,缺乏统一的流程与体系的支撑。”华为云数据中心总监张鹏回忆:“后来,华为的业务遍布全球之后,整个华为的用户数量越来越多,这就要求数据中心业务是永远在线的,不能美国操作中国就宕机。”

“要致富,先修路”——这句话在张鹏看来,实际上就是打造一个大平台,支撑各个业务部门精兵作战。

“我们从2014年开始,每年投资超过1000万美元,建设这个平台,为的就是降本增效。”张鹏说到关键,“这个投入是有回报的,比如从2016年到2017年,我们的全球资源利用率中,计算资源的利用率提升了近三倍;而对于用户来说,我们有800多个应用访问性能从10秒降到了3秒,在全球用户效率方面提升了3倍。”

image.pngimage.gif

华为云数据中心总监张鹏


更重要的是,通过大平台的改造,华为让自身数据中心的管理,实现了端到端全栈“毛细血管级”的数字化运营,从IaaS、PaaS到SaaS,可以实时在线洞察每个应用、每个用户的体验和效率。

这个大平台,就是华为的SmartIT运营平台,管理着华为全球200多个数据中心、5万多个机柜、30多万台服务器、1000+PB的数据、百万级的VM和多个异构的云环境。


大平台的核心


华为的SmartIT运营平台,包括eSee (可视化分析和智能运营)、eTicket(IT流程管理)、eWork(运维工作台)、eOps(运维自动化)、eWatch(监控管理)、eCMDB(配置管理)、eIAM(身份管理)等七大核心组件,并通过DevOps使能云与非云Bi-Model管理,连接各类角色与资源。

所有这些,提升用户体验和业务效率是核心,总结为“监、管、控、营、服”这五个关键字。

image.png

“监”是指数据中心、机房、计算、存储、网络等海量IaaS的智能运维管理的监控;“管”是指平台自动化联动打造按需随享的数据服务,集成共享、配置消费;“控”是指健康巡检、变更执行、自动发现实现海量运维操作自动化场景;“营”是基础设施、云服务、云资源的数字化、精细化、可视化运营;”服”就是事件、工单、流程、变更、需求、申请、权限等集中管理服务,高效运维。

很明显,这五字一体的云运维自动化能力,带来的目标只有一个:提升人机维护比,打破“海量云平台规模指数级增长与人力不显著增加”的矛盾,保障云平台基石的稳定运行。据称,华为一个10人规模的运维团队,可以高效完成150万VM云环境的运维管理。

不仅如此,华为SmartIT平台还可以实现多云管理,集成调用公有云服务,按需使用外部的多云服务,快速支撑业务应用上云。原因很简单,因为华为自己在全球各地不可能都耗费巨资部署数据中心。

华为全球百人的云数据中心运维团队,实现全球5万机柜的高效运维管理,最主要就是得益于华为的大平台。


运维也需要顶层设计


事实上,今天IT系统正在从以前的支撑系统,逐步变成各行各业的生产系统和决策系统——而有了自动化的高效运维管理,这一切都不是问题——ICT产业正在进入一个全新的产业周期。

“以前的数据中心要么是离散型的,缺乏统一的管理;建设和运维、敏捷开发和运维之间的矛盾没解决。”李同广认为:“在ICT成为企业的生产系统和决策系统之后,企业要适应市场、满足客户需求的快速迭代,不仅开发和运维必须拉通,团队组织需要变革,而且,ICT的运维变成了延伸到运营,从顶层设计就需要考虑清楚。”

具体到行业,实际上企业市场各个行业的数字化转型差异性仍然比较大,比如政府行业更关心运维组织和体系的建立,把原来烟囱式运维模式拉通;而金融客户则更关心业务连续性,特别是提前预判防止业务连续性出现问题。

“我们提出了行业运维成熟度模型,基于组织、流程与工具等维度去分析,到底现在客户处于哪一个水平?这样可以有针对性地提出我们的解决方案。”李同广所说的运维解决方案,已经从之前主要关注建设和运维阶段,向前扩到了前期顶层设计的咨询,向后延伸到运营。

在笔者看来,今天云的技术就是一种很好的通用型的顶层设计,降本增效,方便了数据资源的整合,促进了企业的数字化转型。而在IT运维管理上,由于云的集中化管理,规模巨大,就特别强调自动化和智能化,这也是华为近些年来IT运维投资的方向。

通过这次华为中国企业运维论坛,我终于知道了为什么华为敢做云,因为华为确实这些年积累了很多黑科技,也包括IT运维。

相关文章
|
运维 监控 数据可视化
未来企业级IT运维的发展趋势-华汇数据
IT监控运维的高要求与低成本之间的矛盾日益突出,对企业的IT运维提出了严峻的挑战。基于大数据的智能系统,逐渐取代了仅由人来操控规则系统的传统,让运维从成本中心的定位发展成服务中心。
193 0
未来企业级IT运维的发展趋势-华汇数据
|
运维 监控 数据可视化
政府企业网络设备如何实时监控?-华汇数据IT运维监控平台
平台可实时监控网络设备的运行状态、端口信息、流量状况、丢包情况和链路拥塞等指标信息,对关键指标异常可即时产生事件并实时报警,帮助运维人员在设备故障发生第一时间介入处理,有效保障网络设备的可靠性。
118 0
政府企业网络设备如何实时监控?-华汇数据IT运维监控平台
|
运维 调度 数据中心
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
137 0
如何推进IT运维数据中心问题管理
|
存储 数据采集 人工智能
用积木讲运维,这样的IT人太会了
日志服务SLS提供数据采集、加工、分析、告警可视化与投递功能,为AIOps、大数据分析、运营服务、大数据安全等场景提供支撑,并能以搭积木的方式适配各类运维场景,辅助企业的IT决策。近日,日志服务SLS新增了两项重磅功能,有助于进一步提升研发、运维等场景数字化能力。
388 0
用积木讲运维,这样的IT人太会了
|
人工智能 运维 监控
|
运维 监控 小程序
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
1341 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
|
运维 搜索推荐
企业IT运维的目的?华汇数据
在企业IT工程师团队中,对“三分技术,七分管理”这句箴言的信奉者占据了绝大数。当多个行业企业信息化建设走过大规模新建期后,IT运维成为企业IT的常态。系统、数据与业务的日益复杂,都加剧了企业IT运维的难度。
269 0
|
人工智能 运维 监控
IT运维人员,把握现在展望未来
  近年来,互联网在中国的发展势头迅猛并呈现出广阔前景。根据中国互联网络信息中心报告显示,截至2020年3月,我国网民规模已经达到9.04亿,互联网普及率增至67.0%,超全球平均水平。   互联网强劲发展的背后是整个IT行业的蓬勃。国家统计局发布的2019平均工资数据表明,工资最高的行业是信息传输、软件和信息技术服务业,IT行业从业人员平均年薪已超16万元。
220 0
|
运维
IT运维系统可用性分析
提供对应用可用性与负载之间的变化规律进行分析,以了解负载是否是造成可用性问题的原因。并且提供从应用模块、地域、用户组、服务器等多个角度对可用性进行对比分析,帮助用户了解问题是全局性还是局域性,以逐步缩小问题范围。同时系统也提供前N位最不可用的动作(页面)清单,以帮助用户找出经常出错页面供研究分析。
232 0
IT运维系统可用性分析
|
运维 监控 BI
报表管理在IT运维系统中主要有哪些?
DCOM提供各种监控统计分析,包括TopN排名分析、指标趋势分析、统计分析、时段对比分析、资源对比分析等,帮助运维人员准确评估IT环境运行情况,及早发现故障隐患和变化趋势,为IT运维决策提供参考依据。
340 0
报表管理在IT运维系统中主要有哪些?