圆桌对话:云时代下,企业运维面临的挑战与机遇

简介: 四位企业运维大咖展开对话,讨论“云时代下,企业运维面临的挑战与机遇”。

编者按:上云,已经成为了企业势不可挡的选择。云计算所拥有的“软件定义一切”的特性,推动了敏捷弹性、DevOps、智能运维和基础设施即代码等自动化运维趋势,给企业研发运维体系的进一步升级带来机会,也给企业架构师与运维工程师带来了新的挑战。


12月10日,在2021云上架构与运维峰会上,阿里云邀请到了CSDN生态内容总监董世晓作为负责人,与高效运维社区华东技术负责人陈刚、红帽资深解决方案架构师陈炯、大搜车基础设施部负责人李同刚和任意门运维负责人尤首智四位大咖展开对话,讨论“云时代下,企业运维面临的挑战与机遇”。


以下为圆桌讨论实录整理:


主持人.png

主持人:CSDN生态内容总监  董世晓


四位圆桌对话嘉宾

圆桌对话嘉宾.jpg



Q1企业为什么要上云?


主持人:上云已经是业内共识,但也存在一些不同的声音。各位嘉宾都是上云的资深人士,那么首先想跟各位探讨一下,企业为什么要上云?上云带来哪些好处?还存在哪些问题?


陈刚:这是一个常谈常新的话题。企业上云最主要的驱动力是在IT成本方面的巨大优势。云厂商的价格在逐年下降,这对很多企业形成了巨大的诱惑力。一些入门级的云服务器配置,一年的价格都在千元之内,中小企业面对这样的低价很难不动心。企业自己买一个机器放在托管机房,再加上人力维护成本,花费估计是云服务器的10倍以上。企业上云,成本可控力是其巨大动力。


第二点就是随着云计算技术的发展,各种IaaS、PaaS、SaaS平台和应用日渐成熟,大小企业都希望能够在云技术方面与时俱进,享受到最新的云技术带来的IT优势,在激烈的市场竞争当中保持科技领先优势。


与此同时,我们也要理性地去判断企业上云的利与不利,做出最适合自己的选择。我从事运维工作超过20年,服务的企业包括国内外的一些电商、金融企业以及云厂商,参与过一些机房的建设以及运营,也见识过很多企业上云成功和失败的案例。


企业上云的成本节约对中小企业效果最明显,因为这类企业的要求都是一些标准化的需求,比如前后端、中间件、数据库,基本不需要定制的IT框架,现有的云仓标准方案就可以解决。但是一旦企业上了规模,比如说金融行业,银行、保险、证券这些大型企业,上云就比较曲折,在初期甚至还会增加一些IT成本。


因为在上云的过程当中,很多企业既要保持现有的基于实体机和虚拟机构架的稳定运行,又要在上云的过程中稳定运行。所以他们需要投入额外的人力进行技术试点和技术探索,并且在过程当中要一直保持服务的兼容性。同时,很多大型企业会提出一些更高的要求比如构架回退计划,这几乎相当于高危动作,这些动作无疑都会增加企业在初期的IT投入。


陈炯:我们在传统的运维模式里经常会提到一个话题,就是自动化。标准化就是自动化的前提,我们上云非常重要的一个原因,就是能得到一些标准化的交付。云市场上有各种各样标准化提供的软件和硬件,在使用这些软件和硬件的同时,我们享受到了标准化的服务,这对后期的运维也会带来非常大的便利。


李同刚:企业上云第一个优点就是快。在外部需求变化非常快的今天,如何提高基础设施的交付,让商业进程更快,是每个运维人员必须考虑的。上云以后,可以利用云的资源快速交付并实现业务价值。


第二个优点是省,特别是在安全方面。上云以后,企业可以按需付费使用云产品,对比上云之前的私有化部署,成本会明显下降。


尤首智:关于企业为什么要上云,我的观点分为以下4个部分:

机房限制。传统的物理机房包括带宽、专线、电力等方面的限制,无法满足企业快速成长的需求,云上的架构的优势会更明显。


使用率。使用IDC的物理机配置相对较高,导致使用率是一个避免不了的问题。很多技术都是为了解决这些问题,包括业务的混布、容器的技术,但都不是特别好的方式。问题的核心点还是在于弹性能力的不足。


中间件。云上提供的中间件包括云呼、实人认证、智能语音交互等产品。对于像Soul这样的中小型企业,在现阶段投入特别大的人力和精力去做一些偏功能性的中间件,最终的收益一定没有直接使用云上的产品来得高。


费用。关于费用,要看业务的形态和业务的特点。中小型企业上云的运维成本是更低的,一是省在共享能力,二是省在弹性能力。云上的多种机型的配置、竞价实例、WAF、原生防护,均有提供共享模式为企业节省费用。


Q2云上运维工作最大的挑战与解法?


主持人:从上述分享中我们可以知道,企业上云以后可以享受到标准化的服务,高效、省钱、省力、安全。但对于一些有特殊要求的应用场景,还需要相关体系的进一步完善。


接下来想和各位嘉宾交流的是,上云对运维工作有哪些挑战?在各位自身的实践或者服务客户的过程中,是怎么解决这些挑战的?


陈炯:我们现在面临的已经不是传统意义上的监、管、控的运维了,而是统一运维,是未来的智能运维甚至云运维。但是在落地过程中,我们还需要解决以下几个问题:

实现统一运维。我们现在面临的环境非常复杂,不是传统意义上的单个机房或者一个IDC,而是一个多云的环境,私有云、公有云,还有虚拟化平台和未来的容器平台等,不同的平台有不同的逻辑,需要用不同的技能进行运维,导致对运维人员的要求比较高。所以我们希望能够打破不同平台之间的差异,用同一种方式对所有平台进行运维。


打破运维隔离。目前各个运维团队都是孤立作战,互相之间缺乏协同合作。孤立运维会造成很大的困扰。比如在项目过程中,各个团队都维护自己的利益,不愿意主动认领问题并解决,这对工作效率是有很大的影响的。


规避手工运维。在目前的运维过程中还是存在非常多手工运维的操作,这会导致效率问题和安全问题。其次,频繁地登录服务器去做一些命令操作,也存在安全隐患。所以我们希望有一个平台代替人工去做此类重复劳动,避免人为的重复劳动和过多的登录服务器。


运维人员知识固化。运维过程非常多的知识是保存在运维人员的大脑中的,这些知识非常宝贵,但是并没有一个系统能够把这些知识固化保存下来,让其他的人员能反复使用。保证当这些人员不在场的时候,团队的运维能力也不会出现问题。


以上4点就是我们目前面临的比较大的挑战。


李同刚:企业上云面分为两个阶段,第一阶段是IDC机房上云,第二阶段是技术架构上云。技术架构上云和业务程序的结合比较紧密,所以涉及兼容问题。很多企业有多云的需求,如何让基础架构同时兼容两个云,这是亟待解决的问题。


期望未来在多云的技术架构和技术协议上能够达成共识,真正的降低企业跨云的兼容性成本。


尤首智:我认为企业上云主要有以下4个难点:

迁移成本。基础设施从传统的IDC引入云计算,是对IT的基础设施和基础架构的一次革新,而迁移过程中的稳定性和原有的管理方式也要重新打造,这的确是一个不小的工程。


安全和合规。数据从企业原有的IDC迁移到云上,会有数据泄露的风险。


SLA保障与掌控力。企业与公有云都签有SLA的保障协议,公有云的SLA相比企业是比较高的,一般可以达到4个9,但公有云发生故障的时候企业会显得束手无策。


长期开销。前期的上云是在一个固定的时间节点,也可以算出整体上云的长期费用。但随着企业的扩张以及业务类型的变化,会发生资源向某一方面倾斜,导致费用不可控。


陈刚:我主要分享关于大型企业在上云过程中会面临的三个挑战。

大型企业可能会受到一些行业协会的强制要求,比如说证监会、保监会、银监会等,要求保证数据的保密性和数据的安全性,这就导致了他们的很多数据不能用公共云来完全解决,从而只能选择建私有云,或者搭建集团内部的统一云平台来做混合云解决方案,这其实就相当于一种变相的重复建设。


运维人员面临技术转型的挑战。很多企业在上云之前已经形成了实体机与虚拟机方面很成熟稳定的运维体系。在他们在上云之后,运维人员的技能转型就要面临很大的挑战,对现有运维人员的技能进行培训转型提升,或者招聘新的运维人员,都将是一个漫长的过程。


现有平台与云原生技术不匹配的挑战。一些企业的平台,无论是自然的、二次开发的或者乙方的资源,不一定会能跟云原生技术服务完全匹配。他们上云就会比中小企业的通用上云难度翻倍,时间翻倍,成本翻倍,并且不一定保证转型成功。


Q3 国内XOps的接受度与落地情况如何?


主持人:企业上云对运维工作的挑战与云上的安全性、稳定性、兼容性、知识的可传承性都密切相关,解决好这些问题,运维工作就能更好地开展。在国内,我们把各种XOps都统一称为自动化运维,企业对这种XOps的接受度怎么样?在各位接触的过程中,有哪些不错的自动化运维的实践?


李同刚:自动化是运维领域一直在追求的话题。我会从两个方面对自动化运维的落地情况进行分析。

第一点,自动化运维有大量的告警监控,如果数据量过大,就会造成告警无效。我们可以通过对历史数据的积累和分析,总结出它的趋势,然后通过自动化学习的方式和一些数学模型,自动给指标做阈值的调整。原先的告警是一个固化的值,但靠固定值不能做到足够高的准确率,所以通过机器学习的方式,自动学习历史数据的趋势,达到自动告警。目前我们梳理了100多个指标,正在和阿里云的 SLS服务进行对接。


第二点,自动分析故障根因。在网络拓扑中,报警业务应该是感知最快的。如果整个服务到数据库层到服务层链条的日志是完整的话,理论上是可以根据业务上的故障,来推出这个故障到底是数据库还是虚机或是其他的原因。

总之,从数据这个方向出发,我们希望能给运维领域带来一些卓越且超出期望的成效。


尤首智:首先谈一下DevOps理念,DevOps已经被国内很多的公司接受,核心优势是提高人工效率,减少重复性的工作。从DevOps到AIOps是我们未来的风向标,能够完成从人工决策人工执行到自动决策自动执行的演进。以下两点是AIOps在Soul的落地情况:

第一点是资源成本把控首先从资源申请层面把控,防止资源的浪费,再到服务水位的把控,自动开启弹性扩容、业务指标感知、流量的自动切换和自动调度,最后是业务的自动熔断机制。


第二点是业务监控层面。首先监控指标的分析,可以有助于我们快速定位问题的根因,其次对故障类型进行判断,分析故障影响的人数、故障级别以及历史故障的推荐,有助于快速解决故障。


陈刚:关于 XOps在国内落地的情况,我主要从两个方面进行分析。


首先,国内的几个一线互联网大厂对XOps的理解应用都已经比较成熟了,甚至在某些领域,这些大厂本身就是XOps业务的风向标,同时在国际领域他们也都有自己的原创输出。


其次,这两年我主要是给国内的大型金融企业做DevOps转型的咨询和培训。他们对DevOps还是处于初期的了解观望再跟进的态度。同时,他们对AIOps、ChatOps、GITOps等也希望能够同步跟进和了解。


比如今年10月份,华泰证券、浙江移动都通过了工信部下面信息通讯研究院颁发的AIOps能力证书,其中的能力包括异常检测、告警收敛、根因分析和故障预测等。浦发银行、国泰君安这些大型银行证券也正在AIOps的能力建设以及认证的过程当中。


国内的XOps咨询工作一般需要持续半年到一年,因为在XOps落地过程当中的确有很多困难需要去克服,但是只要我们一直坚持往前走,XOps国内一定会遍地开花。


陈炯:我们红帽针对运维自动化这一块也有比较完整的解决方案。从这么多年实践的角度来看,我们发现在国内的企业中用到自动化的场景主要有以下这几点:

用自动化带动标准化,通过自动化平台的引入,帮助企业去建立一套标准化的体系,包括它的系统、平台等等各种设置应该如何实现标准化。


通过自动化来实现系统的自动巡检,自动配置管理等等一系列日常的管理。


使用自动化平台帮助企业进行故障的根因分析,甚至故障的自愈。


帮助企业实现应用自动化发布,甚至灾备切换自动化等等。

自动化能实现的场景是非常丰富的,有多大的想象力就能够实现多大的功能。


Q4 云时代,运维人员核心竞争力何在?


主持人:总结来说,一线大厂对XOps的接受度和应用度是比较高的,但是放眼到整个行业的转型方面,XOps还存在上升空间,比如体系化普及应用这方面。


前面提到了上云之后省钱省力更安全,但这是否意味着包括运维人员在内的好多岗位会被替代?云时代的运维人员如何打造自己的核心竞争力?各位如何看待这个问题?


尤首智:我从三个方面来阐述我对这个问题的看法。


首先,要从观念上改变。运维有一部分重复或简单的工作,例如构建资源或底层基础环境,这些是会被重度依赖的,却不一定是必要的重复去做的。


其次,是工作重点的改变。上云之后这部分重复或简单的工作会被公有云自身的能力所替代。但对于运维人员来说,这并不是一件坏事,他们可以更多地关注业务的稳定性,也有更多的时间来提升自己,要勇敢的跳出舒适区域。


最后,如何理解与利用好公有云。我对公有云的理解是它可以满足所有企业80%以上的需求,但几乎无法满足他们100%的需求。我们要利用好已有的80%更快更好的构建私有部分,从公司和业务的层面更快看到结果。运维的价值是提高业务稳定性,这是企业是最关心的一点,而这部分的能力由公有云来提供是一个很好的解决办法。


陈刚:企业上了云之后不需要那么多运维人员,这些人是否就要面临失业?我根据自己的经验来对这个问题进行一个阐述。


前几年我曾经参与过一个项目,对企业进行DevOps赋能,然后将应用向K8s迁徙,同时引入一些云原生的实践。在项目进行当中我需要带领两名同事从头到尾进行技术的攻坚和探索,最终形成落地方案。


当时部门有20个左右的运维同事,大多还是以传统的数据中心的运维技能以及实体机和虚拟机为主。在转型过程中,确实有一部分的运维人员担心自身技术失去核心竞争力优势,但是我们在转型的过程中其实能够积累很多最佳实践方面的文档和 PPT,在企业内部进行培训和宣贯,争取把想学习、想提升技能的运维同事及时地提升到公司需要的水平线上。


企业在上云转型过程中的运维人员,要么对现有运维人员进行培训提升技能来匹配转型的要求,要么从外部引入新的运维人员,没有第三条路可以走。我相信只要运维人员有提升自己技能的愿望,与时俱进,一定能够稳步前进,并且运维人员站到云端以后也可以对社会做出更多贡献。


最后,现代社会市场竞争激烈,犹如逆水行舟,不进则退。在企业上云的过程当中,确实也会淘汰一部分不愿意进取转型的低层次运维人员。其实这就是适者生存的概念,不只是在运维界,在有社会分工的地方,就会有优胜劣汰的机制。


陈炯:在 IT建设过程中,产品、流程和人员始终是绕不开的三个主要话题。企业上云并不意味着运维人员的失业,而是新的环境和平台下,我们对人员的要求发生了变化。


以前,运维人员只需要会打命令、写代码代码和脚本,但是上云以后就远远不够了。他们需要去制定整个运维的体系标准和完整的运维流程,甚至要从闭环的角度来看一个全生命周期的管理。并且在对故障进行根因分析的时候,能从不同的角度自主地去发现。还有非常重要的一点,在构建环境的时候,能够识别哪些软件和系统能够整合在一起,进行比较好的协同运作。


所以说,运维人员不是要被替代,而是他们的能力要得到很大的提升才能够满足未来 IT运维的需要。这是我的观点,谢谢主持人。


李同刚:我觉得从另一方面讲,这其实是一个机遇。


以前,运维人员是以懂各种中间件技术而引以为傲,但其实这未必是运维岗位最有意义的事。运维本质上是要保证业务的稳定性和IT成本的合理性。但这两个目标并不是靠技术来实现的,而是需要结合本公司的实际情况来制定解决方案,这是一整套的体系。


这一块的能力目前来看机器是很难替代的,所以我们可以把一些简单重复的事交给机器去做,人去做机器做不了的事。一方面,这样对人员本身的技能是一个提升,另一方面,公司也能够获得直接的业务价值。


圆桌对话总结


主持人:确实容器、集群技术对运维人员提出了很大的挑战,但运维人员需要做的是积极迎接和学习新的技术。另外在上云之后,运维人员可以多做一些机器做不了的事情,比如流程、规范等方面的制定。


企业上云虽然还面临着很多挑战,但更多的是机遇。相信随着企业运维体系的完善,新的运维技术的加持,运维人员核心能力的提升,云上会越来越精彩,我们一起努力


点击大会官网,观看圆桌对话中嘉宾的精彩分享。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
85 2
|
4月前
|
运维 监控 Devops
DevOps文化下的企业运维转型
【8月更文挑战第22天】在数字化转型的浪潮中,DevOps不仅仅是一种技术实践,更是一种企业文化。本文将探讨如何在DevOps文化的引导下,实现企业运维的高效转型,包括理念更新、流程优化和团队协作等方面。我们将一起思考如何打破传统壁垒,构建一个更加灵活、高效和协同的运维体系,以应对不断变化的市场和技术挑战。
63 1
|
15天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
41 4
|
2月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
3月前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
227 3
|
3月前
|
运维 监控 安全
高效运维管理:提升企业IT系统稳定性与性能
在当今信息化时代,高效的运维管理对于企业IT系统的稳定性和性能至关重要。本文将探讨如何通过优化运维流程、引入自动化工具和建立完善的监控体系等措施,实现高效运维管理,从而提升企业的核心竞争力。
|
4月前
|
运维 监控 测试技术
运维自动化:提升企业效率的关键技术
【8月更文挑战第19天】在数字化时代,企业面临着日益增长的技术挑战。运维自动化作为解决这些挑战的一种有效手段,不仅能够提高企业的运营效率,还能确保系统的稳定性和安全性。本文将探讨运维自动化的核心价值,分析其在现代企业中的作用,并讨论实施运维自动化时可能遇到的挑战及应对策略。通过深入理解运维自动化,企业可以更好地利用这一技术,以实现业务目标和提升竞争力。
|
4月前
|
运维 监控 安全
运维自动化:提升企业效率的关键策略
【8月更文挑战第18天】在数字化时代,企业的技术架构变得日益复杂。面对这种复杂性,传统的手动运维方式已难以满足快速、高效、可靠的业务需求。因此,运维自动化成为提升企业效率、保障系统稳定性的重要策略。本文将探讨运维自动化的核心价值、实施步骤以及面临的挑战,旨在为企业实现运维自动化提供一套清晰的指导思路。
|
4月前
|
运维 监控 数据安全/隐私保护
运维自动化:提升企业IT效率的关键
【8月更文挑战第18天】在数字化时代的浪潮中,企业对于信息技术(IT)的依赖程度日益加深。高效的IT运维成为支撑企业快速发展的基石。本文深入探讨了运维自动化的重要性,分析了其在现代企业中的应用价值,并提出了实施运维自动化的策略与建议,旨在帮助企业提升IT运维效率,保障业务连续性和数据安全。
|
4月前
|
人工智能 运维 网络安全
行业云问题之全栈可观测性技术帮助企业提升运营运维效率如何解决
行业云问题之全栈可观测性技术帮助企业提升运营运维效率如何解决
23 0