“不是不需要运维工程师,是人人皆是运维”|对话阿里云MVP蒋烁淼(上)

简介: 与湖畔大学首期学员、阿里云MVP、驻云创始人蒋烁淼面对面

【三位阿里云MVP(驻云CEO、首席架构师、大数据总监)《MVP时间》首次同台授课,“湖畔第一大脑” 蒋烁淼领头线上精讲,内容涉及企业IT架构、混合云存储、大数据方案等实战内容,从技术实战到解决方案,难题痛点一次解透。听课链接直戳:
第一节:云时代企业IT智能诊断实践与探索
第二节:企业IT架构云化转型挑战与应对
第三节:混合云场景下存储实践精讲
第四节:云管理服务技术要点和实践精讲
第五节:混合云大数据实践精讲

阿里云MVP、驻云科技CEO蒋烁淼4月11日做客《MVP时间》,为大家分析在云时代对于企业IT智能诊断的实践与探索。本篇为上期,下期文档直戳

1、 云时代的大背景
屈指算来,云计算已经进入了第二个十年。随着下一代技术如数字业务、物联网和人工智能的实现,云计算已然是业务和IT的关键组成部分。云技术正在从一个市场颠覆者演变为传统和下一代IT中的主力军。

image
需要强调的一点是,我们认为,真正意义上的云计算就是公有云。为什么呢?

我们先从5G说起。展望未来,5G时代很快到来。大家都在展望伴随5G时代的物联网、边缘计算、人工智能、AR/VR的大变革。而更为实际的,5G时代会发生的事情,是固定网络逐步退出市场,正如之前固定电话慢慢从市场中推出那样。每个人的手机电脑都会以无线网络的方式接入到互联网中。那个时候企业局域网就会消失,局域网消失以后,可能企业内网就消失了,或者说内网就是今天我们在云上看到的VPC、虚拟专有云或者虚拟私有网络,到那个时刻,没有局域网,又何来专有云呢?

随着5G的进入,云计算的发展还是会非常长久的进行下去,直到大部分IT都转入到云计算时代,而那个时候可能会有新的东西出现。
换个角度,今天对于整个世界改变最大的力量是互联网。未来每一个企业都是互联网企业,云就是互联网基础设施。所以说掌握云计算的技术是非常重要的,未来不懂云计算就没有办法在这个市场上生存,如果你是一个IT工程师的话。

2、 云时代IT从业者的挑战

云时代的到来对于IT从业者来说带来了极大的变革和挑战。
云计算大数据技术迭代更新,IT从业者需要掌握的技能更广,还需跟上工作节奏。
传统的我们经常会把工程师分成开发人员或者运维工程师、测试工程师,开发工程师又包括前端工程师,后端工程师等。而现在这样的职业分工也产生了变化的趋势。

记得前几天有一篇文章说阿里云是不是会杀死运维,大家也知道有个耳熟能详的词语叫DevOps。这也说明了一个问题:云计算厂商把IT基础设施运营起来了,带来了一个重大的变化:企业内部并不需要单纯的运维工程师了。为什么呢?一是因为DevOps的发展,二是因为云计算带来的极大便利使得很多运维工作被大大简化。

举例来说,绝大多数尚未建立完备开发体系的公司,它的开发工程师就可以通过RAM授权的子账号,甚至主账号进入云的控制台修改关键云资源配置,比如对象存储Bucket的修改。

因此,由于云的分布式的变化,每一个工程师都可以通过API或者控制台,快速的改变云的现状,包括配置信息的变更。这使得传统的运维工作离散化了。某种程度上说,不是不需要运维工程师,而是人人皆运维。

在这样的大背景下,传统的运维工程师又何去何从呢?他们的职业发展也面临着巨大的变化。
传统意义上的运维工程师的主要工作,我们经常开玩笑说是搬箱子,插网线和装系统三大件。

而今天面对云,这三件事情都不用做了,因为你使用ECS镜像服务器就装好了,甚至你都不需要自己安装MySQL,直接使用RDS就够了。
因此传统意义上运维工程师本身知识结构面临着更新,从传统意义上运维工程师要变成企业内部的云管理员或者成为企业内部云架构师,应该往这个方向去转变。大家也可以到百度百科上看到云管理员这个新职业的描述。

image

3、 云时代企业IT管理的挑战

为应对市场变化的快速响应,企业业务的复杂与变动并存,还需保障IT系统的稳定可靠。

1)除了故障,还有什么更值得我们考虑?
企业将基础设施甚至中间件使用了云计算厂商提供的服务之后,如果云服务出现了故障,我们可以根据SLA的条款,向云厂商索赔。
因而在云上,我们最需要担心的不是云服务的故障,或者说在云上除了故障其实我们还有更多问题需要考虑。

举两个例子:

 前段时间宝马发生了数据泄漏,原因是它的开发工程师对AWS上存储Bucket没有进行任何安全限制,导致数据可以被任何人读取,甚至包括Google搜索引擎。
 系统本身并没有出现故障,但是发现某些应用连接数或者是进程内存占有快速上升,存储量快速上升,很可能是因为开发工程师的BUG,导致你要为云计算厂商一个月多付好多钱,浪费了带宽或者浪费了存储。
为什么这些问题不能提早发现呢?有以下几个原因:
 这些云资源的管理本身非常繁琐,往往因为工程师出差或者管理不善等原因,导致域名证书或者主机本身忘了续费,从而引起了业务的中断。
 工程师并不具备财务权,传统职责在故障的发现和处理,而上述这些问题的管理并没有得到足够的重视。
因此,重要的问题不是故障,当你到故障那一刻的时候,那个问题已经不小了。

2)复杂、大量数据的挑战
现今我们处在一个复杂的世界中。这个世界的数据不仅仅包含云上的数据,还有你自己物理机房或者说外部的数据,甚至还有IOT,数字化的POS机等持续不断产生的数据。
对一个企业来说,所面对的数据并不一定只是IT数据,大趋势是所有数据最终都可能被汇聚到云上。

3)信息孤立和不对称性带来的挑战
传统IT环境中通常会有一个IT部门负责技术保障,维护管理整个企业内部所有系统,但是随着云的时代到来,任何一个有开发能力或者有系统需求的业务团队,都可以轻松买一两台云主机,装一个软件或者开发一个小程序就可以不再依赖公司统一的IT管理,快速的将自己的业务跑起来。所以在这种情况下,云不仅仅是一个分布式系统,它也使得企业的IT团队,尤其在一些大企业,开始了有了分布式的倾向和趋势。
在这种情况下,会造成一个问题,就是大家的信息可能会相对孤立和不对称。每个企业的IT管理可能会发生随时随地变化,因为它有可能开在不同云账号下,有的一个企业有1000台ECS,可能分布在10个团队,每个团队有100台ECS,这种情况也会有大量的出现。

4)多云和云计算产品迭代更新快带来的挑战
很多企业都慢慢的开始上云,甚至上多个云。但是实际上不管是从大的产品功能角度小到API、备份功能或者一个主机的编码,甚至一些非常非常小的控制参数,比如说备份或者是磁盘拍照等等东西,其实都是不太一样的。
并且各个云计算厂商的产品迭代更新都非常快,要管理的要素更多,甚至包括费用。
为了适应多云环境和云产品的迭代更新,需要企业投入更多的力量进行统一管理。
比方说因为公司的原因,需要同时用多个云账号,甚至多朵云,分别管理维护开发环境、测试环境、预发环境、生产环境,甚至要从费用角度考虑有没有资源浪费。
没有合适工具和管理手段的情况下,管理成本相当高:
 人工的方法是记住不同的用户密码,登陆不同的账号,然后去挨个看。
 高级点的自己有能力去维护一套连接了这些平台的API,然后通过API的方式去解决。但这个成本同样很高,要对云产品有足够的了解,万一云厂商某个API改了或者是返回结构改了,还得同步学习更新和修正。

5)企业IT管理对象的复杂度带来的挑战
企业IT管理的对象从传统的物理主机、存储、网络、数据库、中间件变成了云计算服务商提供的一台台虚拟主机、云数据库,甚至是云中间件,包括RDS、OTS、KAFKA,这些都是以云服务的形式提供,而无需自己搭建,云厂商把IT软硬件资源,甚至中间件都服务化了。我们关心的不仅包括虚拟主机的情况,还有云中间件、应用层的情况,管理对象更加复杂。

以上各种云时代对于IT管理的挑战,也是为什么我们提出来需要云时代企业IT智能诊断。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 人工智能 自然语言处理
对话| 阿里云大降价后,再谈“降本增效”
对话| 阿里云大降价后,再谈“降本增效”
76 1
|
3月前
|
弹性计算 运维 监控
基于钉钉的阿里云管理实践(三)之运维管控
随着移动互联网的发展,使用移动设备进行云资源管理变得越来越普及。钉钉作为一款企业沟通和协作工具,其集成的阿里云控制台小程序让用户能够在移动端进行便捷的云资源管理操作。本教程将为您介绍如何在钉钉的阿里云控制台小程序内访问并操作阿里云资源。
110 1
|
1月前
|
存储 人工智能 自然语言处理
阿里云大降价后,再谈“降本增效”
2024年2月29日,阿里云宣布史上最大力度降价,引发行业对用云成本的热议。
2245 3
阿里云大降价后,再谈“降本增效”
|
4月前
|
存储 弹性计算 运维
阿里云——云服务器基础运维与管理
阿里云——云服务器基础运维与管理
223 0
|
4月前
|
人工智能 弹性计算 TensorFlow
构建AIGC对话类应用:阿里云GPU产品技术指南
人工智能图形计算(AIGC)对话类应用在当今技术领域中占据着重要地位,为用户提供了更智能、自然的交互方式。本文将详细介绍如何借助阿里云GPU产品,构建高性能的AIGC对话类应用。我们将深入了解产品功能、编写对话类应用代码,并提供具体的使用流程,帮助你在云端快速搭建起这类应用。
169 0
|
4月前
|
运维
高效运维,上云实践丨阿里云用户组北京站 12月15日等你来加入
阿里云的产品与技术专家,将结合案例展示CloudOps如何帮助企业降低IT运维成本,提升交付速度与系统可靠性;还会有企业的资深运维人员一起,探讨云上高效运维的最佳实践。
|
5月前
|
弹性计算 运维
5分钟构建了个阿里云OOS运维模板顾问GPTs
本文介绍了通过gpts构建阿里云OOS运维模板顾问的背景及效果
173 0
|
5月前
|
弹性计算 运维 监控
多云基础设施的统一纳管与运维实践分享
CloudOps云上运维系列课程第五节由阿里云弹性计算技术专家朱士松主讲《多云基础设施的统一纳管与运维实践》,点击下方链接进入【CloudOps云上运维】课程专题页即可观看课程回放,还可了解最新课程资讯。
多云基础设施的统一纳管与运维实践分享
|
6月前
|
存储 运维 DataWorks
DataWorks是阿里云推出的一款云数据集成、数据开发、数据运维一体化的数据开发平台
DataWorks是阿里云推出的一款云数据集成、数据开发、数据运维一体化的数据开发平台
123 4
|
6月前
|
运维 Serverless 数据安全/隐私保护
带你读《浅谈阿里云通用产品线Serverless的小小演化史》三、开箱即用的免运维 ---全托管服务能力(1)
带你读《浅谈阿里云通用产品线Serverless的小小演化史》三、开箱即用的免运维 ---全托管服务能力(1)
361 0