“不是不需要运维工程师,是人人皆是运维”|对话阿里云MVP蒋烁淼(上)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 与湖畔大学首期学员、阿里云MVP、驻云创始人蒋烁淼面对面

【三位阿里云MVP(驻云CEO、首席架构师、大数据总监)《MVP时间》首次同台授课,“湖畔第一大脑” 蒋烁淼领头线上精讲,内容涉及企业IT架构、混合云存储、大数据方案等实战内容,从技术实战到解决方案,难题痛点一次解透。听课链接直戳:
第一节:云时代企业IT智能诊断实践与探索
第二节:企业IT架构云化转型挑战与应对
第三节:混合云场景下存储实践精讲
第四节:云管理服务技术要点和实践精讲
第五节:混合云大数据实践精讲

阿里云MVP、驻云科技CEO蒋烁淼4月11日做客《MVP时间》,为大家分析在云时代对于企业IT智能诊断的实践与探索。本篇为上期,下期文档直戳

1、 云时代的大背景
屈指算来,云计算已经进入了第二个十年。随着下一代技术如数字业务、物联网和人工智能的实现,云计算已然是业务和IT的关键组成部分。云技术正在从一个市场颠覆者演变为传统和下一代IT中的主力军。

image
需要强调的一点是,我们认为,真正意义上的云计算就是公有云。为什么呢?

我们先从5G说起。展望未来,5G时代很快到来。大家都在展望伴随5G时代的物联网、边缘计算、人工智能、AR/VR的大变革。而更为实际的,5G时代会发生的事情,是固定网络逐步退出市场,正如之前固定电话慢慢从市场中推出那样。每个人的手机电脑都会以无线网络的方式接入到互联网中。那个时候企业局域网就会消失,局域网消失以后,可能企业内网就消失了,或者说内网就是今天我们在云上看到的VPC、虚拟专有云或者虚拟私有网络,到那个时刻,没有局域网,又何来专有云呢?

随着5G的进入,云计算的发展还是会非常长久的进行下去,直到大部分IT都转入到云计算时代,而那个时候可能会有新的东西出现。
换个角度,今天对于整个世界改变最大的力量是互联网。未来每一个企业都是互联网企业,云就是互联网基础设施。所以说掌握云计算的技术是非常重要的,未来不懂云计算就没有办法在这个市场上生存,如果你是一个IT工程师的话。

2、 云时代IT从业者的挑战

云时代的到来对于IT从业者来说带来了极大的变革和挑战。
云计算大数据技术迭代更新,IT从业者需要掌握的技能更广,还需跟上工作节奏。
传统的我们经常会把工程师分成开发人员或者运维工程师、测试工程师,开发工程师又包括前端工程师,后端工程师等。而现在这样的职业分工也产生了变化的趋势。

记得前几天有一篇文章说阿里云是不是会杀死运维,大家也知道有个耳熟能详的词语叫DevOps。这也说明了一个问题:云计算厂商把IT基础设施运营起来了,带来了一个重大的变化:企业内部并不需要单纯的运维工程师了。为什么呢?一是因为DevOps的发展,二是因为云计算带来的极大便利使得很多运维工作被大大简化。

举例来说,绝大多数尚未建立完备开发体系的公司,它的开发工程师就可以通过RAM授权的子账号,甚至主账号进入云的控制台修改关键云资源配置,比如对象存储Bucket的修改。

因此,由于云的分布式的变化,每一个工程师都可以通过API或者控制台,快速的改变云的现状,包括配置信息的变更。这使得传统的运维工作离散化了。某种程度上说,不是不需要运维工程师,而是人人皆运维。

在这样的大背景下,传统的运维工程师又何去何从呢?他们的职业发展也面临着巨大的变化。
传统意义上的运维工程师的主要工作,我们经常开玩笑说是搬箱子,插网线和装系统三大件。

而今天面对云,这三件事情都不用做了,因为你使用ECS镜像服务器就装好了,甚至你都不需要自己安装MySQL,直接使用RDS就够了。
因此传统意义上运维工程师本身知识结构面临着更新,从传统意义上运维工程师要变成企业内部的云管理员或者成为企业内部云架构师,应该往这个方向去转变。大家也可以到百度百科上看到云管理员这个新职业的描述。

image

3、 云时代企业IT管理的挑战

为应对市场变化的快速响应,企业业务的复杂与变动并存,还需保障IT系统的稳定可靠。

1)除了故障,还有什么更值得我们考虑?
企业将基础设施甚至中间件使用了云计算厂商提供的服务之后,如果云服务出现了故障,我们可以根据SLA的条款,向云厂商索赔。
因而在云上,我们最需要担心的不是云服务的故障,或者说在云上除了故障其实我们还有更多问题需要考虑。

举两个例子:

 前段时间宝马发生了数据泄漏,原因是它的开发工程师对AWS上存储Bucket没有进行任何安全限制,导致数据可以被任何人读取,甚至包括Google搜索引擎。
 系统本身并没有出现故障,但是发现某些应用连接数或者是进程内存占有快速上升,存储量快速上升,很可能是因为开发工程师的BUG,导致你要为云计算厂商一个月多付好多钱,浪费了带宽或者浪费了存储。
为什么这些问题不能提早发现呢?有以下几个原因:
 这些云资源的管理本身非常繁琐,往往因为工程师出差或者管理不善等原因,导致域名证书或者主机本身忘了续费,从而引起了业务的中断。
 工程师并不具备财务权,传统职责在故障的发现和处理,而上述这些问题的管理并没有得到足够的重视。
因此,重要的问题不是故障,当你到故障那一刻的时候,那个问题已经不小了。

2)复杂、大量数据的挑战
现今我们处在一个复杂的世界中。这个世界的数据不仅仅包含云上的数据,还有你自己物理机房或者说外部的数据,甚至还有IOT,数字化的POS机等持续不断产生的数据。
对一个企业来说,所面对的数据并不一定只是IT数据,大趋势是所有数据最终都可能被汇聚到云上。

3)信息孤立和不对称性带来的挑战
传统IT环境中通常会有一个IT部门负责技术保障,维护管理整个企业内部所有系统,但是随着云的时代到来,任何一个有开发能力或者有系统需求的业务团队,都可以轻松买一两台云主机,装一个软件或者开发一个小程序就可以不再依赖公司统一的IT管理,快速的将自己的业务跑起来。所以在这种情况下,云不仅仅是一个分布式系统,它也使得企业的IT团队,尤其在一些大企业,开始了有了分布式的倾向和趋势。
在这种情况下,会造成一个问题,就是大家的信息可能会相对孤立和不对称。每个企业的IT管理可能会发生随时随地变化,因为它有可能开在不同云账号下,有的一个企业有1000台ECS,可能分布在10个团队,每个团队有100台ECS,这种情况也会有大量的出现。

4)多云和云计算产品迭代更新快带来的挑战
很多企业都慢慢的开始上云,甚至上多个云。但是实际上不管是从大的产品功能角度小到API、备份功能或者一个主机的编码,甚至一些非常非常小的控制参数,比如说备份或者是磁盘拍照等等东西,其实都是不太一样的。
并且各个云计算厂商的产品迭代更新都非常快,要管理的要素更多,甚至包括费用。
为了适应多云环境和云产品的迭代更新,需要企业投入更多的力量进行统一管理。
比方说因为公司的原因,需要同时用多个云账号,甚至多朵云,分别管理维护开发环境、测试环境、预发环境、生产环境,甚至要从费用角度考虑有没有资源浪费。
没有合适工具和管理手段的情况下,管理成本相当高:
 人工的方法是记住不同的用户密码,登陆不同的账号,然后去挨个看。
 高级点的自己有能力去维护一套连接了这些平台的API,然后通过API的方式去解决。但这个成本同样很高,要对云产品有足够的了解,万一云厂商某个API改了或者是返回结构改了,还得同步学习更新和修正。

5)企业IT管理对象的复杂度带来的挑战
企业IT管理的对象从传统的物理主机、存储、网络、数据库、中间件变成了云计算服务商提供的一台台虚拟主机、云数据库,甚至是云中间件,包括RDS、OTS、KAFKA,这些都是以云服务的形式提供,而无需自己搭建,云厂商把IT软硬件资源,甚至中间件都服务化了。我们关心的不仅包括虚拟主机的情况,还有云中间件、应用层的情况,管理对象更加复杂。

以上各种云时代对于IT管理的挑战,也是为什么我们提出来需要云时代企业IT智能诊断。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
运维 监控 网络协议
|
1月前
|
存储 运维 搜索推荐
|
1月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
82 6
阿里云日常运维-购买服务器
|
4月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18507 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
4月前
|
人工智能 运维 Cloud Native
实战基于阿里云的AIGC在运维领域的探索
传统运维模式已难以应对日益复杂的海量数据和业务需求,效率低下,故障难解。而人工智能的崛起,特别是AIGC技术的出现,为运维领域带来了新的机遇。AIGC能够自动生成运维脚本、分析海量数据,预测潜在故障,甚至提供解决方案,为运维工作注入智能化力量,推动运维向更高效、更智能的方向发展。
16570 19
实战基于阿里云的AIGC在运维领域的探索
|
2月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
98 4
|
3月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
114 3
|
3月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
153 1
|
3月前
|
运维 Kubernetes 关系型数据库
云计算运维工程师面试技巧
【8月更文挑战第6天】
384 1