本文根据2019年4月18日,驻云科技首席架构师苏炎在【MVP时间】的分享《企业IT架构云化转型挑战与应对》整理。
戳此免费听课
苏 炎 | 阿里云MVP、驻云科技首席架构师。
**云化过程中的挑战及需要具备的能力
**
1、传统企业IT架构云化演进的三个阶段
我们再来了解传统企业IT架构云化演进的三个阶段可能遇到的挑战。
1)传统业务的云化
云平台的选型
到底是公有云还是私有云,对于80%的企业,除了集团性的企业,考虑到整个投入或者后期的运维管理的费用或者投入等,大部分企业都会选择公有云。
多云还是单云?
多云其实是一个非常明显的趋势。很多企业希望能够摆脱像类似于云服务提供商的绑架,希望能够实现多云的场景。但其实在技术实现上,还是有一些问题的。第一个问题,多云的这种应用架构或者系统架构,必然会带来多云之间的数据交互或者业务互通的成本。这些直接依赖于网络状态,存在一定的风险和不确定性因素。第二个问题,管理是一个非常大的问题。对于不同的云平台有不同的账号。每次管理要进入不同的账号,虽然有一些CMP(Cloud Management Platform,云管理平台)能够实现多云的基本管理,但某种程度上,还是很难把多云的管理很完美的结合在一起。
混合云
混合云的规划和管理需要考虑哪些因素?企业IT规划种有一部分业务是在公有云上,还有一部分业务在线下,称之为混合云模式。在这个场景下,除了统一的管理,业务的互通,还涉及整个混合云场景下数据的流动。另外,跨平台兼容也是在应用迁移或者在云化过程中遇到的一个问题。比如说线下应用可能是部署在物理机上或者(vSphere/OpenStack)。这些应用从线下环境迁到公有云上,是需要有一个迁移和转化的过程。
例如,核心的业务系统云化,最典型的例子就是SAP上云。SAP能够上云,那基本上企业的大部分业务系统都能够向云上迁移了。还有一些制造业,跟生产制造直接挂钩的MES系统也在向公有云迁移。企业将业务系统云化以后,更多的就是业务系统的打通,包括集中的运维管理、统一的监控等等。当传统业务能够实现云化以后,下一部分就是数据的云化。
2)数据能力的云化
数据的云化,不同于传统的数仓的构建。首先要考虑结构化和非结构化数据进行统一的存储、采集和管理。企业要利用云计算的弹性和云计算的容量,甚至像大数据的PaaS和SaaS的服务,能够构建云上大数据的平台。通过数据的统一接入,通过算法的支持来挖掘数据本身的价值,这个就是数据的云化。
3)云上业务创新
创新就是企业要利用云计算平台的能力来构建一个类似于通用PaaS,整个应用的PaaS,甚至于整个行业生态的服务层,它能够实现能力的积累,配合整个业务部门真正实现业务的创新。利用云计算达到事半功倍的效果。
以上是我们总结在整个云化过程中的三个阶段,具体哪些问题是企业比较关注或者也是讨论最多的?
企业云化过程中的挑战
1)云治理
大家来想一个场景,在使用云上,企业一般都会将决策下放到各个部门,这样响应的速度会很快,而且互联网场景下,企业的产品为了适应相应的市场和用户需求的变化。它需要跳出传统的合规性和安全性的管理。
同时,有些企业会使用多云,或者混合云的模式。随着云使用的加大,企业很容易发现云环境已经逐步失控了。所以管理者需要有一个最佳的实践来管理云的平台,同时不会降低产品的研发速度。因此,我们需要用云治理得模型或者策略来追踪整个企业云使用的状况。
2)缺乏专业性
以阿里云为例,云产品差不多有200种,大家对于这些产品,是否知道各个产品的使用场景,了解各个产品是用来做什么的?其实每一个云服务产品,都有特定的使用场景。像AWS、Azure、腾讯云它们的云服务的产品的数量也不会少到哪里去。这样就带来一个问题,在什么样的场景下选择最适合企业的云服务,这就变成了一个非常关键的问题。在云上云资源的使用,我们会发现其实现在云资源使用的最多的还是最基本的产品,我们熟知的五大件或者十大件,类似于像云服务器、关系型数据库、对象存储、负载均衡、弹性IP等等,这一类的产品使用量还会更多。
对于企业而言,什么样的场景使用什么样的云产品,能够最大提升企业的业务能力和产品的效能,这其实是一个非常关键的问题。对于大部分的企业而言,这一方面专业性云计算的人才,其实仍然是缺失的。
3)费用管理
企业往往低估了云资源使用的浪费,举个例子,在IDC的场景下,要构建一个应用,为了满足这个应用服务的上限,往往会把整个物理机配置的很高。比如说对一个应用,上了一台32C128G的物理机。其实在大部分的时间下,这个云服务器资源的使用量只有不到20%,只有在极端的场景下,才会达到更高的使用量。这其实对于云资源而言是一个非常大的浪费。我们可以充分的利用云资源的弹性扩缩来达到这个资源合理的调整,最大地为企业降低云资源使用的浪费,就是费用的支出,这是一种情况。
第二种情况是因为管理和对于专业知识的缺乏,带来的资源浪费。上个月,我们的一个客户,突然发现自己的账单多了一笔将近一万块钱的消费。原因是在1月份,客户为了做一个POC测试,开了一个弹性IP,他们把线下的使用经验错误的带到了云上,导致对于这个产品有错误的使用。在使用网络的时候,为了避免性能的干扰或者流量过大影响其它应用,会对它做一个带宽的限制,所以他们对弹性IP做了带宽限制。但是他们在选择产品的时候,他不是后付费按量的方式来做购买的,再限制流量上线,而是选了一个固定带宽。在云上网络资源费用还是蛮高的,一个固定带宽的弹性公网IP,这个即使你不使用,它也会去收固定的费用。一直到3月底,我们才发现这个问题,这个时候弹性公网IP已经开通了3个月,造成了差不多一万块钱的费用损失。第一,资源管理出错,没有及时发现闲置的资源。第二,对于云服务产品知识的缺乏,导致了资源的浪费。这些需要通过有效的管理手段合理的来管理这个费用。
4)云安全
很多客户都认为云安全是云服务提供商的责任。云端安全是云服务商和用户共同的责任。对于云服务商而言,他需要确保自身的技术架构没有根本性的缺陷,不会造成服务的中断,出现故障后,能够提供一定的灾备恢复技术等。另一方面,企业也确保自己在使用公有云时,登录账号使用的资产、设备、网络、数据,甚至于员工的一些操作行为都是安全的。所以说云端安全,其实是云服务提供商和用户的共同责任。
5)云迁移
讲到云迁移的话,大家觉得随着云计算技术的成熟,还有云产品使用难度的降低,会觉得云迁移的场景会变得很简单。线下服务器的应用是怎么样的、数据库是怎么样的?我到云上重新部署一套就好了。但是这样的迁移,其实是完全没有充分考虑云计算能力的。而且很多场景下,我们是要考虑整个业务的不中断。迁移上云以后,还有考虑到线下和线上业务的交互、数据的互通。迁移失败以后,我们还要考虑回滚等等。
所以,整个云迁移是一个规划、建设和运营的过程。对于一些迁移,我们还需要一些额外的支持,因为云上的环境和线下的IDC环境是有差距的。它并不是简单的一个实施部署的过程。
举个例子,大家可能碰到过SAP迁移或Exchange的迁移等等,其实都会明白这些是需要一定的知识储备的。还有像一些制造行业,有些应用系统的ISV都找不到了。对于这些应用,我们需要有一些特定的工具来实现迁移的。还有的时候,为了充分发挥出云计算的能力,我们还会涉及到应用的改造。所以对于整个云迁移的过程,从调研,POC,到实施,它整个过程,短的至少需要一到两周的时间。长的时候,可能会需要几个月甚至于需要半年的时间来完成整个迁移的计划。
6)混合云的管理
混合云的管理,包括多云管理、数据、流动、协作以及资源的配置,这些让管理就会变得很困难。大家可能会认为现在有很多CMP的产品,能够实现混合云的管理。其实要真正做到多云和混合云的管理是很困难的。为什么呢?我举个例子,一般大家知道公有云的厂商,能够开放出来的管理接口是有限的,不是所有的产品都有。就算有些产品有了,它本身也会不断的发生变化和调整,再加上产品在不断的更新迭代,单靠CMP是很难管理整个公有云,更不要说多个公有云。
第二个,线下的环境比较复杂,像一些vSphere和OpenStack的虚拟化平台,小机,存储等等,基本上你是很难做到面面俱到,一个完美的结合。
第三,应用的统一管理。在整个混合云场景下,怎么能够实现应用的容灾?怎么实现业务的互通和交互?这是一个难题。最后就是数据的统一性问题,我要保证我的数据能够在云上和云下做无缝的流动,能够做到业务无感知。
第四,统一的监控和运维。在混合云的场景下,它的监控和运维管理因为云计算的引入,也大大增加了难度。这也是为什么很多CSP的服务商比较受欢迎的原因了。IDC机房与云的运营和运维之间,还是有一定的技术差异点。
7)合规性
IT的合规性,可以说是一个非常曲折而且复杂的环境了。特别是涉及云计算的时候,它其实有很多适用的接口框架。比如说我们熟知的像用于云服务的ISO27017,还有其它的一些法规,对于我们云计算的实施提出了要求,像欧洲的GDPR和国内的网安法。虽然企业可以实现合规,但是行业的变化率、业务增长、监管的变化,意味着维持合规云是长期的一个工作和挑战。
这七个挑战是我们在跟企业的交互和企业的沟通过程中或者在整个云计算的实施过程、云平台云化的实施过程中经常遇到的最主要的问题。
云治理
云治理对于很多企业而言,特别是资深和中级的用户而言是目前遇到的一个非常大的挑战。云治理其实是一个人、流程和技术,以及基础设施安全和操作直接相关的东西。它最终是为了控制费用、提高效率和消除安全隐患。然后,它创建监控和改进的一系列策略。那么我们在定这个策略的时候,我们要考虑到几个点呢?
1)定义公司策略
业务流程和技术平台的任何改动都会给企业带来风险。云管理者的任务就是要降低这种风险。同时,减少对使用或者重新工作的一些干扰。所以云计算的要求,它不仅仅是一个技术实现。公司策略方面的一些细微的变化也会造成巨大的影响。所以在实施之前,一定要定义公司的策略。还要考虑到IT之外的一些因素。无论使用什么样的云平台,定义公司的策略都应该注重于识别和降低整个业务的风险。有了一个正确的企业策略,我们还需要一个流畅来引导策略的实现。
2)策略的基本准则
我们再来看一下定义这些策略的基本准则,也是云治理的基本准则。每一个云服务提供商都有一些通用的云治理的准则,可以作为指导来帮助制定企业的策略和管理企业工具。
成本管理。我们需要评估和监控成本,限制整个IT的支出,对于整个IT的支出,我们应该是按需增长,避免一些资源的浪费、额外资源的支出,建立一个真正的成本责任制,把成本能够更好的管控分摊到各个部门或者各个团队。
安全基线。安全性一般都是IT的重要组成部分。但是云计算的引入它带入独有的一些安全问题。许多企业受制于法规的要求,这些要求保护敏感数据,在考虑应用云化的时候,就变成了一些非常重要的有限思想。确定云环境面临的一些潜在的安全威胁,并建立解决这些威胁的流程是所有的IT安全或者网络安全团队都优先考虑的内容。安全基线它可以确保随着技术的要求和安全约束的变化,这些要求和约束能够始终如一地运用到我们的云环境中。
资源的一致性。资源的一致性侧重于环境、应用、工作负载的操作和相关的策略。IT运维团队通常会提供对应用负载资产性能的统一监控。
身份认证。身份认证就是要提供支持在安全环境中访问控制和组织的核心机制,并且在云使用的过程中采用一致的身份验证和索权应求。
第五个,快速部署。快速部署包括部署、配置和脚本可重用性。我们可以通过一些手动或者完全自动化的DevOps行为,来实现快速部署的过程。
企业云平台应对挑战需要具备的能力视图
基于这些挑战,企业需要具构建自己的能力视图。
最下面是云服务提供商提供的IaaS和PaaS。在这个基础之上,企业需要实施基本操作,包括云的迁移、混合云的管理、容器的管控、配置的管控以及部署管控等等。在云实施的基础之上,需要引入一些云安全的服务。需要构建自己的DevOps体系,甚至于需要做一个云的API的管理,能够帮助我们更好的使用云。
然后,需要一整套的云管理服务。云管理服务它注重的云原生技术的实现,诊断、分析、报警、容灾、性能压测以及系统架构优化等等。
最上面就是云的治理能力,包括了资源管理、服务控制、财务管控、资源优化、编排、实施规范以及安全策略等等。