3. CloudOps的定义与主要衡量指标
正如前言所述,CloudOps是传统IT运维和DevOps的延展,通过云原生架构实现运维的再进化,充分帮助企业降低IT运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。
根据CloudOps的定义是DevOps x Cloud,即DevOps和Cloud的深度结合,其主要衡量指标也和DevOps和Cloud息息相关。
• DevOps的核心特质是:提升研发速度、提升质量、自动化、敏捷、持续交付、高度透明、节约成本等。
• Cloud的核心特质是:节约成本、安全、弹性灵活、增强协作、可观测、质量控制、故障恢复、可持续性等。
DevOps发轫于运维领域,运维领域最关注的,无外乎稳定、安全、降本(成本管理、增效(自动化)等,而在随着互联网“小步快跑、持续迭代”原则的兴起,对企业创新的速度和软件的交付效率有了更高要求,因此,敏捷成为了新时代的共同诉求。
综合DevOps与Cloud的特性来看,运维人员最关注的维度无外乎以上五个,它们分别是:成本、自动化、可靠性、弹性(敏捷)、安全,因此本白皮书将从以上五个维度分别进行阐述和说明。
DevOps已经在组织文化、产品、流程和工具有比较详细的定义,即通过敏捷组织和高效的持续集成持续发布,实现业务高质量的快速交付。
因此,本文将不会讨论DevOps关于研发支持体系、需求管理、任务管理、代码管理等内容,而是更多地从如何更好的利用公有云的能力与特点,基于我们服务海量客户的最佳实践与经验,为大家分享我们对这五个维度的理解与实践。
1) 成本和资源量化管理
云提供了大规模的资源创建和变配策略,也提供了多种多样的付费和计费手段以及方便灵活的变配方法,如何选择合适的资源规格和付费方式是非常重要的。由于其方便灵活的特性,往往会有类似停机不收计算类资源费用,以及折扣非常低的抢占式实例,特别是按需创建资源和关停不需要的计费资源,需要我们有良好的成本和资源量化管理习惯和能力。
2) 自动化能力
云计算核心就是自动化的运维能力,通过软件定义计算、存储、网络,来实现高级的可编程能力,从而避免人工配置的错误,充分实现可定制的自动化能力。而公有云的服务模式要求云厂商提供的云产品和云服务都必须是统一标准的,即所有云产品和云服务都可以通过OpenAPI进行调用,从而实现完全自动化的能力。
3) 高可用能力
云计算天生就是为提升可靠性和可用性而设计的,通过大规模数据中心、多数据中心技术,实现数据中心同城灾备,通过对硬件层的虚拟化,来降低和规避物理硬件故障对客户的影响,通过成熟高可用的服务来降低系统的复杂性。为了进一步提升应用的可观测性和问题的排查能力,云平台还会提供比较多的自助服务来做问题的排查和解决。
4) 弹性能力
云计算另外一个巨大技术红利就是弹性能力,针对计算、网络、存储、安全等基础资源,充分的发挥资源池化和分时复用的价值,通过弹性能力帮助客户应对业务的高峰,充分降低社会成本和企业运营的IT成本,提升资源的利用率,可以极速实现资源到应用的水平或者垂直升级,通过秒级到分钟级扩缩容能力,完成计算力的创建和释放。
• 自建IDC或者私有云面临2大突出问题
。 前提投入高、资源使用不足存在大量浪费。
。 后期业务发展快,资源难扩展。
而公有云自建立之初就定位为:让资源像水电煤等基础设施一样,按需取用,按量付费,快速交付,灵活便捷。这种按需取用,不需要时直接释放的能力其实就是公有云弹性能力的最直观体现,而弹性能力也是云计算最重要的能力之一。
公有云采用的是按需付费的服务方式,如果用户持续保有不需要的资源,或者出现资源错配,则会带来不必要的成本支出。因此,对云上用户而言,充分利用云上的弹性能力除了能快速满足业务增长的需求或提升业务的连续性外,还意味着有效降低云上不必要的成本。
5) 安全和合规能力
云上的安全涉及到多方面,包括底层技术设施和应用层,这里我们主要讨论的跟底层资源相关。
首先第一个便是网络安全。区别于传统的IDC,云计算为了对租户进行隔离,一般会构建私有网络或者专有网络,通常我们称为VPC(Virtual Private Network)。VPC相较传统网络有更好的灵活性、易用性和安全性,并且暴露了更多的能力来提升网络扩展性。它允许用户按需规划、定义自己的网段划分和路由规则,将传统的路由器交换机抽象成软件,并暴露给最终用户使用。VPC良好的扩展性,让用户能够构建简单可信的网络配置,实现企业级复杂的网络环境。对于VPC的规则设置和配置,都将大大影响网络安全性。
另外,DevOps中操作审计和追踪是非常重要的能力,在CloudOps中亦然,云计算平台一般也会相应的为您提供面向资源和操作的配置历史追踪、配置合规审计等能力,帮助客户轻松实现基础设施的自主监管,确保持续性合规。