作者 | 汤志敏 阿里云容器服务开发负责人
Kubernetes 是云原生时代的基础设施、云上的分布式操作系统。
9 月 26 日云栖大会容器专场,在《拐点已至,云原生引领数字化转型升级》的演讲中,容器服务开发负责人汤志敏表示:“阿里云容器服务已经拥有国内最大规模的公共云容器集群,据各大国际评测机构显示,其市场份额和产品综合能力中国内第一。
本次容器服务 ACK2.0 在规模、性能和弹性能力上全面升级,支持单集群万节点、90% 原生性能的安全沙箱容器、分钟级千节点弹性。此外,容器服务已经在全球 20 个地域部署,推出云原生混合云 2.0 架构和 ACK@Edge,打造安全智能的无边界云计算。
本文根据演讲内容整理,关注阿里巴巴云原生公众号,回复“云原生”获得本文 PPT。
K8s,云原生时代的重要生产力
在早期,K8s 上跑的应用多是无状态的应用,而现在越来越多的企业核心业务、数据智能业务和创新业务也跑在 K8s 之上。以阿里云自身的云产品举例,包括企业级分布式应用服务 EDAS、微服务引擎 MSE、智能数据管理平台 Dataphin、数据湖分析 Data Lake Analytics 也部署在容器服务 ACK 之上。
如今,阿里云实时计算产品也推出了云原生实时计算 Flink 版本,让 Flink 可以部署在用户的 K8s 集群之上,让在线业务和流计算共享一个 K8s 集群,降低运维成本的同时可以享受弹性。我们正在见证 K8s 成为云原生时代的基础设施,成为云上分布式操作系统,成为平台的平台。大量企业在享受云原生带来的敏捷、弹性和可移植能力。
为什么我们认为 “云原生拐点已至”?
CNCF 在 8 月份颁布了双年度报告,结果表明:
- 在生产环境的云原生应用和项目增长超过 200%
- StackOverflow 在今年的年度开发者报告中指出,容器和 Kubernetes 已经成为 Linux 之后最受欢迎的项目
- Gartner 在今年的容器最佳实践中预测:“到 2022 年有 75% 的全球化企业将在生产中使用容器化的应用”
种种迹象表明容器技术已经逐渐深耕落地。
致敬容器领域的先行者
我们不妨先来共同回顾下阿里云容器服务的发展之路。2011 年,阿里率先在国内布局容器技术。2015 年底,容器服务公测上线,到今天已经有 4 个年头,目前已经在全球 20 个地域开服,服务了来自中国、北美、欧洲、东南亚等地的来自互联网、金融、政务、制造等行业的数万用户和企业,拥有国内最大的公共云容器集群。感谢大家的陪伴,容器服务连续三年业务增长超400%,截止 8 月份每月镜像下载量超 3 亿,容器服务已经逐渐成为云原生应用的首选。
此外,容器服务也获得了国际权威咨询师的认可。6 月 Gartner 发布的公有云容器服务竞争格局中,阿里云是唯一进入该报告的国内云厂商。今年 7 月,在 Forrester 的容器报告中,阿里云在全球处于强力表现者,在市场份额和产品综合竞争力位列国内第一。
除了阿里自身,越来越多的企业也享受到了云原生技术的红利。三维家基于容器快速迁云,提升云资源利用率。民生银行基于 Kubernetes 优化其核心应用架构,加速业务迭代。微博基于 Kubernetes 统一管理异构资源,加速 AI 计算,促进应用数据化智能化;跨国企业西门子将其开放式物联网操作系统 MindSphere 部署在 ACK 之上,屏蔽底层基础设施差异,实现多云战略。
三维家是一家来自广东的企业,他将 3D 全景技术应用到家居设计,引领家装行业变革。过去,三维家采用自建 IDC 的传统方式,运维团队“一揽子包干”,耗时费力,团队疲于奔命,很难跟上业务发展对算力的需求。
2018 年,三维家开始将部分业务迁移到云上,基于容器服务 ACK 和近千台裸金属服务进行统一的任务调和家居渲染业务。三维家通过容器化技术,分批切换完成了最终的业务上线,整体应用搬迁上云累计只用三天。上云前,当遇到资源扩展时,工作量就非常大。现在可以利用容器的自动弹性伸缩,3 分钟即可开通 100 台裸金属服务器,应对波峰波谷的业务特性。此外,利用 Kuberentes 内置灰度发布能力,可以依据客户的级别、付费模式提供不同版本的渲染技术和不同的服务迭代。
相信大家都使用过微博,对微博的大 V 和热门微博非常感兴趣。微博目前有超 2 亿日活用户,那微博是如何把这些热点内容根据用户的不同兴趣推送给每个人,实现千人千面的。这背后就有微博在线机器学习的功劳。微博机器学习平台可以把实时计算和在线学习能力应用到热门微博和 feed 流等业务场景,通过海量实时样本分析,进行模型的训练和服务。
整个在线学习服务链路长,对离在线服务实时性与稳定性要求非常高。为了充分发挥离在线混部优势,提供高效稳定的服务治理,动态地弹性调度资源,微博采用了 all on K8s 的方案:
- 在样本拼接方面,通过采用阿里云 Blink on ACK 方案,在相同资源下,实时计算的性能较开源方案有 2.4 倍提升;
- 在实时训练方面,支持百亿级实时样本和万亿级纬度超大规模稀疏模型;
- 模型推理方面,通过自研推理框架 on ACK 方案,对异构集群资源进行统一混合调
- 度,提供高性能线上服务能力,支持 50 万峰值 QPS。
ACK 2.0 全新升级,让天下没有难用的 K8s
很多还没有大规模实践 Kubernetes 的企业和用户,可能想了解 Kubernetes 生产落地有哪些经验和痛点。我们做了一些调查,大家普遍存在以下痛点问题:如何保证 K8s 及其上应用的安全合规?如何统一管理云上和云下的 K8s 集群?如何运维大规模的 K8s 集群?如何充分利用丰富的 K8s 上下游生态?
针对上述问题,阿里云容器服务团队结合企业生产环境的大量实践,推出一系列功能来全面协助企业真正将 Kubernetes 落地。
端到端的企业级安全能力
首先我们来看安全领域,如何保障云原生时代的端到端的企业级安全能力。
容器和云原生时代的安全挑战和传统安全有什么不同?
- 第一个是高动态和高密度。传统时代一台机器只跑几个应用,而现在在一台服务器会运行上百个应用,是原来十几倍的密度。另外考虑到容器的自动恢复等特性,上一刻的容器在A机器,下一刻就会随时漂移到另一台机器。
- 第二个是敏捷和快速迭代,容器 +DevOps 化的应用发布非常频繁,是传统的几倍。
- 第三,在开放标准、软件行业社会化大分工的时代,越来越多不可信三方开源软件的引入也加剧了安全风险。而容器的这些特点都会对云原生安全提出了更高的要求。
为了应对这些安全风险,容器服务推出了立体式的端到端云原生安全架构升级。他会从三个层面来解决安全问题:
- 最底层是基础架构安全,支持全方位网络安全隔离管控和全链路数据加密,提供阿里云主子账号和 K8s RBAC 权限体系的联动,支持细粒度的权限和审计能力;
- 中间是安全软件供应链,支持镜像扫描、磁盘 BYOK 加密等能力,打造完整的 DevSecOps。
- 最上层是运行时安全,提供了运行时安全扫描、多租户管理、KMS支持等能力;接下来我们重点看下安全软件供应链和安全沙箱容器。
业务的频繁调整和上线对业务流程安全提出了更高的要求,将安全工作前置,从源头上做好安全才能消除隐患。基于容器镜像服务的云原生安全软件供应链,可以将安全内置到全流程的开发过程中,确保上线即安全。有三个优势:
- 第一个提供容器运行时扫描,在阿里云的安全中心,可以一站式的查看容器和非容器的运行时威胁监控与阻断。实现静态到动态的全生命周期管理。
- 第二个提供完整的软件交付链,交付链全链路可观测、可追踪、可自主设置,智能优化提升交付效率。在漏洞识别后,会阻断发布。做到可阻断可编排。
- 第三个提供全球分发能力,分发到不同的后端,镜像全球同步效率提升7倍。
我们希望打造新一代的 DevSecOps 安全开发流程,做到斩隐患于萌芽,遁威胁于无形。
如果您在 K8s 集群内部署了开源的或第三方不可信的应用,那么可以考虑看下我们的安全沙箱容器功能。相比于普通的 Pod,安全沙箱容器具有独立内核,保证安全隔离。大家都知道,安全、兼容性和性能是一个三角,同时做到会比较难。
而经过我们的大量性能优化,安全沙箱容器的性能,已经可以接近 90% 的原生 runC 性能。此外,值得一提的是,可以在一台云服务器上同时部署普通 Pod 和安全沙箱 Pod,做到混部能力。用户完全可以根据自己的业务特性做自主选择。在可观测性方面,我们提供了安全沙箱场景下完整的日志监控等能力增强。
拓展云计算的边界
我们回到第二个问题,如何解决云上云下统一管理的问题。接下来我会介绍容器服务 ACK 的无边界云计算解决方案。
很多企业在思考上云策略的时候,出于数据主权和安全合规的考虑,会将部分业务弹性迁移到云上。比如微博和B站在有一些热门活动时,应用会从 IDC 弹性到云上,应对突发流量。一些银行和政府在考虑搭建灾备中心的时候,选择阿里云作为低成本的云容灾或者多活方案。混合云已经成为企业上云的新常态。不过混合云带来的挑战是:云上和云下的基础设施能力不一致,安全管理不统一,如何统一管理应用?
容器服务 ACK 本次推出了以应用为中心的混合云 2.0 架构,
在纳管能力上,可以在用户 IDC 的 K8s 集群上轻松安装一个 agent,一键被云上的容器服务纳管。如果您不想管理 IDC 的 K8s 集群,也可以选择我们的 ACK 敏捷版。在所有的集群注册完毕之后。可以通过 ACK 的集群联邦能力提供统一的应用部署、安全治理和可观测性能力。
此外,如果您想配置不同集群的负载均衡和流量和发布策略,可以通过容器服务的服务网格能力统一管理。
通过使用容器服务的云原生混合云管理能力,可以有三个方面的优势:
- 第一个:可以实现统一的集群管理,统一的安全治理、应用管理和可观测性。以及跨云的弹性伸缩
- 第二个:可以通过阿里云的云企业网,将多个地域的 VPC 和 IDC 网络组成一张环网,实现全网互联、全球就近接入,保证高速低延时
- 第三个:可以通过智能流量管理,优化不同地域的服务访问策略,提升业务连续性
如果您想尝试云原生混合云,但是还未开始搬迁上云,我们提供了一揽子云原生平滑迁云工具集,简化您的搬迁成本。他可以从三个方面来简化搬迁的过程,包括应用镜像、应用配置、应用状态和数据。我们提供了 Packer 能力,可以将您的 OS 镜像打包成 ECS 的自定义镜像。通过 Docker 镜像迁移工具,将容器镜像自动迁移到阿里云的容器镜像仓库。通过 velero 工具,将您的 K8s 应用配置无缝迁移到阿里云的 ACK。通过 DTS 帮助您无缝同步数据库。
随着 5G 和物联网时代的到来,通过传统云+数据中心来集中存储、计算的模式已经无法满足终端设备对于时效、容量、算力的需求。将云计算的能力下沉到边缘侧、设备侧,并通过中心进行统一交付、运维、管控,将是云计算的重要发展趋势。
为此容器服务正式推出 ACK@Edge,支持统一管理云端和边缘节点,支持统一应用发布,发布效率提升 3 倍。基于边缘的应用部署,可以降低网络延迟 75%。考虑到边缘的特性,提供了额外的单元化隔离和断连自治。同样,如果想在边缘部署不可信三方应用,我们在 ACK@Edge 也提供了安全沙箱容器能力。
接下来介绍下优酷是如何基于 ACK@Edge 来完成他的架构演进。大家都知道优酷是可以播放海量的视频。随着优酷业务的发展,他需要支持数百个城市。这时候优酷需要考虑将原来在 IDC 内的集中式架构,演进到边缘架构。
这时候需要考虑一种方式,来统一管理阿里云几十个 region 和上千个边缘节点。优酷选择了 ACK@Edge,可以统一管理 ECS 和边缘的节点,并做统一的应用发布和弹性扩缩容。通过动态扩缩容能力,节省了机器成本 50%。采用新的架构之后,原来播放视频的链路也从公网变成骨干网到边缘节点再到终端,优化了网络延迟 75%。
无服务器化的基础设施
我们回到第三个问题,如何去管理K8s集群的海量节点的升级和运维。我们希望通过 serverless化的方案,帮助企业降低运维成本。
2018 年,容器服务发布了 Serverless k8s 1.0版本,用户完全不需要管理他的 K8s worker 节点,从而不用关注节点的环境配置、服务器管理、维护升级等环节,从根源上解决了 Kubernetes 运维难题。将开发人员的效率最大化,无需容量管理,无惧安全风险。
今天阿里云容器服务正式推出 Serverless Kuberentes 2.0 升级,同时结束公测开始商业化。Serverless Kuberentes 2.0 全面提升了 K8s 兼容性、安全性和极致弹性。在兼容性方面支持多命名空间、RBAC 安全模型,支持 Istio 和 Knative 等框架,是业界兼容 Kubernetes 最好的 Serverless 服务;在弹性能力上支持 GPU 实例,500 pod 启动小于 50s。
目前 Serverless Kuberentes 在 Job 任务、在线弹性等多个场景中广泛应用,帮助用户轻松拥抱“以应用为中心”的云原生架构。
我们并未止步于 Kubernetes 本身,我们还在 Serverless Kubernetes 之上基于 Knative 构建了一套 Serverless Framework 套件。Serverless Framework 可以简化事件处理、代码构建、服务部署等,同时无缝集成阿里云的各种事件源,包括消息服务、服务服务等事件源。以及可观测性能力。可以让企业自己搭建各类 Serverless 产品,无论是面向应用、容器还是函数。希望可以助力大家一起打造下一代的无服务应用。
保持开放,容器应用市场发布
最后,在云原生日趋成熟的年代,我们希望合作共赢,打造开放云原生生态。
容器服务积极参与并回馈云原生社区,在 moby/kubernetes 等开源项目社区贡献领先。目前已经是 CNCF 云原生计算基金会的白金会员,李响也成为 CNCF 技术监督委员会的唯一华人成员。OCI 开放容器联盟的成员,CNIA 云原生产业联盟的理事成员。阿里云容器服务也成为Kubernetes 一致性认证产品和认证服务提供商。
除了开源和云原生社区之外,我们也致力于寻求打造全球合作伙伴生态。在 2019 年,我们的全球生态伙伴又多了一些新面孔。SAP Cloud Platform 基于开源项目 Gardener,已经支持容器服务 ACK,为企业提供大规模混合云集群管理能力。
随着在容器服务上运行人工智能应用的越来越流行,来自英国的人工智能服务提供商 Seldon提供了云原生 AI 模型推理服务。来自印度的 Click2Cloud,他们在最新的 Cloubbrain 支持 ACK,为企业客户向云原生应用迁移提供了完整的解决方案。来自欧洲的容器平台厂商 BanzaiCloud 有一套完整的混合云与 Istio 的产品,他们的 pipeline 产品已经支持 ACK,从而使得客户可以从成本优化的角度创建和管理不同云厂商的容器集群。
除了合作方面,今年我们在阿里云市场全新上线容器应用的一级类目,希望可以链接企业和云原生创新。对于云原生的开发者来说,可以便捷的找到经过阿里云认证的、标准的容器生态产品,包含开源免费的、商业化收费的容器产品,快速在集群上使用,满足您多场景下的业务需求。对于我们的合作 ISV 来说,您可以使用标准化的交易流程及丰富客户资源,降低售前、交易、交付、售后等流程的复杂度。
接下来我会隆重介绍一期即将入住阿里云容器应用市场的合作伙伴:
- Intel 全球最大的个人计算机零件和CPU制造商。其 Intel Clear Linux 将基于 Aliyun Linux 2 制作优化过的应用软件的基础镜像,后续将以容器镜像的形式输出阿里云容器应用云市场,帮助更多容器客户更安全、轻量、高效运行容器。
- 奥哲网络科技有限公司,是国内领先的流程管理系统(BPM)供应商,后续奥哲BPM 管理产品-云枢将在容器应用市场上商业化售卖,帮助企业通过业务、管理在线实现数字化经营。
- Fortinet 是行业领先的网络安全和恶意软件防护公司,能够为业务通信提供最佳安全、高性能、低成本的安全解决方案。后续 Fortinet 将在容器应用市场提供容器安全防护套件,为容器企业客户提供完整运行时的容器安全解决方案。
新基石、新算力、新生态
最后我们一起来回顾下本次容器服务 ACK 2.0 的云原生进化和愿景:让我们一起打造云原生时代的新基石、新算力、新生态。
在新基石方面,容器服务致力成为全场景化的云原生技术设施,提供全链路安全架构,支持全球部署,单集群支持万节点规模。容器服务提供了云边端一体化解决方案和混合云 2.0 架构,助力边缘延时降低 75,提升交付效率 3 倍。
在新算力方面,容器服务 ACK 2.0 支持极速弹性,分钟级千节点伸缩;支持异构算力,通过增强调度实现利用率提升 5 倍;支持安全沙箱容器,强隔离,90% 原生性能。
在新生态方面,容器服务希望携手云原生开发者和云原生合作伙伴,共创云原生未来。感谢大家,感谢各行各业的客户和我们一路同行。拐点已至,让我们一起通过云原生引领数字化转型。
“ 阿里巴巴云原生微信公众号(ID:Alicloudnative)关注微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术公众号。”