在成为云计算新界面之后,智能化再次成为容器服务一个重要发展方向。
国际权威咨询机构Forrester在今年发布的《The Forrester WaveTM: Public Cloud Container Platforms, Q1 2022》报告中,阿里云位列全球公共云容器平台「领导者」象限,这是中国云计算厂商首次进入该象限。
对于阿里云而言,这已经不是其容器服务第一次闯入国际榜单,在此之前,阿里云容器服务(ACK)已经连续多年入选 Gartner 公共云容器竞争格局,阿里云 ACK 的产品丰富度与成熟度已经不言而喻。
2022 年是阿里云容器技术发展的第十一年,也是在这一年,阿里云再次将容器服务带入智能化时代。
12 月 28 日,在第三届云原生实战峰会上,阿里云资深技术专家汤志敏分享了容器服务助力云原生稳定性的主题演讲,并介绍了容器 AIOps 套件,助力企业做好故障预防与定位。从 2015 年提供容器服务至今,阿里云如何布局与推动容器服务发展,使其立于国际领先位置,我们不妨回顾下容器的发展历程。
阿里云铸「器」
2010 年,在遥远的大洋彼岸,几位 IT 技术男成立了一家名为 dotCloud 的公司,这家公司主要产品是一个 PaaS 平台,主要业务是为开发者提供技术服务,不过,在当年巨头环伺的云计算赛道,dotCloud 的日子并不好过,直到他们将自己的核心引擎进行开源。
2013 年 3 月,dotCloud 创始人 Solomon Hykes 向全世界宣布开源内部项目 Docker,由此也就有了容器技术的十年热潮。
阿里巴巴第一个容器项目始于 2011 年,当时无论是 Docker,还是后来的 K8s(Kubernetes)这些国际标准都还在酝酿之中,整个行业尚处于前容器时代,那些具有远见的科技公司在触达容器领域时是完全靠自研,阿里这一年灰度上线的内部代号为 T4 的产品同样是集成了 LXC,并在内核上加入了资源可见性隔离的 patch,纯靠自研一手打造的容器项目。
T4 项目更多解决的是容器调度问题,也是阿里在容器技术领域的一次技术尝试,阿里云容器服务(ACK)正式公测上线是在 2015 年年底,彼时阿里云 ACK 的大规模集群管理、容器集群编排技术已经经过内部业务验证,开始对外提供技术服务。汤志敏告诉至顶网,“在阿里内部,新技术一般都会选择先在核心业务落地,2015 年,阿里核心业务已经开始转向容器化部署。”
2019 年,CNCF 在这年 8 月发布的调研报告中指出,在生产环境中的云原生应用和项目增长已经超过了 200%;来自 Gartner 的预测数据也显示,到 2022 年将会有 75% 的全球化企业在生产中使用容器化应用。也是在这一年的阿里云栖大会上,汤志敏认为,“云原生拐点已至。”
容器技术是云原生的一项核心技术,阿里云的一个判断是,容器+ K8s 将成为云计算的新界面。正因如此,阿里云在容器技术风起云涌的这些年里,一边积极拥抱 K8s,将阿里云容器技术与 K8s 社区进行整合;一边基于阿里云 ACK 做全链路优化,在超大规模集群、无损性能、极致弹性、智能运维、安全可信等方面进行深度优化,构建阿里云 ACK 差异化竞争力。
以极致弹性为例,作为全民级社交媒体平台,微博日活用户已经达到 2.5 亿,微博每天在做的事情是根据用户兴趣为每个人推送不同的内容,面对突发性新闻事件,微博经常需要应对瞬时流量高峰,这就需要有极致的弹性扩容能力。微博很早就开始拥抱容器技术,而为其提供容器技术支持的正是阿里云 ACK,在极致弹性能力上,阿里云 ACK 能够实现 30 秒扩容 3000Pod,从而保证了微博客户端稳定运行。
实际上,容器技术已经成为当下企业数字化转型的首选底座,阿里云 ACK 也已经服务了电商、游戏、互娱等一众互联网新兴企业,以及诸多跨国企业。
汤志敏告诉至顶网,“无论是新兴互联网企业,还是传统企业,都在积极拥抱云原生、拥抱容器化。”
企业拥抱容器化
以某电商平台为例,随着近几年电商业务的蓬勃发展,为了支撑这样庞大的业务体系,构建容器化云计算底座就成了一条必由路径。基于阿里云容器服务 ACK,将在线业务,大数据、人工智能等新兴业务纷纷转向容器化部署,已经成为互联网企业的常规操作。
为什么会选择容器化业务部署?
汤志敏基于服务不同企业的观察,对此给出了三点解释:
第一,容器化已经成为大势所趋,无论是从人才体系,还是从长期技术发展角度来看,容器化部署业务都是当下最优选项;
第二,容器化部署可以帮助企业实现研发运维标准化,从而降低运维成本,实现企业业务降本增效;
第三,容器技术可以帮助企业充分用好云,在企业数字化转型过程中,如何充分、经济地用好云是一项艰巨的任务,基于容器化部署,可以在资源管理、调度、弹性等方面做到更细粒度,帮助企业实现成本优化。
以智能运维为例,通过应用阿里云 ACK 的容器 AIOps 套件、容器智能网络诊断工具 Skoop,可以让企业在运维过程中定位一个问题的时间,从之前的数周缩短到当下的几个小时。
由于疫情原因,云上大型体育赛事再次成为全球焦点,而要支撑这样的全球化项目、进行多地域支持,可迁移、可复制、支持跨地域管理的容器技术就成了首选的基础设施。
在过去几年里,阿里云 ACK 稳定支撑起了多个大型体育赛事的核心业务系统。
票务系统往往是大型体育赛事体验的关键一环,体育赛事场馆闸机数量庞大,相隔较远,借助阿里云边缘容器服务(ACK@Edge)云边一体能力,以及针对边缘场景叠加的边缘自治、单元化部署等能力,可以实现了多地所有赛事场馆票务系统的统一管理和运维。
而新闻发布会平台承接了体育赛事发布会的直播、导播、点播等核心功能。如果基于自建的 K8s 进行业务部署,往往会在同城容灾、敏捷运维上遇到诸多问题。通过阿里云 ACK 进行容器化部署后,能够轻松助力云上大型体育赛事实现业务快速上云和迁云,以及同城多数据中心级别的高可用和容灾能力。
一份来自 CNCF 的调研报告显示,2020 年容器技术使用率相较 2016 年增长了 300%,容器技术的规模化商用,一方面加速了企业数字化转型,另一方面也对容器技术提出了新要求。
ACK 迈入智能化时代
2020 年是容器技术产业应用元年,在之后两年里,容器技术在产业应用上一个明显趋势是:越来越多企业针对自身业务开启了全栈容器化进程。
原来只是简单部署应用,随着企业数字化转型进入深水区,一些企业基于 K8s 进行的内部功能扩展,进一步增加了 K8s master 的压力。而云服务底层处理器架构的多样性,也使得基于 K8s 进行统一调度管理时保障运行的稳定性变得更加复杂。
“如今在稳定性上面临的挑战已经在多层次、全链路出现了一次「大爆炸」。”
为此,阿里云凭借过去十年在容器技术上的积累,再次对阿里云 ACK 进行了一次全面升级,具体而言:
在全景可观测方面,阿里云 ACK 支持从应用层、容器层到节点层的全景可观测。全新的 Prometheus For ACK Pro 将 K8s master 内部核心组件的监控事件、异常请求通过可交互大盘完全展现出来,避免了以往数据不可观测为企业带来的疑虑,在节点层结合 eBPF 实现了无侵入式应用监测,并针对高基数长周期的监控查询实现了 5 倍的性能优化。
在智能运维方面,阿里云 ACK 容器 AIOps 套件凭借 10 年大规模容器运维经验沉淀,自动化诊断能力能够覆盖90%的运维问题。例如企业在业务升级过程中经常遇到的 K8s 版本较老,基于各种顾虑不敢升级的问题,阿里云 ACK 可以自动识别出应用是否在使用 K8s 老版本废弃的 API、集群资源是否足够,帮助企业规避升级过程中遇到的风险。
在智能诊断方面,阿里云 ACK 通过容器智能网络诊断工具 Skoop 能够帮助企业自动进行网络报文构建,模拟立体网络拓扑,自动分析诊断网络情况并降低网络异常情况。
如今,阿里云 ACK 这些容器智能化工具已经应用于得物、易签宝等诸多企业实际业务中,极大地提升了企业云计算资源利用率、运维效率,成为企业数字化转型过程中降本增效的利器。
在过去十年里,容器技术屏蔽了云计算的底层技术架构,让企业数字化转型过程中能够更快捷实现核心业务上云,大部分企业吃到了第一波数字化红利。汤志敏告诉至顶网,面对当下数字化转型进程,开始出现两类企业:
第一类企业需要易用的面向容器的 Serverless 底座,他们是容器技术的使用者,对于这些用户而言,底层技术复杂度是不可见的,需要我们不断提升 Serverless 容器平台的智能化程度,做好企业的稳定的基础技术底座;
第二类企业基于自身业务需求,需要在阿里云 ACK 上进行更多灵活性的扩展和自定义,我们需要提供更多像全景可观测、容器 AIOps 套件等工具,帮助企业做好云原生落地。
无论是哪类企业,对于容器技术的智能化需求已经日益加剧。实际上,在成为云计算新界面之后,智能化再次成为容器技术一个重要发展方向,而如今的阿里云 ACK,已经走在了这条路上。
点击此处回看云原生实战峰会。