《2021 阿里云可观测技术峰会演讲实录合辑(上)》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
容器镜像服务 ACR,镜像仓库100个 不限时长
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】

接上篇:

https://developer.aliyun.com/article/1222690?spm=a2c6h.13148508.setting.26.4f394f0em1x0Jq

image.png

阿里云近期推出了Prometheus for ACK Pro,它是Prometheus的升级服务,能够在同一张大盘上看到多个数据源,包括集群事件日志、基于ebpf的无侵入式的应用指标、网络指标等,提供一致性的体验。用户可以通过一张大盘的关联分析逻辑,从总览到细节,通过多数据源、多角度的可观测能力进行不同角度的排查。

image.png

在ACK可观测体系里,Tracing体系提供了最终定位根因的能力,它分为两部分:

 

第一部分是应用层的Tracing,提供ARMS APM能力,支持OpenTracing、OpenTelemetric协议,可以支持多种语言的应用。

 

针对Java也提供了无侵入式的APM能力,只需要在Pod上打上annotation,Java应用的Pod即可享受实时的监控数据服务,可以查看实时的应用水位、JVM的性能指标、应用上下游分布式和微服务的全局调用top图等,也支持Profiling以及代码堆栈级的调用监控能力。不同语言可以汇聚成同一张分布式调用追踪大图,自上而下地查看一次分布式调用,从而定位、诊断问题。

image.png

第二部分是集群网络和调用Trace。

 

近期我们推出了基于eBPF网络层面的Tracing能力。通过eBPF插桩技术,在内核层面实现了零代码改动且非常低性能消耗的网络Tracing能力。提供了全局拓扑、快速定位问题调用链的网络拓扑展示以及资源层面展示,也支持在统一的全局架构视图中集合Metrics、Tracing和Logging多个角度进行可观测能力观察。

image.png

事件驱动的AIOps体系,用户可以将事件作为统一的驱动数据源进行问题的发现、触达以及AI智能化运维操作的桥梁。以ACK事件中心为核心,构造了统一的事件格式规范,K8s的事件会以统一的事件配置格式提供给用户,最后以事件中心为核心,通过统一的事件处理流提供给用户。用户可以通过订阅事件做事件的智能化运维以及构建其体系。用户可以通过某个应用的业务进行业务事件推送,并对业务事件进行智能化运维处理,比如智能的扩容或缩容等。

 

此外,我们也提供了ACK报警中心,通过统一的报警配置为用户构建AIOps的体系,帮助用户快速建立运维的订阅、收发和问题排障、处理体系。

image.png

报警中心会为用户提供统一的配置,帮助用户快速建立ACK场景上异常诊断的异常规则集。ACK报警中心提供了开箱即用的报警能力,沉淀了常用的容器场景异常规则集,开箱即用。其次,可以通过报警消息的细粒度订阅关系构建ITOps体系,不同的异常可以通过报警中心的订阅配置关系投递到真正能够解决异常的人手里。ACK也沉淀了标准的异常以及对应标准异常处理的SOP手册,发现报警时,会提示异常类型,以及为用户提供处理异常的标准SOP修复流程。

image.png

越来越多的用户面临了上云阶段或上云后治理阶段的降本增效问题,主要存在以下几个方面的痛点:

 

上云之前——如何上云,难规划;

上云之后——云产品种类丰富,集群资源类型也丰富,计费难;

高度SaaS化的应用部署在同一个集群中进行共享,成本分账难;

每年都会有新的业务生成和下线,集群和资源的使用关系是动态的,难以进行持续的优化和治理;

此前一般使用Excel表对能力进行管理,在云原生的场景下有丰富的用户应用和有丰富的账单资源类型,难以管理。

 

ACK提供了云原生企业IT成本治理方案,通过多维度的成本分摊和估算模型,为集群的资源进行成本估算和分摊。可以通过根因的下钻和趋势的预测进行成本洞察,集群上多个应用业务的成本可以细粒度下钻,进行成本拆分。对多集群场景上的成本提供了成熟的解决方案覆盖,以及提供企业云原生 IT成本治理的专家服务。

 

此外,我们还推出了内置的应用资源画像以及应用资源的智能推荐,可以为资源推荐合适的成本以及进行预算控制,最后会根据不同的场景进行成本优化,如大数据、AI、游戏等。

 

最后,支持多样化场景,包括多云和混合云等都能在统一的平面进行展示和管理。

 

客户案例

image.png

中华财险作为互联网金融的头部公司,有千核级别的集群规模,同时管理运维多个SaaS化线上业务,具有高度多租化、对业务稳定性要求高、对业务资源/成本趋势敏感度高等行业特点。

 

中华财险从传统IT架构到云原生化的过程中,面临着容量规划难、算清成本难、闲置资源难发现以及成本优化和业务稳定性难以平衡的挑战。

 

我们通过ACK的成本治理解决方案为它进行了压测、容量规划,通过ACK成本分析进行业务分账的账单管理和分析,解决了闲置资源的优化,为其提供了分配资源的优化策略,最后通过容器服务提供了细粒度的容器部署以及弹性策略等优化手段。

 

上云前,客户集群的资源分配闲置率高达30%+,而通过我们提供的成本治理方案,闲置率降至10%以下,为行业领先水平。

 

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5天前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
43 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
6天前
|
Cloud Native 持续交付 Docker
云原生技术实践:Docker容器化部署教程
【9月更文挑战第4天】本文将引导你了解如何利用Docker这一云原生技术的核心工具,实现应用的容器化部署。文章不仅提供了详细的步骤和代码示例,还深入探讨了云原生技术背后的哲学,帮助你理解为何容器化在现代软件开发中变得如此重要,并指导你如何在实际操作中运用这些知识。
|
11天前
|
Cloud Native 持续交付 云计算
云原生之旅:从容器到微服务的实践之路
【8月更文挑战第31天】在数字化转型的浪潮中,云原生技术成为企业创新和竞争力提升的关键。本文将带你走进云原生的世界,探索容器化、微服务架构以及持续集成与部署等核心技术,并通过实际代码示例揭示它们如何协同工作,以实现高效、可伸缩的现代应用。无论你是云原生新手还是资深开发者,这篇文章都将为你提供新的视角和实用知识。
|
11天前
|
Kubernetes Cloud Native Docker
云原生之旅:从容器到微服务的实践之路
【8月更文挑战第31天】在数字化转型的浪潮中,云原生技术正成为企业创新和敏捷性的新引擎。本文将通过深入浅出的方式,带领读者探索云原生的核心概念、容器化技术的实现,以及微服务架构的设计哲学。我们将一起动手实践,从Docker容器的构建与部署,到Kubernetes集群的管理,再到微服务的开发与集成,逐步揭开云原生技术的神秘面纱。你将看到代码如何转变为可弹性伸缩的服务,感受到云原生带来的高效与便捷。让我们开始这场技术变革的旅程,体验云原生的强大力量。
|
11天前
|
Kubernetes Cloud Native Docker
探索云原生技术:从容器化到微服务的实践之旅
在数字时代的浪潮中,云原生技术如同一艘航船,带领企业乘风破浪。本文将带你领略云原生的奥妙,从容器化技术的基石Docker讲起,到Kubernetes集群管理的航海术,再到微服务的架构设计,我们将一起构建、部署并运行一个简单的云原生应用。准备好,让我们启航!【8月更文挑战第31天】
|
11天前
|
运维 Kubernetes 监控
自动化运维:使用Python脚本实现系统监控云原生技术实践:Kubernetes在现代应用部署中的角色
【8月更文挑战第31天】在现代IT运维管理中,自动化已成为提高效率和准确性的关键。本文将通过一个Python脚本示例,展示如何实现对服务器的自动监控,包括CPU使用率、内存占用以及磁盘空间的实时监测。这不仅帮助运维人员快速定位问题,也减轻了日常监控工作的负担。文章以通俗易懂的语言,逐步引导读者理解并实践自动化监控的设置过程。 【8月更文挑战第31天】本文旨在探索云原生技术的核心—Kubernetes,如何革新现代应用的开发与部署。通过浅显易懂的语言和实例,我们将一窥Kubernetes的强大功能及其对DevOps文化的影响。你将学会如何利用Kubernetes进行容器编排,以及它如何帮助你的
|
11天前
|
运维 Kubernetes Cloud Native
拥抱云原生:Kubernetes 在现代应用部署中的实践
【8月更文挑战第31天】在数字化转型的浪潮中,云原生技术成为推动企业创新和效率提升的关键力量。本文将深入探讨如何利用 Kubernetes,这一强大的容器编排工具,来部署和管理现代应用。我们将从基础架构搭建开始,一步步引导您配置集群,并通过实际代码示例演示如何部署一个简单的应用。无论您是云原生新手还是希望深化理解,这篇文章都将为您提供实操经验和理论知识的融合之旅。
|
11天前
|
Kubernetes Cloud Native 应用服务中间件
云原生技术入门与实践:Kubernetes的简易部署
【8月更文挑战第31天】云原生技术已成为现代软件部署的黄金标准,而Kubernetes作为其核心组件之一,在容器编排领域独领风骚。本文将引导您通过简单的步骤,快速部署一个Kubernetes集群,并运行一个简单的应用,让您轻松迈入云原生的世界。
|
11天前
|
Cloud Native Docker 微服务
云原生之旅:从容器化到微服务的实践之路
【8月更文挑战第31天】在数字化转型的浪潮中,云原生技术成为推动企业创新和效率提升的关键力量。本文将带你领略云原生的核心概念,深入探讨如何通过容器化技术简化部署流程,并实现微服务架构,以应对快速变化的市场需求。你将学习到具体的代码示例和实践步骤,开启你的云原生之旅。
|
11天前
|
Cloud Native 云计算 Docker
云原生之旅:Docker容器化实践
【8月更文挑战第31天】本文深入浅出地介绍了云原生技术中的一个重要组成部分—Docker容器。通过实际案例,我们将一起探索如何将应用容器化,并部署到云端。文章不仅涵盖了Docker的基本操作和概念,还提供了详细的代码示例,帮助初学者快速上手。让我们一起开启云原生技术的奇妙旅程吧!

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版