容器可观测-如何为 K8s 中的所有事件提供可观测能力|学习笔记

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 快速学习容器可观测-如何为 K8s 中的所有事件提供可观测能力

开发者学堂课程【5分钟玩转阿里云容器服务容器可观测-如何为 K8s 中的所有事件提供可观测能力】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1038/detail/16077


容器可观测-如何为 K8s 中的所有事件提供可观测能力


内容介绍:

一.ACK 可观测体系概述

二.事件中心

三.ACK 日志中心


一.ACK 可观测体系概述

容器服务的可观测体系 logging 部分,包含事件中心、日志中心

ACK 集群中的事件体系包含了非常成熟的事件体系,提供了应用生命周期的事件以及 CGroup 层的事件。

image.png

ACK 可观测体系在社区的事件体系之上,从表层到底层都进行了覆盖和增强,对容器场景的可观测事件体系进行了全覆盖,从上到下分别是:应用层的异常、集群管控操作的重要事件、集群 control plane 核心组建的异常。


二.事件中心

image.png

如此复杂的 ACK 事件体系,用户只需要开启 ACK 事件中心的产品功能,即可在 ACK 控制台中获得开箱即用的事件监控能力,且 ACK 事件中心数据将持久化,从默认集群中只保留最近1小时,延长至默认保留最近90天。

开启 ACK 事件中心后,在 ACK 集群控制台运维管理事件中心中,从事件总览、事件查询、节点事件和 Pod 事件监控等多个视角的入口,进入 ACK 事件中心。

image.png

ACK 事件中心提供强大、灵活易用的分析能力,可以快速监控查看用户集群中的异常事件。

如图,该集群中正发生一个应用的 OOM (out of memory)事件,以及近期部署应用时发生镜像拉取失败、驱逐等异常,这里也会展示其他集群重要的异常事件和统计分布。

image.png

在节点事件页面中,可以查看一个节点生命周期中的事件,如图可以看到此节点出现重启、磁盘压力报警及最终磁盘不可用导致节点下线的情况。

image.png

在 Pod 事件监控中,可以以一个特定 Pod 的视角看到这个 Pod 的生命周期发生的所有事件,在 demo 中的 Pod 从被集群调度到拉取镜像,镜像拉取成功,最终 Pod 启动,启动后出现 Pod OOM,然后反复重启,最终 Pod BackOff, ACK 事件中心也提供 control plane 核心组件的异常事件视角,可以查看集群的核心组件、重要的 Addon 异常事件等。

image.png


三.ACK 日志中心

ACK 日志中心包含预置的 Ingress 流量日志大盘、审计日志以及云原生的方式快速接入用户应用日志的能力。

image.png

1、Ingress 大盘

在 ACK 集群控制台中,从网络-路由页面进入 Ingress 的配置,可以看到此次唯有 Ingress 的配置,从右上角 Ingress 概览,可进入 Ingress 流量大盘。

在 Ingress 流量大盘中,可以看到用户 Ingress 流量请求的 pv/uv 统计、各种错误返回的状态和统计,以及更详细的流量访问情况。

image.png

2、审计日志

在 ACK 集群控制台安全管理集群审计中,开通并进入审计中心,可以详细的统计访问此集群资源的审计情况,包括对资源的创建、更改、删除对应的操作事件,追溯集群操作的来源网域和集群被从公网访问的次数

image.png

操作详情与详情列表可以看到这个集群中资源操作的具体审计情况,如图:

第二行可以看到 deployment 部署 demo 的详细执行情况,以及发起操作的来源 IP

image.png

3、ACK 日志中心

ACK 日志中心提供集群日志、集群的 control plane 核心组件日志,可以在左侧运维管理中心中查看,用户也可使用云原生的方式在应用中打上 annotation 即可上报 Pod 中的日志到 ACK 日志中心,即可快速的通过白屏化的方式进行操作,如图:

对 arms - springboot - demo 这一 deployment 进行编辑,在日志服务中配置采集日志的标准输出(log store)、采集的日志路径或者是标准输出 stdout ,编辑即可完成此应用的 Pod 日志的上报,日志中心的应用日志中,即可看到并选择此日志。

查看此 Pod 上报的日志数据,用户在此可以通过强大灵活的 SLS 、SQL 对语句进行自定义的查询,快速的实现问题排查与故障定位。

image.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
2月前
|
人工智能 弹性计算 运维
ACK Edge与IDC:高效容器网络通信新突破
本文介绍如何基于ACK Edge以及高效的容器网络插件管理IDC进行容器化。
|
1月前
|
存储 运维 Kubernetes
正式开源,Doris Operator 支持高效 Kubernetes 容器化部署方案
飞轮科技推出了 Doris 的 Kubernetes Operator 开源项目(简称:Doris Operator),并捐赠给 Apache 基金会。该工具集成了原生 Kubernetes 资源的复杂管理能力,并融合了 Doris 组件间的分布式协同、用户集群形态的按需定制等经验,为用户提供了一个更简洁、高效、易用的容器化部署方案。
正式开源,Doris Operator 支持高效 Kubernetes 容器化部署方案
|
27天前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
针对本地存储和 PVC 这两种容器存储使用方式,我们对 ACK 的容器存储监控功能进行了全新升级。此次更新完善了对集群中不同存储类型的监控能力,不仅对之前已有的监控大盘进行了优化,还针对不同的云存储类型,上线了全新的监控大盘,确保用户能够更好地理解和管理容器业务应用的存储资源。
115 23
|
1月前
|
存储 监控 对象存储
ACK容器监控存储全面更新:让您的应用运行更稳定、更透明
介绍升级之后的ACK容器监控体系,包括各大盘界面展示和概要介绍。
|
2月前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
173 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
|
1月前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
186 11
|
2月前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
2月前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
1月前
|
人工智能 运维 监控
容器服务Kubernetes场景下可观测体系生产级最佳实践
阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限,其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景,特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术,阿里云增强了对容器网络、存储及多集群架构的监控能力,帮助客户实现高效运维和成本优化。未来,结合AI助手,将进一步提升问题定位和解决效率,缩短MTTR,助力构建智能运维体系。
|
1月前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。

相关产品

  • 容器服务Kubernetes版