当 Pod 崩溃后如何在报警信息中获取对应的日志信息?

简介: 当 Pod 崩溃后如何在报警信息中获取对应的日志信息?

Robusta 是一个 Python 开发的用于 Kubernetes 故障排除的开源平台。它位于你的监控堆栈(Prometheus、Elasticsearch 等)之上,并告诉你警报发生的原因以及如何修复它们。

Robusta 包含三个主要部分,全部开源:

  1. 用于 Kubernetes 的自动化引擎
  2. 内置自动化以丰富和修复常见警报
  3. 其他一些手动故障排除工具

还有一些其他额外的可选组件:

  1. 包含 Robusta、Prometheus Operator 和默认 Kubernetes 警报的工具包
  2. 用于查看集群中所有警报、变更和事件的 Web UI。

Robusta 会自动执行部署应用程序后发生的所有事情。它有点像用于 DevOps 的 Zapier/IFTTT,强调的是预置的自动化,而不仅仅是“构建你自己的”。例如,当 Pod 崩溃的警报触发时,下面的自动化程序也会将日志发送到 Slack:

triggers:
  - on_prometheus_alert:
      alert_name: KubePodCrashLooping
actions:
  - logs_enricher: {}
sinks:
  - slack

每个自动化程序都包含3个部分:

  • Triggers:何时运行(基于警报、日志、变更等)
  • Actions:要做什么操作(超过50个内置操作)
  • Sinks:将结果发送到何处(Slack等)

image.png

架构

Robusta 可以通过 Helm 进行安装和管理。

自动化引擎

Robusta 的主要组件是自动化引擎,它作为两个 Kubernetes Deployments 在集群内运行。

  • robusta-forwarder:连接到 APIServer 并监控 Kubernetes 的变化,将它们转发给 robusta-runner
  • robusta-runner:执行 playbooks。

image.png

打包的 Prometheus 堆栈(可选)

Robusta 包括一个可选的嵌入式 Prometheus 堆栈,根据最佳实践预先配置了 Kubernetes 警报。如果已经在使用 kube-prometheus-stack,则可以将其指向 Robusta。

Web UI(可选)

有一个 Web UI,它提供一个单一的管理面板来监控跨多个集群的所有警报和 pod。

CLI(可选)

robusta 的命令行工具有两个主要用途:

  1. 通过自动生成 Helm values 使安装 Robusta 变得更容易
  2. 手动触发 Robusta 故障排除工作流程(例如从任何 Java pod 获取 heap dump)

它还具有开发 Robusta 本身有用的一些功能。

使用场景

Robusta 默认情况下会监控下面这些报警和错误,并会提供一些修复建议。

Prometheus Alerts

  • CPUThrottlingHigh - 显示原因和解决方法
  • HostOomKillDetected - 显示哪些 Pods 被 killed 掉了
  • KubeNodeNotReady - 显示节点资源和受影响的 Pods
  • HostHighCpuLoad - 显示CPU使用情况分析
  • KubernetesDaemonsetMisscheduled - 标记已知错误并建议修复
  • KubernetesDeploymentReplicasMismatch - 显示 deployment 的状态
  • NodeFilesystemSpaceFillingUp - 显示磁盘使用情况

其他错误

这些是通过监听 APIServer 来识别的:

  • CrashLoopBackOff
  • ImagePullBackOff
  • Node NotReady

此外,WARNING 级别及以上的所有 Kubernetes 事件(kubectl get events)都会发送到 Robusta UI。

变更追踪

默认情况下,对 Deployments、DaemonSets 和 StatefulSets 的所有变更都会发送到 Robusta UI,以便与 Prometheus 警报和其他错误相关联。默认情况下,这些更改不会发送到其他接收器(例如 Slack),因为它们是垃圾邮件。

安装

要在你的 K8s 集群中配置 Robusta,首先我们需要安装 Robusta,并连接至少一个目的地(“接收器”)和至少一个源(“触发器”)。

为了配置 robusta,我们需要安装 Robusta CLI 工具,直接使用下面的命令即可安装:

# 需要 Python3.7 或以上版本
pip install -U robusta-cli --no-cache

然后就可以生成 Robusta 配置文件,这会配置安装 Slack 或其他集成工具,也非常推荐开启 cloud UI 工具:

robusta gen-config

上面的命令默认情况下会让我们配置 Slack,所以需要提前做好配置,提供一个 channel 用于接收相关信息,最后会生成一个名为 generated_values.yaml 的 Helm values 文件,如果在你的 Slack 频道中收到了如下所示的信息则证明配置是正确的:

image.png

然后我们就可以使用 Helm 进行安装了,首先添加 Helm Chart Repo:

helm repo add robusta https://robusta-charts.storage.googleapis.com && helm repo update

然后可以使用下面的命令进行安装:

helm install robusta robusta/robusta -f ./generated_values.yaml \
    --set clusterName=<YOUR_CLUSTER_NAME>

如果你使用的是 KinD 测试集群,则可以提供一个 isSmallCluster=tru 的参数,这样可以减少相关资源:

helm install robusta robusta/robusta -f ./generated_values.yaml \
    --set clusterName=<YOUR_CLUSTER_NAME> \
    --set isSmallCluster=true

比如我这里是 KinD 的测试集群,安装完成后会有如下所示的 Pod 列表:

$ kubectl get pods
NAME                                                     READY   STATUS    RESTARTS      AGE
alertmanager-robusta-kube-prometheus-st-alertmanager-0   2/2     Running   3 (30m ago)   3h25m
prometheus-robusta-kube-prometheus-st-prometheus-0       2/2     Running   2 (34m ago)   4h21m
robusta-forwarder-579fb4b548-7xqq8                       1/1     Running   1 (30m ago)   4h23m
robusta-grafana-797c64d5b4-2dbhl                         3/3     Running   3 (30m ago)   4h23m
robusta-kube-prometheus-st-operator-7c5db9ccb9-gczlp     1/1     Running   1 (30m ago)   4h23m
robusta-kube-state-metrics-649fd7db9f-6sd8p              1/1     Running   1 (34m ago)   4h23m
robusta-prometheus-node-exporter-5426b                   1/1     Running   1 (30m ago)   4h23m
robusta-prometheus-node-exporter-hx6r4                   1/1     Running   1 (30m ago)   4h23m
robusta-prometheus-node-exporter-np4jj                   1/1     Running   1 (30m ago)   4h23m
robusta-runner-9f4f56c8b-49s7p                           1/1     Running   1 (30m ago)   3h48m

如果安装的时候启用了 Robusta 的 UI 功能,则可以在 Web UI 中看到当前集群的相关监控数据。

image.png

测试

默认情况下,Robusta 会在 Kubernetes pod 崩溃时发送通知,这里我们创建一个 crashing 的 pod 来进行测试,该测试应用的资源清单如下所示:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: crashpod
spec:
  selector:
    matchLabels:
      app: crashpod
  template:
    metadata:
      labels:
        app: crashpod
    spec:
      containers:
      - image: busybox
        command: ["sh"]
        args:
        - "-c"
        - "wget -O - https://gist.githubusercontent.com/odyssomay/1078370/raw/35c5981f8c139bc9dc02186f187ebee61f5b9eb9/gistfile1.txt 2>/dev/null; exit 125;"
        imagePullPolicy: IfNotPresent
        name: crashpod
      restartPolicy: Always

直接应用该清单即可(或者执行 robusta demo 命令也可以),正常启动后很快该 pod 就会崩溃:

$ kubectl get pods -A
NAME                            READY   STATUS             RESTARTS   AGE
crashpod-64d8fbfd-s2dvn         0/1     CrashLoopBackOff   1          7s

一旦 pod 达到两次重启后,Slack 频道就可以接收到有关崩溃 pod 的消息。

image.png

而且还可以看到完整的 pod 崩溃日志,这个对于监控报警是非常有意义的。同样如果开启了  Robusta UI,在 Web UI 页面中也可以看到类似的消息。

image.png

自动化基础

为了演示 Robusta 自动化是如何工作的,我们将配置一个在 Deployment 发生变化时发送 Slack 消息的自动化。

首先添加下面内容到 generated_values.yaml 文件中:

customPlaybooks:
- triggers:
    - on_deployment_update: {}
  actions:
    - resource_babysitter:
        omitted_fields: []
        fields_to_monitor: ["spec.replicas"]

然后更新 Robusta:

helm upgrade robusta robusta/robusta --values=generated_values.yaml

更新后我们来更改一个 Deployment 的副本数:

kubectl scale --replicas NEW_REPLICAS_COUNT deployments/DEPLOYMENT_NAME

正常然后 Slack 的频道就会收到对应的一条如下所示消息通知了:

image.png

如果启用了 Robusta UI,所有的报警和变更也都会出现在 timeline 下面:

image.png

我们也可以点击查看变更的内容:

image.png

当然我们还可以利用 Robusta 来做很多事情,可以自己来实现 playbook 操作,关于 Robusta 的更多高级使用可以参考官方文档 https://docs.robusta.dev 了解更多信息。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
26天前
|
运维 Kubernetes 监控
CKA备考攻略:掌握Pod日志收集,事半功倍的秘诀!
CKA备考攻略:掌握Pod日志收集,事半功倍的秘诀!
24 0
CKA备考攻略:掌握Pod日志收集,事半功倍的秘诀!
|
3月前
|
存储 监控 iOS开发
iOS应用崩溃了,如何通过崩溃手机连接电脑查找日志方法
在iOS应用开发过程中,调试日志和奔溃日志是开发者必不可少的工具。当iOS手机崩溃时,我们可以连接电脑并使用Xcode Console等工具来查看日志。然而,这种方式可能不够方便,并且处理奔溃日志也相当繁琐。克魔助手的出现为开发者带来了极大的便利,本文将详细介绍其功能和使用方法。 克魔助手会提供两种日志,一种是实时的,一种的是崩溃的。(由于崩溃日志的环境很麻烦,目前只展示实时日志操作步骤)
|
4月前
|
DataWorks DataX
请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。
请仔细检查DataX报告的脏数据日志信息,或者调整脏数据阈值。
505 1
|
4月前
|
Kubernetes 监控 容器
k8s学习-CKA真题-监控Pod日志
k8s学习-CKA真题-监控Pod日志
78 0
|
2月前
|
存储 SQL 运维
揭秘如何通过日志服务实现个人敏感信息保护
【2月更文挑战第3天】阿里云日志服务SLS(Simple Log Service)为保护个人敏感信息提供了全面的数据安全策略。在数据采集阶段,客户端可以对包含敏感信息的日志进行AES加密后上报至SLS中心Logstore,利用HTTPS加密链路保障传输安全。在存储环节,SLS支持对敏感字段进行专门的脱敏处理,如替换、哈希或截断等手段,确保原始敏感信息不被明文暴露。对于需要使用日志数据的业务方,SLS允许在分发前对敏感数据进行解密并再次脱敏,以满足合规性和安全性要求。通过精细的权限管理和审计功能,SLS可记录所有访问和操作日志,确保任何对敏感数据的操作都可追溯。
|
3月前
|
存储 JSON 运维
【运维】Powershell 服务器系统管理信息总结(进程、线程、磁盘、内存、网络、CPU、持续运行时间、系统账户、日志事件)
【运维】Powershell 服务器系统管理信息总结(进程、线程、磁盘、内存、网络、CPU、持续运行时间、系统账户、日志事件)
51 0
|
3月前
|
存储 监控 Serverless
在处理阿里云函数计算3.0版本的函数时,如果遇到报错但没有日志信息的情况
在处理阿里云函数计算3.0版本的函数时,如果遇到报错但没有日志信息的情况【1月更文挑战第23天】【1月更文挑战第114篇】
63 5
|
4月前
|
JSON 数据格式
【云备份|| 日志 day3】服务端配置信息模块
【云备份|| 日志 day3】服务端配置信息模块
【云备份|| 日志 day3】服务端配置信息模块
|
4月前
|
SQL 消息中间件 缓存
Flink SQL中使用DEBUG模式来输出详细的日志信息,
Flink SQL中使用DEBUG模式来输出详细的日志信息,
138 0
|
5月前
|
Java
JVM学习笔记-如何在IDEA打印JVM的GC日志信息
若要在Idea上打印JVM相应GC日志,其实只需在Run/Debug Configurations上进行设置即可。
66 0