企业级运维之云原生与Kubernetes实战课程
第二章第6讲 阿里云容器服务集群日志与监控
视频地址:https://developer.aliyun.com/learning/course/913/detail/14649
摘要:本小节主要内容为K8s日志服务与监控,包括日志服务简介、日志服务采集、集群监控。
目录
- 日志服务简介
- 日志服务采集
- 集群监控
一、日志服务简介
1. 日志服务是什么?
日志服务(Log Service,简称SLS)是针对日志类数据的一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成,无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能,提升运维、运营效率,建立DT时代海量日志处理能力。
2. 实时采集与消费 (LogHub)
- 功能
- 通过ECS、容器、移动端、开源软件、JS等接入实时日志数据(例如Metric. Event、BinLog、TextLog等)。
- 提供实时消费接口,与实时计算及服务对接。
- 用途
- 数据清洗 (ETL)、流计算(Stream Compute)、监控与报警、机器学习与迭代计算。
3. 查询与实时分析 (LogSearch/Analytics)
- 功能:实时索引、查询分析数据。
- 查询:关键词查询、模糊查询、上下文查询、精确查询;
- 统计: SQL聚合等丰富的统计手段;
- 可视化:仪表盘和报表功能;
- 对接:支持基于JDBC、SQL92等协议与Grafana产品无缝对接;
- 用途
- DevOps线上运维、日志实时数据分析、安全诊断与分析、运营与客服系统。
4. 投递数仓 (LogShipper)
- 功能
- 稳定可靠的日志投递;
- 将日志中枢数据投递至存储类服务进行存储。支持压缩、自定义Partition、以及行列等各种存储方式;
- 用途
- 数据仓库、数据分析、审计、推荐系统与用户画像。
二、日志服务采集
1. 通过日志服务采集K8s容器日志
a. 启用日志服务组件Logtail。
- 在创建集群时可以直接开启,也可以为已有集群启用Logtail。
b. 通过YAML模板创建应用并配置日志采集。
- 为了给容器指定采集配置,需要使用Env来为容器增加采集配置和自定义Tag,并根据采集配置,创建对应的volumeMounts和volumes。
YAML示例:
apiVersion: v1
kind: Pod
metadata:
name: my-demo
spec:
containers:
- name: my-demo-app
image: 'registry.cn-hangzhou.aliyuncs.com/log-service/docker-log-test:latest'
env:
######### 配置环境变量 ###########
- name: aliyun_logs_log-stdout
value: stdout
- name: aliyun_logs_log-varlog
value: /var/log/*.log
- name: aliyun_logs_mytag1_tags
value: tag1=v1
###############################
######### 配置volume mount ###########
volumeMounts:
- name: volumn-sls-mydemo
mountPath: /var/log
volumes:
- name: volumn-sls-mydemo
emptyDir: {}
###############################
参考地址:https://help.aliyun.com/document_detail/87540.html
示例解析:
通过环境变量来创建采集配置和自定义Tag,所有与配置相关的环境变量都采用aliyun_logs_作为前缀。
创建采集配置的规则如下:
-name:aliyun logs_{Logstore名称}
value:{日志采集路径}
示例中创建了两个采集配置,其中aliyun_logs_log-stdout这个env表示创建一个Logstore名字为log-stdout,日志采集路径为stdout的配置,从而将容器的标准输出采集到log-stdout这个Logstore中。
创建自定义Tag的规则如下:
-name:aliyun_logs_{任意不包含‘_’的名称}
tagsvalue:{Tag名}={Tag值}
配置Tag后,当采集到该容器的日志时,会自动附加对应的字段到日志服务。采集配置中指定了非stdout的采集路径,需要在此部分创建相应的volumeMounts。示例中采集配置添加了对/var/log/*.log的采集,因此相应地添加了/var/log的volumeMounts。
2. 配置环境变量的高级参数
通过容器环境变量配置采集支持多种配置参数,可根据实际需求设置高级参数来实现日志采集的特殊需求,如下图。
3. 采集容器日志异常排查思路
a. 确认机器组状态是否正常;
b. 检查采集配置标识是否正确,检查配置中IncludeLabel、ExcludeLabel、IncludeEnv、ExcludeEnv是否和您需要采集的容器配置匹配。
c. 检查其他注意事项;
若配置采集容器内文件,请注意:
- 若下发采集配置后文件没有修改事件,Logtail则不采集;
- 采集容器日志文件,只支持采集容器默认存储或挂载到本地的文件,暂不支持其他存储方式;
d. 登录Logtail容器排查;
- 执行kubectl get po -n kube-system | grep logtail搜索Logtail的Pod;
- 执行kubectl exec -it -n kube-system ****** bash登录Pod。
e. 查看Logtail的运行日志;
- 打开Logtail容器目录/usr/local/ilogtail/,查看文件ilogtail.LOG和logtail_plugin.LOG。
f. 查看Kubernetes集群中日志相关组件状态;
- 执行命令helm status alibaba-log-controller,可以查看Kubernetes集群中日志相关组件状态。
三、集群监控
1. 基础资源监控
资源监控是Kubernetes中最常见的监控方式,通过资源监控,可以快速查看负载的CPU、内存、网络等指标的使用率。在阿里云容器服务中,资源监控已经与云监控互通,新建的集群默认安装与集成云监控。
操作步骤:
- 登录容器服务管理控制台;
- 在集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情;
- 在集群管理页左侧导航栏中,单击工作负载;
- 在页面上方选择命名空间,单击无状态页签;
- 选择所需的Deployment,单击右侧的监控,进入到云监控的相应的监控视图页面;
- 单击维度中的分组或实例,分别通过两个维度查看监控数据;
- 可选:如需设置告警,您可以在左侧导航栏单击报警规则并进行设置,详情请参见管理报警规则。分组级别的指标以group开头,实例级别的指标以Pod开头。
2. 阿里云Prometheus监控
开源Prometheus监控和K8s容器编排系统一样都是云原生基金会CNCF开源毕业的项目。
- 阿里云Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。借助阿里云Prometheus监控,用户无需自行搭建Prometheus监控系统,因而无需关心底层数据存储、数据展示、系统运维等问题。
- 整体而言,与开源Prometheus监控相比,阿里云Prometheus监控的优势体现为:
- 更轻量、更稳定、更准确的重试机制;
- 数据量无上限;
- 完全兼容开源生态;
- 节省成本;
3. 应用性能监控
- 对于部署在容器服务Kubernetes版中的Java及PHP应用,可以使用应用实时监控服务ARMS对其进行监控,实现自动发现应用拓扑、自动生成3D拓扑、自动发现并监控接口、捕获异常事务和慢事务,大幅提升线上问题诊断的效率。
- 应用实时监控服务ARMS(Application Real-Time Monitoring Service) 是一款阿里云应用性能管理(APM)类监控产品。只要为部署在容器服务Kubernetes版中的Java应用安装ARMS应用监控组件,无需修改任何代码,就能借助ARMS对Java应用进行全方位监控,以便更快速地定位出错接口和慢接口、重现调用参数、检测内存泄漏、发现系统瓶颈,从而大幅提升线上问题诊断问题的效率。
开启ARMS应用性能监控,操作步骤:
a. 安装ARMS应用监控组件;
b. 为容器服务Kubernetes版授权;
c. 为Java应用开启ARMS应用监控;
d. 为PHP应用开启ARMS应用监控;
4. 架构感知监控
- Kubernetes中的业务是运行在节点组成的资源池上,使得定位Pod的调用链路以及拓扑关系非常复杂,如何以可视化的方式监控Kubernetes中的负载状态,及更好地可视化集群中流量的吞吐是非常重要的问题。
- 阿里云应用高可用服务 (AHAS)是一款专注于提高应用高可用能力的云产品,提供应用架构自动探测、故障注入式高可用能力评测和一键流控降级等功能,可以快速低成本地提升应用可用性。
AHAS使用步骤:
a. 开通AHAS服务:检查是否开通了AHAS:访问开通AHAS服务页面验证。如果已开通,会提示跳转到AHAS控制台;
b. 授权AHAS访问容器服务信息,访问云资源访问授权页面,单击同意授权;
c. 安装AHAS Pilot,登录容器服务管理控制台。在左侧导航栏选择市场>应用目录,在右侧选中 ACK-ahas-pilot。在应用目录-ACK-ahas-pilot 页面右侧的创建区域,选择集群名称后单击创建,添加AHAS应用高可用服务组件;
d. 查看AHAS服务数据,创建完成后,您可以登录AHAS控制台,查看AHAS服务数据。
5. 事件监控
事件监控是Kubernetes中的另一种监控方式,可以弥补资源监控在实时性、准确性和场景上的欠缺,用户您可以通过使用NPD结合SLS的Kubernetes事件中心、配置NPD集群检查项以及异常事件离线功能、使用钉钉、使用SLS离线Kubernetes事件及使用EventBridge离线Kubernetes事件,实时监控集群的异常与问题。
背景信息
- Kubernetes的架构设计基于状态机,不同的状态之间进行转换则会生成相应的事件,正常的状态之间转换会生成Normal等级的事件,正常状态与异常状态之间的转换会生成Warning等级的事件。
- ACK提供开箱即用的容器场景事件监控方案,通过ACK维护的NPD (node-problem-detector) 以及包含在NPD中的kube-eventer提供容器事件监控能力。
- NPD (node-problem-detector ) 是Kubernetes节点诊断的工具,可以将节点的异常,例如Docker Engine Hang、 Linux Kernel Hang、网络出网异常、文件描述符异常转换为Node的事件,结合kube-eventer可以实现节点事件告警的闭环;
- kube-eventer是ACK维护的开源Kubernetes事件离线工具,可以将集群的事件离线到钉钉、SLS、EventBridge等系统,并提供不同等级的过滤条件,实现事件的实时采集、定向告警、异步归档。
应用场景
场景一:使用NPD结合SLS的Kubernetes事件中心监控集群事件;
场景二:配置NPD集群检查项以及异常事件离线功能;
场景三:使用钉钉实现Kubernetes监控告警:
场景四:使用SLS离线Kubernetes事件;
场景五:使用EventBridge离线Kubernetes事件。