目录
前言
说起查看日志排查 bug 的方式,早些年的时候我都是直接登陆 linux 服务器直接查看,或者下载下来查看
随着微服务的兴起,服务被越拆越小,服务部署也是集群部署,可能涉及到的服务器数量就有好几十台了,这样的话一台台服务器去登陆查看就感觉非常麻烦了。
后面我尝试着去寻找别的解决办法,发现了一个叫 finderweb 的程序员查看日记神器,用了一段时间,感觉也还可以,感兴趣的可以访问如下链接,自行安装尝试(http://www.finderweb.net/)
再后来,就是用的 elk 了, elk 是一款功能非常强大的日志收集分析统计系统,基于 es ,但是同时也带来了不小的资源开销和高成本的维护弊病(elk日志平台安装教程在历史文章中),有点太重了。其实对于中小型的公司来说,对日志系统的要求并不多,开发人员更希望的是直接给我想要查看的服务日志就行,越简单越好。
聊到这里,阿里云上也有个叫 sls的日志服务,听说好用,但是要花钱啊。
那么接下来我就来安利一款日志系统的弄潮儿:轻量级日志系统 Loki。不用花钱,只占用很少的服务器资源,而且安装运维很简单。
1.Loki介绍
看看 Loki 的官方文档介绍:
Loki 日志系统的组成架构图:
**从上图可以发现有以下三剑客组成:
**
- Loki:主服务器,负责存储日志和处理查询。
- Promtail:代理,负责收集日志并将日志数据发送给 Loki。
- Grafana:查询界面,用于查询和显示日志。
Loki 为了降低全文索引资源带来的开销,只对标签进行了索引。查询的方式是把查询分解成较小的分片,我们可以理解为多线程的 grep 查询,效率不差的。
**接下来就跟着我安装实践一把,喝两杯水的功夫即可。
**
2.Loki安装
1.下载安装包
curl -O -L "http://github.com/grafana/loki/releases/download/v2.2.0/loki-linux-amd64.zip"
2.解压
unzip loki-linux-amd64.zip
3.赋予可执行权限
chmod a+x loki-linux-amd64
4.下载配置文件
wget https://github.com/grafana/loki/blob/main/cmd/loki/loki-local-config.yaml //文件名太长,改个名字 mv loki-local-config.yaml loki.yml
5.编辑loki配置,配置数据保留策略
保留14天
6.启动Loki
nohup ./loki-linux-amd64 -config.file=loki.yml > /data/loki/logs/loki.log 2>&1 & //防问一下是否启动成功 curl http://localhost:3100/metrics
3.promtail安装
在需要收集日志的服务器上都要安装promtail
1.下载安装包
curl -O -L "http://github.com/grafana/loki/releases/download/v2.2.0/promtail-linux-amd64.zip"
2.解压
unzip promtail-linux-amd64.zip
3.赋予可执行权限
chmod a+x promtail-linux-amd64
4.下载并编辑配置文件
wget https://raw.githubusercontent.com/grafana/loki/main/clients/cmd/promtail/promtail-local-config.yaml //文件名太长,改个名字 mv promtail-local-config.yaml promtail.yml
编辑并修改
5.启动promtail
nohup ./promtail-linux-amd64 -config.file=promtail.yml > /data/loki/logs/promtail.lo
4.grafana配置Loki
grafana 的安装可参考历史文章中的《手把手教你搭建一个监控告警平台》**
1.在 grafana 上添加 Loki 数据源**
2.到这一步就配置完成了,可以直接查看日志了
这个 job 就是刚刚 promtail.yml 配置文件中定义的 job,直接输入:{job=“uc-prod-96”} 按时间查询即可
感兴趣的话可以学一下 LogQL 语法,支持各种花里胡哨的过滤查询方式。
当然我们用的最多的方式应该是以下两种,已经满足了我们的日常使用场景:
// 1.例如查询包含"不高兴就喝水"的日志 {job="job"}|= "不高兴就喝水" // 2.支持多个条件过滤 {job="job"} |= "error" != "timeout"
多的方式应该是以下两种,已经满足了我们的日常使用场景:**
// 1.例如查询包含"不高兴就喝水"的日志 {job="job"}|= "不高兴就喝水" // 2.支持多个条件过滤 {job="job"} |= "error" != "timeout"