ISBN: 978-7-121-40632-4
编著:日志易学院
页数:198页
阅读时间:2022-09-25
推荐指数:★★★★☆
本书是国产日志易团队按照主流的日志管理系统的实践来写的,
讲解了日志分析的基本概念、法律法规、技术选型、采集和解析、存储、告警、可视化以及智能运维。
日志生态系统(日志基础设施),是实现日志数据的生成、过滤、格式化、分析和长期存储等功能的生态系统。
日志的作用:故障排查、数据分析、安全合规审计、内网安全监控、智能运维。
日志需要告诉运维人员:发生了什么?何时发生的?发生于何处?谁参与其中?参与者来源。
日志使用误区:
- 不记录日志
- 不查看日志
- 保留时间过短(至少6个月)
- 优先级(等级)
- 只收集单一日志
- 只搜索已知错误
道:本质是什么?
术:解决问题的方法是什么?
器:工具。
日志采集一般有两种模式:推送和拉取。
数据清洗不只是数据修剪,也要增加额外的数据标识。
采集数据的时候需要注意个人数据,涉及到隐私数据需要*处理。
日志优先级:
ALL:最低,打开所有日志记录。
TRACE:低日志等级,追踪用。
DEBUG:调试日志用。
INFO:生产环境输出。
WARN:警告,不是错误!
ERROR:错误信息,并不会影响系统继续运行。
FATAL:严重错误,导致系统退出。
OFF:关闭所有日志。
日志存储方式:
一、数据库存储(MySQL)
优点:易用、权限控制和备份恢复、方便部署。
缺点:读写耗时、查询速度有限、删除开销大、存在数据丢失风险。
二、分布式存储(Hadoop)
优点:易扩展、大规模、高吞吐量、容错性、硬件要求低。
缺点:二次开发、访问延时。
三、文件检索系统(Elasticsearch)
倒排序索引,认为是不可变的,所以不用上锁,因而能提升并发能力。
通常包含: DocID文档id、 TF单词频率、 Positing位置、 Offset偏移量。
优点:查找速度快、并发强、节省CPU、IO开销。
缺点:创建索引耗时、维护成本高。
四、云存储
优点:方便存储访问、方便扩容、降低成本、容灾备份。
缺点:读写速度受网络影响、数据安全性不高。
RESTful API
GET:从服务器中取出资源。
POST:在服务器中新建资源。
PUT:在服务器中更新资源(完整的数据)。
PATCH:在服务器中更新资源(需要修改的数据)。
DELETE:从服务器中删除资源。
智能运维:异常检测、根因分析、日志分析、告警收敛、趋势预测。
三西格玛(3sigma):是一种经典的异常检测算法,他通过对历史数据计算均值和方差来判断待检测数据是否在合理范围内。
ARIMA模型:差分整合移动平均回归模型,是一种经典的统计学模型,他通过计算历史数据的一些统计学特征来预测未来数据。
孤立森林算法:基于决策树森林的集成算法,他是无监督算法。先训练出决策树,然后投票是否存在异常。
滑动平均算法:基于数值的简单阀值算法,通过比较滑动窗口内平均值的某种关系(比值、差分等)的历史分布,判断数据是否在合理的范围内波动,是否产生了历史习惯外的波动情况。
GBRT:梯度增强回归树算法是基于增强思想的决策树森林算法,他是有监督算法。增强孤立森林算法,优化改进之前的决策结果。
核密度分析:KDE是一种基于历史数据分布的无监督算法。在时序数据异常检测中,将数据输入模型,得到数据的异常分数。
条件变分自编码器:CVAE是一种涉及神经网络的机器学习算法。在时序数据异常检测中将输入数据窗口化,通过编码器映射为维度更低的隐变量,再由解码器进行复原,如果复原出的数据和原始数据接近程度高,说明输入数据的模式是正常的,反之则是异常。