日志系统的 AIOps 应用,及日志易智能日志中心运营之道

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

本文将主要介绍日志在 IT 领域中发挥的价值,以及日志易在 AIOps 方面如何做出的智能日志中心。

以下内容根据日志易产品总监饶琛琳在 2018 云栖大会的演讲整理而成。小编看到这个有意思的分享,忍不住再次拿来翻新,以求和大家共同吸取其中的价值。

本次的分享主要围绕以下三个方面:
1.智能日志中心介绍
2.AIOps 场景与实现
3.智能日志中心日志易行业案例

1.智能日志中心介绍

应用 AIOps 的能力可以分为五级。

对 AIOps 有想法,想要去尝试的人作为一级。 二级和三级是目前想要达到的目的,二级需要达到单点应用,例如公司的监控系统原先固定了阈值,加入算法之后,监控如果能达到AIOps要求的准确,且避免手工劳动这一级别,即可为单点应用。三级需要达到串联应用,例如目前整个监控系统都能达到比较好的层次,监控作为很大的模块概念,包括判断是否为告警的地方,告警发送给哪些人,发送的信息应该包含哪些关联的东西等,当将 AI 加入到这些场景后,可认为这一串执行都被 AI 化,接着可以将目标转为容量调度,这样的监控可认为达到三级水平。五级实现自动化有待发展。

fb60c1148a546d47a155dbcf5740e6c58f06d4f0

数据是实施 AI 的主要对象,如何获取足够多和足够好的数据,进而完成 AIOps 的场景显得比较重要。日志易期望给用户提供一个日志平台,平台中大量的工作集中在如何采集数据、采集什么样的数据、对数据做怎样的处理,进而为上层的应用提供价值上。

其中,时间戳是日志的关键信息,时间戳后的数值即为常见的监控信息。更广义上说,变更的事件——例如某一时间点某一业务的上线,也可作为一种日志事件。当日志平台真正做好 AIOps 时,需要提供全面的日志信息。

就日志易而言,目前对很多基础架构类的设备都有内置的规则支持,有上百个APP去集中支持各种基础架构类的、硬件设备类的、行业内部应用类的日志。这种情况下,日志平台接收的数据会自动地进行 ETL 处理,从而推动下一步统计分析和 AIOps 的实施。日志平台在数据处理上对 AI 提供价值。

2.AIOps 场景与实现

AIOps 的应用场景有很多。目前,日志易比较关注质量保障模块。就质量保障而言,需要考虑如何发现故障、定位故障。

e77940bf4904ff4cdb1e0a6090983d696e6bb59d

在日志易和阿里的 AIOps 合作中,首先寻找快速定位故障的方法。当故障发生时,可以通过多种方法去发现故障。例如仅基于 KPI 指标相互之间的关联去解析,接着通过机器学习、人工智能的办法将故障定位范围进一步缩小。当获取告警点和问题根因后,结合业务拓扑情况作出最终决策。 


c779eed74dd737583b2b6ef1ed92bc118d962735

在由日志到告警的过程中,平台首先从日志本身可以得到大量的监控指标信息。例如,固定分钟的 404 错误数量、响应时间等,可以获取到很多维度的监控指标。通过算法,可以从这些监控数据中获取精准的、非人工设置的告警数据。在发现单个监控异常指标的基础上,梳理得到整个业务拓扑。


每个业务本身实际状态,受很多指标影响。指标影响具有一定权重,通过将单个 KPI 异常的情况进行不同的分级和赋予权重,进而可以推导出实际业务对用户体验的影响程度。经过从日志到指标异常,再到真正业务影响程度的分析,用户就能根据严重程度,判断是否真正需要关注某一问题。

c8b40b466257ae5fb0dc0daf195d74942c88fe28

3.日志易行业案例

金融业与互联网行业有着很多相似之处。

日志易在金融客户的应用中,交易状态的实时统计包括交易量、成功率、各个不同失败维度的统计等。在业务流程链中,当业务模块出现问题时,用户可以通过点击跳转到对应业务线的仪表盘,所有的仪表盘,可以通过灵活配置,使其一层一层转到某一点,该过程表现为故障知识积累。

7d839329ca732ea040067c157bed811e20cb671d

当业务请求出现问题时,例如某一时间点的某一笔交易出现异常时,系统会清晰显示交易的时序图,以展现交易流经的模块、反复出现的交易,以及出现问题的交易。该系统展示更适合于类似银行业等传统行业中。通过总线传输大量的后台请求,可在一个模块中进行多次反复交易。

67189ce08a01d4d2d5a805fa5d9f3967552f585f

同时,得到告警后系统会进行更复杂的一些操作,包括告警的自动归并、告警人工处理记录、告警处理效率监控等。

8adabce393b51b51bf147cd42eb4c95bb2d9023e

日志易在运营商客户的应用中,处理类似手机充值的业务时,后台的业务逻辑比较复杂,系统会每 5 分钟统计所有步骤之间的差异情况并进行显示反映。系统会以两种不同的方式反映情况。针对客服人员,中间每一步串联的信息都会隐藏掉;正常情况下,会列出每一步的详细信息,从而在拿到大量告警进行排查中,节省大量时间。

55dc2e1659abd3a1ad6b23d4ce0cbc0f0e8ee86a

在营业厅柜员的操作分析中,可以深入到每一位柜员的执行情况、工作是否认真负责,同时显示所有营业厅的分布情况、柜员操作请求号的排序统计等。

41cca2190fd5fccbd2ac8898c84afa6921fa4f26

运营商在网络维护投入很大力量。日志易同时给运营商做 GSLB,CDN,DNS 的日志分析,查看 CDN 命中率的情况、带宽的情况等。

在做DNS日志分析时,互联网公司本身的权威 DNS 认证量不是很大,相对的运营商会承担大量的 DNS 请求。通过对 DNS 请求的分析,会将包括请求目的地、返回较多的域名、请求量上的异常等,变为监控指标,从而实时进行监控。

e89353a7283719a71c4a133b3d542d58cfbd8343

运营商除了做互联网业务,同时还开展一些家庭业务。人们每一次调台或进行直播、点播的切换时,机顶盒产生的数据也可以用来进行更详细的分析。

当点播电影产生卡顿时,日志易通过分析机顶盒产生的数据,显示流用户和点播用户的情况、卡顿发生的点、卡顿时的码率、具体播放的节目等,从而提高运维人员的业务可用性和用户体验指标。

53596243d08f2202e38984cde999d2a0cd63d68c


原文发布时间为:2018-11-23本文作者:饶琛琳本文来自云栖社区合作伙伴“ 高效运维”,了解相关信息可以关注“ 高效运维”。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
机器学习/深度学习 存储 监控
Elasticsearch 在日志分析中的应用
【9月更文第2天】随着数字化转型的推进,日志数据的重要性日益凸显。日志不仅记录了系统的运行状态,还提供了宝贵的洞察,帮助企业改进产品质量、优化用户体验以及加强安全防护。Elasticsearch 作为一个分布式搜索和分析引擎,因其出色的性能和灵活性,成为了日志分析领域的首选工具之一。本文将探讨如何使用 Elasticsearch 作为日志分析平台的核心组件,并详细介绍 ELK(Elasticsearch, Logstash, Kibana)栈的搭建和配置流程。
293 4
|
1天前
|
存储 Prometheus 监控
Docker容器内进行应用调试与故障排除的方法与技巧,包括使用日志、进入容器检查、利用监控工具及检查配置等,旨在帮助用户有效应对应用部署中的挑战,确保应用稳定运行
本文深入探讨了在Docker容器内进行应用调试与故障排除的方法与技巧,包括使用日志、进入容器检查、利用监控工具及检查配置等,旨在帮助用户有效应对应用部署中的挑战,确保应用稳定运行。
13 5
|
21天前
|
存储 SQL 监控
|
21天前
|
自然语言处理 监控 数据可视化
|
22天前
|
存储 Linux Docker
centos系统清理docker日志文件
通过以上方法,可以有效清理和管理CentOS系统中的Docker日志文件,防止日志文件占用过多磁盘空间。选择合适的方法取决于具体的应用场景和需求,可以结合手动清理、logrotate和调整日志驱动等多种方式,确保系统的高效运行。
22 2
|
2月前
|
XML JSON 监控
告别简陋:Java日志系统的最佳实践
【10月更文挑战第19天】 在Java开发中,`System.out.println()` 是最基本的输出方法,但它在实际项目中往往被认为是不专业和不足够的。本文将探讨为什么在现代Java应用中应该避免使用 `System.out.println()`,并介绍几种更先进的日志解决方案。
50 1
|
2月前
|
监控 网络协议 安全
Linux系统日志管理
Linux系统日志管理
46 3
|
2月前
|
监控 应用服务中间件 网络安全
#637481#基于django和neo4j的日志分析系统
#637481#基于django和neo4j的日志分析系统
37 4
|
3月前
|
设计模式 SQL 安全
PHP中的设计模式:单例模式的深入探索与实践在PHP的编程实践中,设计模式是解决常见软件设计问题的最佳实践。单例模式作为设计模式中的一种,确保一个类只有一个实例,并提供全局访问点,广泛应用于配置管理、日志记录和测试框架等场景。本文将深入探讨单例模式的原理、实现方式及其在PHP中的应用,帮助开发者更好地理解和运用这一设计模式。
在PHP开发中,单例模式通过确保类仅有一个实例并提供一个全局访问点,有效管理和访问共享资源。本文详细介绍了单例模式的概念、PHP实现方式及应用场景,并通过具体代码示例展示如何在PHP中实现单例模式以及如何在实际项目中正确使用它来优化代码结构和性能。
49 2
|
2月前
|
监控 Linux 测试技术
Linux系统命令与网络,磁盘和日志监控总结
Linux系统命令与网络,磁盘和日志监控总结
58 0