日志易饶琛琳分享:AI 助力日志中心智能化运营

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: AIOps 将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在 AIOps 方面如何做出智能的日志中心以及日志在 IT 领域中发挥的价值。

摘要:AIOps 将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在 AIOps 方面如何做出智能的日志中心以及日志在 IT 领域中发挥的价值。

演讲嘉宾:饶琛琳

以下内容根据饶琛琳在 2018 云栖大会.上海峰会的演讲整理而成,本次分享主要围绕以下三个方面:

智能日志中心介绍
AIOps 场景与实现
日志易行业案例
一、 智能日志中心介绍
image

如图所示应用 AIOps 能力一共分为五级。对 AIOps 有想法,想要去尝试的人作为一级。二级和三级是目前想要达到的目的,二级需要达到单点应用,例如公司的监控系统原先固定了阈值,加入算法之后,监控如果能达到AIOps要求的准确,且避免手工劳动这一级别,即可为单点应用。三级需要达到串联应用,例如目前整个监控系统都能达到比较好的层次,监控作为很大的模块概念,包括判断是否为告警的地方,告警发送给哪些人,发送的信息应该包含哪些关联的东西等,当将 AI 加入到这些场景后,可认为这一串执行都被 AI 化,接着可以将目标转为容量调度,这样的监控可认为达到三级水平。五级实现自动化有待发展。

数据是实施 AI 的主要对象,如何获取足够多和足够好的数据,进而完成 AIOps 的场景显得比较重要。就日志易的角度,期望给用户提供一个日志平台,平台中大量的工作集中在如何采集数据、采集什么样的数据、对数据做怎样的处理,进而为上层的应用提供价值。时间戳是日志的关键信息,时间戳后的数值即为常见的监控信息,更广义上,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好 AIOps 时,需要提供全面的日志信息。就日志易而言,目前对很多基础架构类的设备都有内置的规则支持,有上百个APP去集中支持各种基础架构类的、硬件设备类的、行业内部应用类的日志,在这种情况下日志平台接收的数据会自动地进行 ETL 处理,从而推动下一步统计分析和 AIOps 的实施。日志平台在数据处理上对 AI 提供价值。

二、 AIOps 场景与实现
image

AIOps 的应用场景有很多,目前日志易比较关注质量保障模块,质量保障需要考虑如何发现故障、定位故障。
image

在日志易和阿里的 AIOps 合作中,首先寻找快速定位故障的方法,当故障发生时,可以通过多种方法去发现故障,例如仅基于 KPI 指标相互之间的关联去解析,接着通过机器学习、人工智能的办法将故障定位范围进一步缩小。当获取告警点和问题根因后,结合业务拓扑情况作出最终决策。
image

在将日志变为告警的过程中,平台首先从日志本身可以得到大量的监控指标信息,例如固定分钟的 404 错误数量、响应时间等,可以获取很多维度的监控指标, 通过算法从这些监控数据中获取精准的、非人工设置的告警数据。在发现单个监控异常指标的基础上,梳理得到整个业务拓扑。每个业务本身实际状态好不好受很多指标影响,指标影响具有一定权重,通过将单个 KPI 异常的情况进行不同的分级和赋予权重,进而推导出实际业务对用户体验的影响程度。经过从日志到指标异常到真正业务影响程度的整个分析过程,用户就能根据严重程度判断是否真正需要关注某一问题。
image
从获取告警到日志的排查,假设有 8 条日志,进行归并排序后可变为 4 行,经过不断的信息归并,所有的日志都将与通配符匹配,真正的日志归并为肉眼可视的状态。
image
实际应用中,当用户排查问题时可能会有几千条日志,用户只需关注机器学习得到的模式即可。
image
当用户确实在日志异常检测中获得帮助时,可以将临时故障排查转换为定时故障排查。在定时故障排查中,通过模式识别和参数识别排查异常,异常并不一定就是问题,当出现没有见过的异常处理的分支日志时,系统会获取异常分支,判断该异常是否为问题,从而将日志文本发现的问题转化为指标分析、标准的修正反馈。

三、 日志易行业案例
image

金融业与互联网业有着很多相似之处。日志易在金融客户的应用中,交易状态的实时统计包括交易量、成功率、各个不同失败维度的统计等。在业务流程链中,当业务模块出现问题时,用户可以通过点击跳转到对应业务线的仪表盘,所有的仪表盘可以通过灵活配置使其一层一层转到某一点,该过程表现为故障知识积累。
image

当业务请求出现问题时,例如某一时间点的某一笔交易出现异常时,系统会清晰显示交易的时序图,展现交易流经的模块和反复出现的交易以及出现问题的交易。该系统展示更适合于类似银行业等传统行业中,通过总线传输大量的后台请求,在一个模块中进行多次反复交易。
image
同时得到告警后系统会进行更复杂的一些操作,包括告警的自动归并、告警人工处理记录、告警处理效率监控等。
image

日志易在运营商客户的应用中,处理类似手机充值的业务时,后台的业务逻辑比较复杂,系统会每 5 分钟统计所有步骤之间的差异情况并进行显示反映,系统会以两种不同的方式反映情况,针对客服人员,中间每一步串联的信息都会隐藏掉。正常情况下会列出每一步的详细信息,从而在拿到大量告警进行排查中节省大量时间。
image

同时在营业厅柜员的操作分析中,可以深入到每一位柜员的执行情况、工作是否认真负责,同时显示所有营业厅的分布情况、柜员操作请求号的排序统计等。
image

运营商在网络维护投入很大力量,日志易同时给运营商做 GSLB,CDN,DNS 的日志分析,查看 CDN 命中率的情况、带宽的情况等。在做DNS日志分析时,互联网公司本身的权威 DNS 认证量不是很大,相对的运营商会承担大量的 DNS 请求,通过对 DNS 请求的分析,将包括请求目的地、返回较多的域名、请求量上的异常等变为实时监控指标从而实时进行监控。
image

运营商除了做互联网业务,同时还开展一些家庭业务。人们每一次调台或进行直播、点播的切换时,机顶盒产生的数据也可以用来进行更详细的分析。当点播电影产生卡顿时,日志易通过分析机顶盒产生的数据,显示流用户和点播用户的情况、卡顿发生的点、卡顿时的码率、具体播放的节目等,从而提高运维人员的业务可用性和用户体验指标。

如果您希望获得更深度、全面的了解,可访问日志易官方网站:http://www.rizhiyi.com

【日志易】日志易是中国智能运维分析产品领导者,可帮助企业进行实时运维监控、安全合规审计及业务数据挖掘。提供部署版软件和SaaS服务,同时面向金融、运营商、能源、互联网等不同行业提供专业的日志分析解决方案。目前已服务二百多家大型企业,包括五大银行里的三家、十二家股份制银行里的六家、两家大型保险公司等。
_

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
13天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
166 64
|
1月前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
185 48
|
1月前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
28天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
|
11天前
|
人工智能 JSON 自然语言处理
智能化AI工具-语言翻译与本地化
在全球化发展的背景下,语言翻译与本地化需求日益增长。无论是跨境电商、国际合作,还是本地化应用开发,都需要高效、准确的翻译解决方案。阿里云通义千问作为一款强大的大语言模型,不仅具备出色的自然语言理解能力,还能够在多语言翻译和本地化场景中发挥重要作用。本博客将详细介绍如何基于阿里云通义千问开发语言翻译与本地化工具,包括产品介绍、程序代码以及阿里云相关产品的具体使用流程。
43 10
|
24天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
24天前
|
机器学习/深度学习 人工智能 安全
AI与旅游业:旅行规划的智能助手
在数字化浪潮中,人工智能(AI)正重塑旅游业。本文探讨了AI如何通过个性化推荐、智能预测与预警、语音交互与虚拟助手、增强现实体验及可持续发展,提升旅行规划的效率、安全性和趣味性,推动旅游业创新与变革。
|
27天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
27天前
|
人工智能 安全 搜索推荐
AI与能源管理:智能电网的未来
本文探讨了AI与智能电网的融合及其对能源管理的深远影响。智能电网利用先进的信息、通信和AI技术,实现电力的自主、智能化、高效管理。AI在精准预测电力需求、实时监测与故障诊断、智能能源调度、个性化能源服务和优化可再生能源利用等方面发挥关键作用,推动能源管理的高效、智能和可持续发展。
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
AI与法律行业:智能法律咨询
在科技飞速发展的今天,人工智能(AI)正逐渐渗透到法律行业,特别是在智能法律咨询领域。本文探讨了AI在智能法律咨询中的应用现状、优势及挑战,并展望了其未来发展前景。AI技术通过大数据、自然语言处理等手段,提供高效、便捷、低成本且个性化的法律服务,但同时也面临数据隐私、法律伦理等问题。未来,AI将在技术升级、政策推动和融合创新中,为用户提供更加优质、便捷的法律服务。