AI助力日志中心智能化运营

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: AIOps将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在AIOps方面如何做出智能的日志中心以及日志在IT领域中发挥的价值。
摘要:AIOps将人工智能应用于运维领域,基于已有的运维数据通过机器学习的方式来进一步解决自动化运维无法解决的问题。运维数据包含海量的日志数据,随着大数据分析水平的提升,需要更加精准地挖掘日志当中的信息。本文将主要介绍日志易在AIOps方面如何做出智能的日志中心以及日志在IT领域中发挥的价值。

本场视频精彩回顾,戳这里!

演讲嘉宾简介:

饶琛琳,北京优特捷信息技术有限公司技术总监

以下内容根据演讲嘉宾视频分享整理而成。

本次的分享主要围绕以下三个方面:

一、智能日志中心介绍
二、AIOps场景与实现
三、日志易行业案例

一、 智能日志中心介绍
  5c4c7589fdb78559e32da8abcedb06810942956c
如图所示应用AIOps能力一共分为五级。对AIOps有想法,想要去尝试的人作为一级。二级和三级是目前想要达到的目的,二级需要达到单点应用,例如公司的监控系统原先固定了阈值,加入算法之后,监控在是否达到准确,能否避免手工劳动这一级别点上,符合AIOps的要求即可为单点应用。三级需要达到串联应用,例如目前整个监控系统都能达到比较好的层次,监控作为很大的模块概念,包括判断是否为告警的地方,告警发送给哪些人,发送的信息应该包含哪些关联的东西等,当将AI加入到这些场景后,可认为这一串执行都被AI化,接着可以将目标转为容量调度,这样的监控可认为达到三级水平。五级实现自动化有待发展。

数据是实施AI的主要地方,如何获取足够多和足够好的数据,进而完成AIOps的场景显得比较重要。就日志易的角度,期望提供一个日志平台,平台中大量的事情集中在如何采集数据、采集什么样的数据、对数据做怎样的处理,进而对上层的应用提供价值。时间戳是日志的关键信息,时间戳后的数值即为常见的监控消息,更广泛时,变更的事件例如某一时间点某一业务的上线也可作为一种日志事件,当日志平台真正做好AIOps时,需要提供全面的日志信息。就日志易而言,目前对很多基础架构类的设备都有内置的规则支持,有上百个app去集中支持各种基础架构类的、硬件设备类的、行业内部应用类的日志,在这种情况下接受的数据会自动地进行ETO处理,从而推动下一步统计分析和AIOps的实施。日志平台在数据处理上对AI提供价值。

二、 AIOps场景与实现
  c152c961ad0f2bbef5bb849cfbcebe474295d215
AIOps的应用场景有很多,目前日志易比较关注质量保证模块,质量保证需要考虑如何发现故障、定位故障。
  0e44073627aa089d875a358baa137f4a0d9500f1
在日志易和阿里的AIOps合作中,首先寻找快速定位故障的方法,当故障到达时,可以通过多种方法去发现故障,例如仅基于KTI指标互相之间的关联去解决。接着通过机器学习、人工智能的办法将故障定位范围进一步缩小。当获取告点和问题根因后,结合业务拓扑情况作出最终决策。
ae2f794f0f57ec7f029f360fa4a09003b577b43c 
在将日志变为告警的过程中,首先从日志本身可以得到大量的监控指标信息,例如固定分钟的404错误数量、响应时间等,单从访问日志中可以获取更多维度的监控指标, GOC通过算法从这些监控数据中获取精准的、非人工设置的告警数据。在单个监控异常指标发现的基础上,当梳理得到整个业务拓扑时,每个业务本身实际状态好不好受很多指标影响,指标影响具有一定权重,通过单个KPI异常的情况经过不同的分级和权重,进而推导出实际业务对用户体验的影响程度。经过从日志到指标异常到真正业务影响程度的整个过程,用户根据严重程度判断是否真正需要关注某一问题。
  1bace3d41900ceb23bb8bdd493fc2b6c2fffb4a3
在获取的告警落到日志的排查方式时,假设有8条日志,进行归并排序后可变为4行,经过不断的信息归并,所有的日志都将与通配符匹配,真正的日志归并为肉眼可视的状态下即可。
  9f513ff463b1c2ca896e9cf55d2bb03900144825
在实际应用中,当用户排查问题时可能会有几千条日志,而用户实际只需关注机器学习得到的模式即可。
  96fc282fc3cc2b0a0f3f67f681923b57a9f57ba9
当用户确实在日志异常检测中获得帮助时,可以将临时故障排查转换为定时故障排查。在定时故障排查中,通过模式识别和参数识别排查异常,异常并不一定就是问题,当出现没有见过的异常处理的分支日志时,系统会将获取异常分支,判断该异常是否为问题,从而将日志文本发现的问题转化为指标分析、标准的修正反馈。

三、 日志易行业案例
  72b4abe928e42cafe9fc9b9d999d8c1302a75e47
金融业与互联网业有着很多相似之处。日志易在金融客户的应用中,交易状态的实时统计包括交易量、成功率、各个不同失败纬度的统计等。在业务流程链中,当业务模块出现问题时,用户可以通过点击跳转到对应业务线的仪表盘,所有的仪表盘可以通过灵活配置使其一层一层转到某一点,该过程表现为故障知识积累。
  60bd8fd60ed11565ff86d5643e58dda144efa183
当业务请求出现问题时,例如某一时间点的某一笔交易出现异常时,系统会清晰显示交易的时序图,展现交易流经的模块和反复出现的交易以及出现问题的交易。该系统展示更适合于类似银行业等传统行业中,通过总线传输大量的后台请求,在一个模块中进行多次反复交易。
  b43ff6d41709ccc9bc2b50f3a1427319b81ce61d
同时得到告警后系统会进行更复杂的一些操作,包括告警的自动归并、告警人工处理记录、告警处理效率监控等。
  7cb7ba66f19723428fac10aef9d22d726ead7be7
日志易在运营商客户的应用中,在处理类似手机充值的业务时,后台的业务逻辑比较复杂,系统会每5分钟统计所有步骤之间的差异情况并进行显示反映,系统会以两种不同的方式反映情况,针对客服人员,中间每一步串联的信息都会隐藏掉。正常情况下会列出每一步的详细信息,从而在拿到大量告警进行排查中节省大量时间。
  6334ceaf337d98e801b484c1473cfff8ced0c99c
同时在营业厅柜员的操作分析中,可以深入到每一位柜员的执行情况、工作是否认真负责,同时显示所有营业厅的分布情况、柜员操作请求号的排序统计等。
  0220c44f9df16e8d8f977924978857b2f519b920
运营商在网络维护投入很大力量,阿里巴巴同时给运营商做GSLB,CDN,DNS的日志分析,查看CDN命中率的情况、带宽的情况等。在做DNS日志分析时,互联网公司本身的权威DNS认证量不是很大,相对的运营商会承担大量的DNS请求,通过将DNS请求的分析,包括请求目的地、返回较多的域名、请求量上的异常等变为实时监控指标从而快速进行监控。 
  6c382c63e74fdaeee1d0252be4284aeee00482fc
运营商除了做互联网业务,同时承担一些家庭业务。人们每一次调台或进行直播点播的切换时,机顶盒产生的数据也可以用来进行更详细的分析。当点播电影产生卡顿时,系统通过分析机顶盒产生的数据,显示流用户和点播用户的情况、卡顿发生的点、卡顿时的码率、具体播放的节目等,从而提高运维人员的业务可用性和用户体验指标。

本文由云栖志愿小组丁匀泰整理,编辑百见

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
构建智能化编程环境:AI 与代码编辑器的融合
在人工智能的推动下,未来的代码编辑器将转变为智能化编程环境,具备智能代码补全、自动化错误检测与修复、个性化学习支持及自动化代码审查等功能。本文探讨了其核心功能、技术实现(包括机器学习、自然语言处理、深度学习及知识图谱)及应用场景,如辅助新手开发者、提升高级开发者效率和优化团队协作。随着AI技术进步,智能化编程环境将成为软件开发的重要趋势,变革开发者工作方式,提升效率,降低编程门槛,并推动行业创新。
|
16天前
|
机器学习/深度学习 人工智能 运维
|
1天前
|
人工智能 自然语言处理 机器人
AI心语:智能时代的情感纽带
本文旨在探索人工智能在情感计算领域的应用,以及这些技术如何帮助我们更好地理解和模拟人类情感。通过分析当前的技术进展和面临的伦理挑战,文章为读者提供了一个关于AI与情感结合世界的全面视角。
13 6
|
5天前
|
人工智能 自然语言处理 运维
钉钉x昇腾:用AI一体机撬动企业数字资产智能化
大模型在过去两年迅速崛起,正加速应用于各行各业。尤其在办公领域,其主要模态——文字和图片,成为了数字化办公的基础内容,催生了公文写作、表格生成、文本翻译等多种应用场景,显著提升了工作效率。然而,AI引入办公场景也带来了数据安全与成本等问题。为此,钉钉与昇腾联合推出的“钉钉专属AI一体机解决方案”,通过本地化部署解决了数据安全、成本高昂及落地难等痛点,实现了从硬件到软件的深度协同优化,为企业提供了开箱即用的AI服务,推动了办公场景的智能化升级。
23 11
|
5天前
|
机器学习/深度学习 人工智能 算法
AI与未来医疗:智能化健康管理的新纪元
本文探讨了人工智能(AI)在医疗领域的应用及其对未来健康管理的影响。通过分析当前AI技术在疾病诊断、个性化治疗及远程医疗等方面的最新进展,文章揭示了AI如何提升医疗服务质量,实现精准医疗。同时,探讨了AI技术面临的伦理和隐私挑战,并提出应对策略。最终,本文展望了AI在未来医疗中的潜力,强调其在提高公共健康水平方面的重要性。
|
15天前
|
人工智能 算法 大数据
懂场景者得AI,瓴羊发布年度产品智能化战略
9月20日,瓴羊智能科技(以下简称瓴羊)在2024云栖大会上举办了“Data × AI:企业服务智能化,价值增长新动能”专场论坛。阿里巴巴集团副总裁、瓴羊智能科技CEO 朋新宇在会上发布年度产品智能化战略:“(算法 + 算力 + 数据) x 场景 ”,强调企业必须重视场景,只有通过解构场景、重构业务,才能真正拥抱AI,带来突破性增长。
|
9天前
|
存储 人工智能 算法
AI伦理学:建立可信的智能系统框架
【9月更文挑战第26天】随着AI技术的迅猛发展,其在各领域的应用日益广泛,但也带来了算法偏见、数据隐私泄露、就业替代等伦理和法律挑战。本文探讨AI伦理学的核心议题,包括数据隐私保护、算法公平性与透明度、机器决策责任归属及对就业市场的影响,并提出建立可信智能系统框架的建议,如强化法律法规、技术创新、建立监督机制、行业自律和公众教育,以确保AI技术的可持续发展和社会接受。
|
13天前
|
人工智能 运维 Serverless
Serverless + AI 让应用开发更简单,加速应用智能化
2024 云栖大会开幕,在大会第一天,阿里云正式发布全新产品——云应用开发平台 CAP。CAP 拥有丰富的场景化应用模板,可以极速体验,并且具备更低的成本优势以及灵活组装等特点,成为广大开发者与企业必备的一站式应用开发平台,让应用开发更简单。
|
18天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:智能化诊疗的时代
随着人工智能技术的迅猛发展,其在医疗领域的应用日益广泛。本文探讨了AI在医疗诊断、治疗和健康管理中的具体应用及其潜在影响。AI技术不仅提高了诊断的准确性和效率,还为个性化治疗提供了可能。同时,通过对大量健康数据的分析,AI还能预测疾病风险,帮助医生制定更有效的预防措施。尽管存在一些伦理和隐私问题,但AI在医疗领域的前景依然广阔。本文将深入分析这些应用的现状、挑战及未来发展趋势。
|
9天前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木,我们可以构建出城堡、飞机、甚至整个城市。现在,想象一下如果有一个数字世界的乐高,我们可以用这样的“积木”来构建智能程序,这些程序能够阅读、理解和撰写文本,甚至与我们对话。这就是大型语言模型(LLM)能够做到的,比如 GPT-4,它就像是一套庞大的乐高积木套装,等待我们来发掘和搭建。
下一篇
无影云桌面