手淘再推新利器Holmes:一站式智能化异常检测平台

简介: 指标监控关乎稳定性,但随着数据量的增加、指标的复杂周期性和模式变化的动态性,基于阈值/同比环比的规则难以适用,而且复杂的领域知识导致为每条指标配置相应的规则费时费力,无法应用在大规模数据监控上。在监控的有效性方面,传统的规则报警无法智能识别季节性,也经常受到噪声/抖动数据的干扰而导致误报,固定的规则以及阈值更无法进行提前预警。

滚动.gif

作者|董福铭(吾铭)、黄俊(豆豆)
编辑|橙子君
出品|阿里巴巴新零售淘系技术

指标监控关乎稳定性,但随着数据量的增加、指标的复杂周期性和模式变化的动态性,基于阈值/同比环比的规则难以适用,而且复杂的领域知识导致为每条指标配置相应的规则费时费力,无法应用在大规模数据监控上。在监控的有效性方面,传统的规则报警无法智能识别季节性,也经常受到噪声/抖动数据的干扰而导致误报,固定的规则以及阈值更无法进行提前预警。

前言

在上面的背景下,淘系技术质量团队打造了一款基于AI算法的异常检测平台,Holmes是一款智能化、轻量级、易接入、可扩展的异常检测平台,使用基于AI的异常检测算法,替代传统的规则监控方案。解决规则告警系统准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。

Holmes目前已经在阿里内进行开放,覆盖淘宝、千牛、优酷、钉钉、淘宝直播等多个应用,核心指标量200+,整体准确率在90%以上,算法调用量高达1000万余次,有效进行故障的提前预警20余次。

▐ 平台理念

Holmes通过AI算法对业务指标进行检测和预测,从而实现智能化报警,弥补了规则监控的不足,减少误报和漏报情况。提供一站式的异常检测服务,满足时序数据的实时检测,提供多种接入方式,利用机器学习和深度学习方式,定制化学习模型,有效提升报警覆盖率,以智能化方式进行稳定性的监控和保障。

特点:

  • 学习历史数据,分析当前指标曲线趋势是否异常
  • 基于以往数据,进行预测未来指标走势

优势:

  • 算法检测代替规则检测
  • 告警准确率高
  • 更早发现异常情况
  • 可适应业务发展带来的趋势变化

解决的异常场景:
image.png

▐ 系统架构
image.png

配置化流程

通过4步简单配置进行指标的接入和算法选择,轻松开启智能异常检测。
image.png

▐ 算法概览

Holmes融合了多种检测、预测的时序算法,检测异常响应速度快,预测数据走势准,二者的完美结合,奠定了异常检测的基础能力,同时平台也支持扩展算法的能力,以适应新增场景的特殊需求。

检测算法:

✎ Statistic

In statistics, the 68-95-99.7 rule is a shorthand used to remember the percentage of valuesthat lie within a band around the mean in a normal distribution with a width of two, four andsix standard deviations, respectively; more accurately, 68.27%, 95.45% and 99.73% of the valueslie within one, two and three standard deviations of the mean, respectively.

image.png

✎ Ewma

In statistical quality control, the EWMA chart (or exponentially weighted moving average chart)is a type of control chart used to monitor either variables or attributes-type data using the monitored businessor industrial process's entire history of output. While other control charts treat rational subgroups of samplesindividually, the EWMA chart tracks the exponentially-weighted moving average of all prior sample means.

image.png

✎ Polynomial

In statistics, polynomial regression is a form of regression analysis in which the relationshipbetween the independent variable x and the dependent variable y is modelled as an nth degree polynomial in x.

image.png

✎ IsolationForest

The IsolationForest 'isolates' observations by randomly selecting a feature and thenrandomly selecting a split value between the maximum and minimum values of the selected feature.

✎ XGBoost

XGBoost is an optimized distributed gradient boosting library designed to be highly efficient, flexible and portable. It implements machine learning algorithms under the Gradient Boosting framework. XGBoost provides a parallel tree boosting (also known as GBDT, GBM) that solve many data science problems in a fast and accurate way. The same code runs on major distributed environment (Hadoop, SGE, MPI) and can solve problems beyond billions of examples.

预测算法:

✎ Tensorflow-LSTM

Long Short-Term Memory layer - Hochreiter 1997.预测效果图:

image.png

✎ Facebook-prophet

Prophet is a procedure for forecasting time series data based on an additive model where non-linear trends are fit with yearly, weekly, and daily seasonality, plus holiday effects. It works best with time series that have strong seasonal effects and several seasons of historical data. Prophet is robust to missing data and shifts in the trend, and typically handles outliers well.

实践效果

目前Holmes异常检测平台已经在集团内部开放接入和运行,支持集团内常用数据源。平台运行几个月以来,帮助接入业务方的开发测试同学构建智能监控体系,减少繁琐的规则配置,有效提高了线上质量监控的覆盖率。今年618大促期间,Holmes的准确性方面也进一步得到验证,有效保障了大促的稳定性质量。

覆盖应用:淘宝、千牛、优酷、钉钉、淘宝直播、咸鱼等
接入指标:核心业务指标 200+
提前预警:有效提前预警线上问题 20+
算法调用量:累计1000万+

报警示例

image.png

实践案例1:

A客户端新版本放量期间, 由于客户端请求传参问题导致服务端返回大量空返回错误,Holmes 进行了有效检测到异常,相关同学收到报警及时中止放量并修复问题。然而传统规则监控因未达到阈值没有预警。

image.png

实践案例2:

在618大促压测期间,由于B业务订单数据量持续下降(缓慢下跌),Holmes检测到持续异常信息,预测数据下跌风险,早于传统规则监控90分钟提前报警,有效避免了线上故障。

image.png

算法检测效果

image.png

未来展望

Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型、更优越的算法指标。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。

淘系技术质量团队

负责保障整个手淘、天猫主战的业务质量,这里有丰富业务场景和技术挑战,我们将持续建设及完善这个那个淘系稳定性、提升用户体验。

如果您有兴趣可讲简历发至:fuming.dfm@alibaba-inc.com,期待您的加入!

关注「淘系技术」微信公众号,一个有温度有内容的技术社区~

image.png

相关文章
|
5天前
|
人工智能 前端开发 数据可视化
2024年低代码趋势洞察——企业最看重的功能有哪些
低代码平台正从“可选”工具转变为数字化转型的“必需品”。预计到2024年,全球超70%企业将引入低代码开发工具。其优势包括简化开发流程、提高效率、降低成本,支持可视化开发、多人协作、快速部署等。平台通过五大核心引擎(SQL、功能、模板、图表、切面)驱动高效开发,并结合AI技术提升智能化水平。此外,丰富的插件生态和开源支持保障了灵活性与扩展性,助力企业在复杂业务场景中实现高效运营与决策。
46 14
|
存储 SQL 弹性计算
圆桌讨论:如何构建一站式全链路解决方案
本文整理自天翼云首席研发专家候圣文,OceanBase社区布道师周跃跃,CloudCanal联合创始人万凯明,StarRocks解决方案架构师王天宜,在如何构建简单高效的现代化数据栈的分享。
圆桌讨论:如何构建一站式全链路解决方案
|
10天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
24天前
|
数据采集 人工智能 运维
AI辅助的系统监控和预测:新时代的运维利器
AI辅助的系统监控和预测:新时代的运维利器
50 9
|
27天前
|
机器学习/深度学习 自然语言处理 监控
智能客服系统集成技术解析和价值点梳理
在 2024 年的智能客服系统领域,合力亿捷等服务商凭借其卓越的技术实力引领潮流,它们均积极应用最新的大模型技术,推动智能客服的进步。
70 7
|
2月前
|
数据可视化 项目管理 数据安全/隐私保护
如何借助工具为保险行业项目降本增效?
保险行业项目管理面临任务协作复杂、进度跟踪不透明、分工不清及合规要求高等挑战。Leangoo通过可视化看板、实时沟通与文件共享、灵活权限管理和数据追踪统计等功能,有效提升项目管理效率,促进团队协作,确保项目顺利推进。
|
8月前
|
小程序 IDE API
如何用“AIT”解决能力集成难题——以商家券为例
如何用“AIT”解决能力集成难题——以商家券为例
95 0
|
运维 监控 BI
企业综合运维监控项目经典案例
对服务器、网络设备等IT设施提供全面的故障和性能管理,通过设置相应的性能阀值和告警通知方式,当设备发生异常时能及时通过邮件和短信通知到管理员,减少故障修复时间
462 0
企业综合运维监控项目经典案例
|
机器学习/深度学习 人工智能 运维
如何通过AI 全面提升运维效率?选型宝分享AIOps实战案例
前言 运维,是企业IT最基础的工作,也是痛点、槽点最多的工作。海量的数据、频繁的报警、艰难的排障、无情的投诉,足以让运维工程师们感到崩溃和绝望…… Gartner在ITOA (IT Operations Analytics IT运营分析)的基础上,提出了AIOps的概念。
3067 0
|
移动开发 缓存 运维
技术实践第四期|解读移动开发者日常-性能监控平台应用
应用性能监控平台是用来帮助客户提升应用性能质量和稳定性的重要环节,本人作为一名移动端开发者有着丰富的使用和运维经验,希望通过本文分享过往的心得和使用经验,让我参与开发的U-APM这款产品中,作为借鉴可以在中长期规划中帮助更多的开发者。
技术实践第四期|解读移动开发者日常-性能监控平台应用