MTSC2020 | 手淘AIOPS实战-消息全链路智能监控

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。

原创 吾铭、豆豆 淘系技术  2020-12-18


MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。



中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。


★  议题简介:


《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。


★  业界点评:


艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :


  • 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!
  • 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。
  • Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。
  • 很值得业界同行朋友们学习借鉴。


孔令云(美柚测试总监):


手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。



前言



手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。



消息业务场景及系统架构



消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;


image.png


为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;


image.png

客户瑞上行

文件/多媒体

客户酒下行

天猫

发送宝贝

IM系统

消息上屏

客户端下行链路

客户端上行链路

分享卡片

0



消息全链路稳定性保障



随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;


image.png

面临问题

实现目标

服务端日志无采样

链路日志节点多

应用内日志聚合

增加服务端采样率标

应用日志协议不统

前后端无统一采样规则

按照链路采样

日志协议统

前后端链路隔离

系统监控日志零散

增加traceld串联链路

系统监控基于全链路日志

到达率计算时效低

消息通道链路不透明

实时到达率计算

数据挖掘和分析


结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:


image.png

全链路日志方案

实时监控+离线报表

ODLS-离线计算

BLINK-实时计算

全链路平台

全链路排查

SLS

离线上报

采样率

降级开关

业务指标

系统指标

全局Trace

端计算

多维度驿合

日志采集上报

效果分析

系统监控

日志采集

日志景合

日志协议

全链路SDK

日志接入层(AOP/手动注入)

客户端UT埋点

服务端链路日志

客户端链路日志

应用指标

SERVER

APP


整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;


image.png

客户端下行

客户调上行

链路信息

paas服务端

saas服务端

时间:

2019/8/30下午11:54:09

1MNG数据处理

1消量美清起点

收发者

2日人库前

荣木量D99001居凡

2消

商家D

3急入库后

3发量名赚体

查看push详情

eld:0/1

traceld:

4远程难送

8044913

类型:send

item

*value*:L20Items

1ogType:

"tracead*:*Ob.v.2a

Rt:"2-

x"3:3159182670.1011001Ecao

contentIndex":

1evel":"INFO

oxmomto*

appName:.impaas-caiiback

.100.126*

ip:

KVJSON":

DitingEventTags:0

titIeMSG

"threadName:"Locp.camllacathread--

rc:0

"dye":false

NEIVICEEGETMESSAGEFIITERRULE"

servicel/amaasca.toamklt.omes

domain:cntaobao"

xpcid:-0.1.2

C22926c11oo1ecntaobao)

bizData



智能监控在全链路体系实践经验



 传统监控的现状和痛点


image.png

传统规则通用性差

告警有效性低,监控疲劳

?3

海量告警及告警噪音,消耗大量人力

指标复杂的周期性和模式变化的动态性

误报/漏报

排查效率低

受季节性数据/噪声/抖动数据的干扰

业务系统链路长,排查问题需要多人协同


 智能监控-特点&优势


  • 特点:
  • 学习历史数据,分析当前指标曲线趋势是否异常
  • 基于以往数据,进行预测未来指标走势
  • 优势:
  • 算法检测代替规则检测
  • 告警准确率高
  • 更早发现异常情况
  • 可适应业务发展带来的趋势变化

image.png

4,均值尖峰突变

1,周期模式变化

Jauanrwhumimsl

2,均值发生整体位移

5,断崖式跌落

UuxgNwleydwtly

6,抖动频率变化

3,趋势上涨

xMuncmmm


 智能监控系统架构


基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。


image.png

报警筑略

监控配置

报警命中策路

数据源配置

指标注册

报警等级策略

磨育.吉育育育碗管管

算法配置

报警配置

报警抑制

报警订间

算法检测

任务调度

特征提取

AI算法库

**************

时序算法

算法调度

模型训练

预测算法

数据存储

时序数据存储,告警数据存储,指标数据存储

xFlush

服务应用(HSFHTTP)接口

实时(Blink)

检测算法

数据接入

高线(odps)

数据库(XXDB)


算法检测效果


image.png

95%

91%

发现率

准确率

!毫秒级

10%

误报率

延迟


 智能舆情全链路特点


  • CNN文本分类+DBScan相似算法,精细聚类舆情;
  • 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;
  • 分钟级定时巡检预警,结合AI异常检测,避免问题故障。


 智能舆情全链路体系架构


image.png

AIOPS-智能舆情全链路体系

智能全链路排查

舆情聚类(NLP)

异常检测报警(AI)

数据

前端平台

舆情监控

舆情问题排查

消息舆情大盘

图片识别

定时退检

异常

真情原始数

奥情走势环比

链路

检测

据源

精准匹配

预警分级

TOp奥情排行

智能

实时

排查

奥情智能分类

监控

预警推送

分英标签管理

舆情分类样

算法基础

图片识别算法

CNN文本分类算法

文本相似聚合算法

平台数据存

数据预处理(停用,业务词过滤)

舆情图片中识别有效信息,用户

输入样本训练数据->模型训练及测试

储及查询等

问题排查输入

>模型调用获取结果

K-meanS相似+DBScan密度聚合


 智能舆情全链路实践效果


【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内

【预警效果】预警有效率95%以上,问题排查率70%

【预警问题】有效预警线上问题50+,规避线上故障

【算法调用】日均调用600次+

【接入业务】手淘、千牛、淘宝特价版等


image.png

AndroidTop舆情教认屏示今天累计

浙启国情机鞋人4月1201515

消总肉情预警[androld)]

指述:[河总最近3小时与情跌量达到(

已凌未雷

清品

服务诺CC访用户CC链路记录为空][客户瑞锁

误码2000]

啤天记

95.72020041212:562810

[客户话智识码2105)

湾O:码

95.72020-04-12132535

[客户端博误码21051

99988PB9

9572020-041213:36:3510

[待疆认原因]

OhfE品

服务馈语课码:400,酒诺信息:黑名栏献

9.5.72020-04-12

5ST5Aeca



Holmes异常检测平台



基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。


使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。


截屏2020-12-09 下午7.55.49.png

GOC第电电人10月18日16135

HOIMeS异杭检测报兰--现测专级(D4)

[应用名]:接啵瘦功的满叠分钟醒(GOc#常疹

[时间:202010-1516:32:00

[当前异常款值]:32608

(往期数生:47457.00

持转时间]:2分钟

[异常崔园)

直地址bSuntine故就净均排


只需要简单的4步配置,即可完成指标接入:


image.png

Holmes-配置化流程

数据源配置

指标配置

算法配置

报警配置


在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;


在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。



未来展望



Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。


 研究方向:


【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】


 研究目标:


1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据

2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法

3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%

4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用



MTSC2020中国互联网测试开发大会深圳站现场


image.pngimage.png

image.pngimage.png

image.pngimage.png


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
存储 JSON 运维
直击痛点,详解 K8s 日志采集最佳实践
在 Kubernetes 中,日志采集和普通虚拟机的方式有很大不同,相对实现难度和部署代价也略大,但若使用恰当则比传统方式自动化程度更高、运维代价更低。
直击痛点,详解 K8s 日志采集最佳实践
|
5月前
|
监控 架构师 Java
得物从零构建亿级消息推送系统的送达稳定性监控体系技术实践
本文分享的是得物针对现有的消息推送系统的消息送达耗时、实时性、稳定性等方面问题,从零到一构建完整的消息推送质量监控体系和机制的技术实践。
113 1
|
存储 数据采集 监控
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
本文分享了阿里云可观测平台服务作为全球分布的超大业务系统,同时也作为服务全球企业用户的可观测平台提供方,在故障洞察提效中遇到的业务挑战,以及 6 个关键技术点和 2 个应用案例。
21515 54
阿里云故障洞察提效 50%,全栈可观测建设有哪些技术要点
|
12月前
|
存储 消息中间件 监控
架构设计第42讲:美团 - 可视化全链路日志追踪
架构设计第42讲:美团 - 可视化全链路日志追踪
382 0
|
存储 运维 监控
业务全链路追踪最佳实践|学习笔记
快速学习业务全链路追踪最佳实践
511 0
业务全链路追踪最佳实践|学习笔记
|
存储 SQL 分布式计算
沉淀了3年的自研前端错误监控系统,打通你的脉络
沉淀了3年的自研前端错误监控系统,打通你的脉络
沉淀了3年的自研前端错误监控系统,打通你的脉络
|
Kubernetes Dubbo Cloud Native
如何用20分钟就能获得同款企业级全链路灰度能力?
MSE 微服务引擎将推出服务治理专业版,提供开箱即用且完整专业的微服务治理解决方案,帮助企业更好地实现微服务治理能力。如果您的系统也可以像本文描述的那样,快速具备完整的全链路灰度能力,并基于该能力进行进一步的微服务治理实践,不仅可以节省客观的人力与成本,还可以让您的企业在微服务领域的探索更加有底气。
如何用20分钟就能获得同款企业级全链路灰度能力?
|
存储 运维 监控
企业如何从 0 到 1 构建整套全链路追踪体系
今天,我来跟大家分享 ARMS 在全链路追踪领域的最佳实践,分享主要分为四部分。首先,是对分布式链路追踪的整体简介。其次,是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后,介绍如何从 0 到 1 构建整套全链路追踪体系。最后,介绍一些最佳实践案例。
企业如何从 0 到 1 构建整套全链路追踪体系
|
机器学习/深度学习 缓存 自然语言处理
高德全链路压测——精准控压的建设实践
本文会重点介绍高德TestPG压测平台在发压能力精准调控方面的建设实践。
高德全链路压测——精准控压的建设实践
|
存储 人工智能 数据可视化
优酷播控实践:基于规则引擎的投放管控模型
我们在很多场景下需要规则引擎将规则运算和业务解耦,但规则引擎不是银弹。如果规则很简单,或者变化频次非常低那么使用 if-else 可能是最行之有效的实现方式,引入规则引擎反而增加维护成本。需要根据具体的业务形态选择是否使用规则引擎,以及要是什么样的规则引擎。
优酷播控实践:基于规则引擎的投放管控模型
下一篇
无影云桌面