MTSC2020 | 手淘AIOPS实战-消息全链路智能监控

简介: MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。

原创 吾铭、豆豆 淘系技术  2020-12-18


MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。



中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。


★  议题简介:


《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。


★  业界点评:


艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :


  • 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!
  • 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。
  • Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。
  • 很值得业界同行朋友们学习借鉴。


孔令云(美柚测试总监):


手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。



前言



手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。



消息业务场景及系统架构



消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;


image.png


为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;


image.png

客户瑞上行

文件/多媒体

客户酒下行

天猫

发送宝贝

IM系统

消息上屏

客户端下行链路

客户端上行链路

分享卡片

0



消息全链路稳定性保障



随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;


image.png

面临问题

实现目标

服务端日志无采样

链路日志节点多

应用内日志聚合

增加服务端采样率标

应用日志协议不统

前后端无统一采样规则

按照链路采样

日志协议统

前后端链路隔离

系统监控日志零散

增加traceld串联链路

系统监控基于全链路日志

到达率计算时效低

消息通道链路不透明

实时到达率计算

数据挖掘和分析


结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:


image.png

全链路日志方案

实时监控+离线报表

ODLS-离线计算

BLINK-实时计算

全链路平台

全链路排查

SLS

离线上报

采样率

降级开关

业务指标

系统指标

全局Trace

端计算

多维度驿合

日志采集上报

效果分析

系统监控

日志采集

日志景合

日志协议

全链路SDK

日志接入层(AOP/手动注入)

客户端UT埋点

服务端链路日志

客户端链路日志

应用指标

SERVER

APP


整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;


image.png

客户端下行

客户调上行

链路信息

paas服务端

saas服务端

时间:

2019/8/30下午11:54:09

1MNG数据处理

1消量美清起点

收发者

2日人库前

荣木量D99001居凡

2消

商家D

3急入库后

3发量名赚体

查看push详情

eld:0/1

traceld:

4远程难送

8044913

类型:send

item

*value*:L20Items

1ogType:

"tracead*:*Ob.v.2a

Rt:"2-

x"3:3159182670.1011001Ecao

contentIndex":

1evel":"INFO

oxmomto*

appName:.impaas-caiiback

.100.126*

ip:

KVJSON":

DitingEventTags:0

titIeMSG

"threadName:"Locp.camllacathread--

rc:0

"dye":false

NEIVICEEGETMESSAGEFIITERRULE"

servicel/amaasca.toamklt.omes

domain:cntaobao"

xpcid:-0.1.2

C22926c11oo1ecntaobao)

bizData



智能监控在全链路体系实践经验



 传统监控的现状和痛点


image.png

传统规则通用性差

告警有效性低,监控疲劳

?3

海量告警及告警噪音,消耗大量人力

指标复杂的周期性和模式变化的动态性

误报/漏报

排查效率低

受季节性数据/噪声/抖动数据的干扰

业务系统链路长,排查问题需要多人协同


 智能监控-特点&优势


  • 特点:
  • 学习历史数据,分析当前指标曲线趋势是否异常
  • 基于以往数据,进行预测未来指标走势
  • 优势:
  • 算法检测代替规则检测
  • 告警准确率高
  • 更早发现异常情况
  • 可适应业务发展带来的趋势变化

image.png

4,均值尖峰突变

1,周期模式变化

Jauanrwhumimsl

2,均值发生整体位移

5,断崖式跌落

UuxgNwleydwtly

6,抖动频率变化

3,趋势上涨

xMuncmmm


 智能监控系统架构


基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。


image.png

报警筑略

监控配置

报警命中策路

数据源配置

指标注册

报警等级策略

磨育.吉育育育碗管管

算法配置

报警配置

报警抑制

报警订间

算法检测

任务调度

特征提取

AI算法库

**************

时序算法

算法调度

模型训练

预测算法

数据存储

时序数据存储,告警数据存储,指标数据存储

xFlush

服务应用(HSFHTTP)接口

实时(Blink)

检测算法

数据接入

高线(odps)

数据库(XXDB)


算法检测效果


image.png

95%

91%

发现率

准确率

!毫秒级

10%

误报率

延迟


 智能舆情全链路特点


  • CNN文本分类+DBScan相似算法,精细聚类舆情;
  • 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;
  • 分钟级定时巡检预警,结合AI异常检测,避免问题故障。


 智能舆情全链路体系架构


image.png

AIOPS-智能舆情全链路体系

智能全链路排查

舆情聚类(NLP)

异常检测报警(AI)

数据

前端平台

舆情监控

舆情问题排查

消息舆情大盘

图片识别

定时退检

异常

真情原始数

奥情走势环比

链路

检测

据源

精准匹配

预警分级

TOp奥情排行

智能

实时

排查

奥情智能分类

监控

预警推送

分英标签管理

舆情分类样

算法基础

图片识别算法

CNN文本分类算法

文本相似聚合算法

平台数据存

数据预处理(停用,业务词过滤)

舆情图片中识别有效信息,用户

输入样本训练数据->模型训练及测试

储及查询等

问题排查输入

>模型调用获取结果

K-meanS相似+DBScan密度聚合


 智能舆情全链路实践效果


【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内

【预警效果】预警有效率95%以上,问题排查率70%

【预警问题】有效预警线上问题50+,规避线上故障

【算法调用】日均调用600次+

【接入业务】手淘、千牛、淘宝特价版等


image.png

AndroidTop舆情教认屏示今天累计

浙启国情机鞋人4月1201515

消总肉情预警[androld)]

指述:[河总最近3小时与情跌量达到(

已凌未雷

清品

服务诺CC访用户CC链路记录为空][客户瑞锁

误码2000]

啤天记

95.72020041212:562810

[客户话智识码2105)

湾O:码

95.72020-04-12132535

[客户端博误码21051

99988PB9

9572020-041213:36:3510

[待疆认原因]

OhfE品

服务馈语课码:400,酒诺信息:黑名栏献

9.5.72020-04-12

5ST5Aeca



Holmes异常检测平台



基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。


使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。


截屏2020-12-09 下午7.55.49.png

GOC第电电人10月18日16135

HOIMeS异杭检测报兰--现测专级(D4)

[应用名]:接啵瘦功的满叠分钟醒(GOc#常疹

[时间:202010-1516:32:00

[当前异常款值]:32608

(往期数生:47457.00

持转时间]:2分钟

[异常崔园)

直地址bSuntine故就净均排


只需要简单的4步配置,即可完成指标接入:


image.png

Holmes-配置化流程

数据源配置

指标配置

算法配置

报警配置


在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;


在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。



未来展望



Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。


 研究方向:


【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】


 研究目标:


1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据

2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法

3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%

4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用



MTSC2020中国互联网测试开发大会深圳站现场


image.pngimage.png

image.pngimage.png

image.pngimage.png


相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
前端开发 容器
css样式元素的相对定位,绝对定位,固定定位等元素定位运用技巧详解
css样式元素的相对定位,绝对定位,固定定位等元素定位运用技巧详解
324 1
|
机器学习/深度学习 人工智能 运维
利用AIOps实现智能运维:提升IT运维的新策略
在数字化迅速发展的今天,传统IT运维已难以应对日益复杂的系统。AIOps通过融合AI、机器学习和大数据技术,革新了IT运维方式。其核心优势包括预测性维护、自动化处理、智能分析和资源优化。AIOps平台能自动检测、诊断并解决IT问题,显著提升运维效率。尽管面临数据质量、模型准确性和技术复杂性等挑战,但AIOps正逐步成为智能运维的重要趋势。
|
XML API Android开发
获取正在前台运行的apk 包名
获取正在前台运行的apk 包名
716 5
|
Web App开发 JavaScript 前端开发
《手把手教你》系列技巧篇(四十三)-java+ selenium自动化测试-处理https 安全问题或者非信任站点-上篇(详解教程)
【5月更文挑战第7天】本文介绍了如何在Java+Selenium自动化测试中处理浏览器对不信任证书的处理方法,特别是针对IE、Chrome和Firefox浏览器。在某些情况下,访问HTTPS网站时会遇到证书不可信的警告,但可以通过编程方式跳过这些警告。
560 1
|
JSON 数据格式
关于nlohmann::json的简单使用
关于nlohmann::json的简单使用
695 0
关于nlohmann::json的简单使用
|
XML 数据格式 Python
yq:命令行操作yaml文件
yq:命令行操作yaml文件
886 2
|
Java 数据安全/隐私保护
JConsole连接远程服务器方法
JConsole连接远程服务器方法
746 1
|
存储 C#
C# | 二进制字符串(“101010101”)、字节数组(byte[])互相转换
当我们在计算机中处理数据时,经常需要将数据从一种格式转换为另一种格式。而本文的将二进制字符串转换为字节数组听起来很稀松平常但实际又不是那么常见的特殊的转换方式。 二进制字符串是由 0 和 1 组成的字符串,比如:“0111010010101000”。 字节数组常用于读取和写入二进制文件、网络通信等。
1484 0
|
人工智能 运维 监控
AIOps智能监控在阿里巴巴故障管理工作中的成功实践
在自动化运维还不普及的时候,运维人员更多的运用手动的方式完成运维工作,这种方式耗时长,效率低。由此,如何合理发挥人工智能技术辅助运维人员进行故障管理工作逐步成为了业界关注的焦点。阿里巴巴的GOC团队通过研究并使用AIOps系统到运维业务场景中的方式,积累了大量的智能运营的方法论和技术体系。
10268 162
Mac解决Updating Homebrew卡顿
Mac解决Updating Homebrew卡顿
697 0