原创 吾铭、豆豆 淘系技术 2020-12-18
MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。
中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。
★ 议题简介:
《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。
★ 业界点评:
艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :
- 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!
- 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。
- Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。
- 很值得业界同行朋友们学习借鉴。
孔令云(美柚测试总监):
手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。
前言
手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。
消息业务场景及系统架构
消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;
为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;
淘
淘
客户瑞上行
文件/多媒体
客户酒下行
天猫
发送宝贝
IM系统
消息上屏
客户端下行链路
客户端上行链路
分享卡片
0
消息全链路稳定性保障
随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;
面临问题
实现目标
服务端日志无采样
链路日志节点多
应用内日志聚合
增加服务端采样率标
应用日志协议不统
前后端无统一采样规则
按照链路采样
日志协议统
前后端链路隔离
系统监控日志零散
增加traceld串联链路
系统监控基于全链路日志
到达率计算时效低
消息通道链路不透明
实时到达率计算
数据挖掘和分析
结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:
全链路日志方案
实时监控+离线报表
ODLS-离线计算
BLINK-实时计算
全链路平台
全链路排查
SLS
离线上报
采样率
降级开关
业务指标
系统指标
全局Trace
端计算
多维度驿合
日志采集上报
效果分析
系统监控
日志采集
日志景合
日志协议
全链路SDK
日志接入层(AOP/手动注入)
客户端UT埋点
服务端链路日志
客户端链路日志
应用指标
SERVER
APP
整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;
客户端下行
客户调上行
链路信息
paas服务端
saas服务端
时间:
2019/8/30下午11:54:09
1MNG数据处理
1消量美清起点
收发者
2日人库前
荣木量D99001居凡
2消
商家D
3急入库后
3发量名赚体
查看push详情
eld:0/1
traceld:
4远程难送
8044913
类型:send
item
*value*:L20Items
1ogType:
"tracead*:*Ob.v.2a
Rt:"2-
x"3:3159182670.1011001Ecao
contentIndex":
1evel":"INFO
oxmomto*
appName:.impaas-caiiback
.100.126*
ip:
KVJSON":
DitingEventTags:0
titIeMSG
"threadName:"Locp.camllacathread--
rc:0
"dye":false
NEIVICEEGETMESSAGEFIITERRULE"
servicel/amaasca.toamklt.omes
domain:cntaobao"
xpcid:-0.1.2
C22926c11oo1ecntaobao)
bizData
智能监控在全链路体系实践经验
▐ 传统监控的现状和痛点
▐ 智能监控-特点&优势
- 特点:
- 学习历史数据,分析当前指标曲线趋势是否异常
- 基于以往数据,进行预测未来指标走势
- 优势:
- 算法检测代替规则检测
- 告警准确率高
- 更早发现异常情况
- 可适应业务发展带来的趋势变化
4,均值尖峰突变
1,周期模式变化
Jauanrwhumimsl
2,均值发生整体位移
5,断崖式跌落
UuxgNwleydwtly
6,抖动频率变化
3,趋势上涨
xMuncmmm
▐ 智能监控系统架构
基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。
报警筑略
监控配置
报警命中策路
数据源配置
指标注册
报警等级策略
磨育.吉育育育碗管管
算法配置
报警配置
报警抑制
报警订间
算法检测
任务调度
特征提取
AI算法库
**************
时序算法
算法调度
模型训练
预测算法
数据存储
时序数据存储,告警数据存储,指标数据存储
xFlush
服务应用(HSFHTTP)接口
实时(Blink)
检测算法
数据接入
高线(odps)
数据库(XXDB)
▐ 算法检测效果
95%
91%
发现率
准确率
!毫秒级
10%
误报率
延迟
▐ 智能舆情全链路特点
- CNN文本分类+DBScan相似算法,精细聚类舆情;
- 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;
- 分钟级定时巡检预警,结合AI异常检测,避免问题故障。
▐ 智能舆情全链路体系架构
AIOPS-智能舆情全链路体系
智能全链路排查
舆情聚类(NLP)
异常检测报警(AI)
数据
前端平台
舆情监控
舆情问题排查
消息舆情大盘
图片识别
定时退检
异常
真情原始数
奥情走势环比
链路
检测
据源
精准匹配
预警分级
TOp奥情排行
智能
实时
排查
奥情智能分类
监控
预警推送
分英标签管理
舆情分类样
算法基础
图片识别算法
CNN文本分类算法
文本相似聚合算法
平台数据存
数据预处理(停用,业务词过滤)
舆情图片中识别有效信息,用户
输入样本训练数据->模型训练及测试
储及查询等
问题排查输入
>模型调用获取结果
K-meanS相似+DBScan密度聚合
▐ 智能舆情全链路实践效果
【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内
【预警效果】预警有效率95%以上,问题排查率70%
【预警问题】有效预警线上问题50+,规避线上故障
【算法调用】日均调用600次+
【接入业务】手淘、千牛、淘宝特价版等
AndroidTop舆情教认屏示今天累计
浙启国情机鞋人4月1201515
闪
消总肉情预警[androld)]
指述:[河总最近3小时与情跌量达到(
已凌未雷
清品
服务诺CC访用户CC链路记录为空][客户瑞锁
误码2000]
啤天记
95.72020041212:562810
[客户话智识码2105)
湾O:码
95.72020-04-12132535
[客户端博误码21051
99988PB9
9572020-041213:36:3510
[待疆认原因]
OhfE品
服务馈语课码:400,酒诺信息:黑名栏献
9.5.72020-04-12
5ST5Aeca
Holmes异常检测平台
基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。
使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。
只需要简单的4步配置,即可完成指标接入:
Holmes-配置化流程
数据源配置
指标配置
算法配置
报警配置
在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;
在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。
未来展望
Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。
▐ 研究方向:
【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】
▐ 研究目标:
1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据
2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法
3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%
4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用
MTSC2020中国互联网测试开发大会深圳站现场