《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.2 直播业务稳定性保障——5.2.2 直播业务监控最佳实践(3) https://developer.aliyun.com/article/1231953?groupCode=supportservice
•重点的卡顿监控逻辑
卡顿主要分为四个部分:
•数据收集
前文已简单介绍了端上日志的采集,这里不再赘述。收集主播端和观看端的设备信息、网络环境。设备信息主要是指设备机型、用户IP,以及视频流的分辨率、码率,包括播放过程中的CPU使用率、GDP使用率、内存使用率。网络环境,主要指连接方式。还有一些需要探测才能得知的数据,比如:优先收集手机到本地路由器的网络情况,然后收集手机到公网出口的环境,以及手机到CDN节点的网络情况。第三部分数据是正常监控需要的,包括卡顿数据、首屏数据、延时数据。
•数据分析
收集完之后,放到大数据中心做数据过滤、综合分析;把用户卡顿流分门别类的处理成需要的监控数据。
•数据展示
第三是数据展示,把卡顿率及其它的一些数据展现出来,增加可读性。
•预警系统
主要是运维人员及CDN厂商关注。告警通常会直接触达公司的运维人员。但直
播服务,基本上都会用到CDN厂商的云加速服务。如果发现用户卡顿,一般最终会分析出原因是CDN某个节点问题,把这个分析反馈给CDN厂商,进行相应的调整。