带你读《多媒体行业质量成本优化及容灾方案白皮书》2. 直播质量优化(4)https://developer.aliyun.com/article/1351898?groupCode=supportservice
4) 上下行质量监控体系
下面展开介绍客户维度可做的监控告警及云产品维度可做的监控告警。
a) 客户维度可做的监控&告警
基于终端日志打点逻辑,实现终端业务监控、告警;基于直播源站服务器性能、业务指标等,构建直播源站监控、告警;基于直播推流上报逻辑,实现推流端业务监控、告警。
具体的终端日志要打点哪些字段、质量监控指标统计哪些、质量分数怎么计算、告警怎么实现等,详情参考多媒体行业质量监控最佳实践。
客户可基于多端业务监控或告警识别业务问题、直播源站问题,通过运维或运营处理链路聚焦问题进行优化落地:
- 如终端业务告警+阿里云客户风险主动定位服务+运维人工处理链路,实现云直播产品、局部终端网络(运营商劫持、解析长缓存、局部网络抖动或异常等)、客户自建直播源站问题、主播源流问题的定界及止损;
- 如针对大主播的推断流监控告警,识别大主播非预期的断流行为,进行及时介入止损;
- 如基于终端日志实现各云厂商质量评分体系,评估各云厂商产品服务质量及驱动各云厂商优化;
- 基于终端日志实现个别终端播放问题的快速定位,以进行终端问题的逃逸等等。
b) 阿里云-云产品维度可做的监控&告警
客户可以基于云监控产品,实现直播业务的监控及告警配置,涉及指标包括了4xx、5xx、带宽qps等,具体参考文档链接。
- 音视频帧率维持在固定值或者固定值上下小比例波动,且视频帧率高于12帧-手机端(15帧-PC端)一般会被定义为稳定的直播;如果是教学投影PPT场景可能存在视频帧率较低场景,具体什么样的帧率是业务维度的低帧率会引发终端客户观感上的卡顿,客户维度可以自定义,但可以明确的是低视频帧率flv_lag_vfcnt是判断卡顿的一个维度。
- 终端播放器buffer缓冲区缓冲时长为X秒,如果日志中视频帧率flv_lag_vfcnt 连续X-1秒及以上掉0,就会卡顿。
- 终端播放器buffer缓冲区缓冲时长为X秒,如果X秒之内的平均帧数flv_lag_vfcnt,如果平均帧数高于帧率*0.8则判定不卡顿,低于则判定卡顿(0.8是经验值,可以根据实际业务做调整)