《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2) https://developer.aliyun.com/article/1232030?groupCode=supportservice
5. 监控大盘配置实践
游戏业务资源一般都涉及大量ECS计算资源实例、数据库实例和多款网络相关阿里云云产品。在重保项目启动后即可与客户对接监控需求、制定监控方案,通过与客户沟通对项目整体业务情况进一步了解后,针对客户提出的需求和项目的整体业务逻辑,以及需要重点关注的关键性监控指标,从全局到局部细节提供多种维度监控方案供客户选择。
现场保障盯屏维度(峰谷观测):
现场护航盯屏视角的监控需要在展示项目整体资源的同时,突出展示重点关注的关键性指标数据,具有综合性、全局性、针对性、关联性等特点。如ECS实例、CDN、EIP弹性公网IP、共享带宽包中关键性监控指标,从全局角度配置综合汇总的TOP&SUM监控数据,为客户提供新游上线玩家在线增长率趋势、TOPx游戏服用户负载和关键资源使用情况、内/外网网络带宽流量汇总、CDN域名命中率和回源带宽。通过建立ECS公网IP标签与EIP弹性公网IP标签关联,提供玩家在线请求流量和游戏服的综合负载情况。
护航现场盯屏样例:
1.网络带宽:网络带宽水位过高或打满会直接导致玩家掉线或无法进入游戏,同时也可辅助发现网络攻击行为,因此网络带宽的实时监控是必须的。一般包括共享带宽包流入带宽总和、流出带宽总和,每个共享带宽的流入带宽和流出带宽等。如下图:
2.CDN:重点关注CDN下行流量监控(边缘网络总带宽)、回源带宽监控、命中率,4xx,5xx等指标,如下:
3.游戏服ECS:游戏服需关注总连接数,反映总体在线玩家数量情况。热门区服所在ECS的CPU内存负载监控,关注高负载时的性能波动,如下图:
4.安全:包括对IP出入流量、连接数、QPS、状态码、黑洞事件、清洗事件的告警监控等。
5.负载均衡、OSS、数据库等监控大盘可按需配置,不做示例。
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4) https://developer.aliyun.com/article/1232028?groupCode=supportservice