《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(1) https://developer.aliyun.com/article/1230997?groupCode=supportservice
3.2.2.1.2 云产品巡检参考
|
|
EIP是否存在突发 流量占满带宽 导致访问超时问题? |
是 |
EIP等共享带宽被占满,导致SLB EIP等访问不通或者严重丢包 1、建议设置共享带宽的监控告警; 2、采用API接口脚本对共享带宽 EIP 进行动态调整; |
|
SLB产品是否受到 外网波动导致无法 访问? |
是 |
同业务多建立SLB做负载,规避单 点eip大网影响 |
|
SLB产品就带宽/连接 数等是否设置了告警? 告警值是否合理? |
否 |
推荐对SLB实例核心参数做合理设 置 |
||
SLB产品所在集群是 否存在性能瓶颈? |
是 |
安排用户资源升配 |
||
单个SLB实例是否 超出性能瓶颈? |
是 |
建议: 1、做好监控,设置合理告警阈值 ; 2、核心组件做好多实例分散压力 ; |
||
传统网络 |
机房核心入口设备 存在断链风险? |
是 |
1、风险的产生,有如下几点: 1)大网不能保证7*24 100%可用 2)交换机重启引起下联设备断连 3)异常流量,比如ddos in导致链 路拥塞 2、机房通信光缆断开,物理故障 的风险规避: 1)双线上联(可用区---pop点) --2N+1 2)交换机堆叠,同时服务器双线 上联 3)主动监控,做好容量监控,及 时扩容 |
|
|
用户自建/托管第三方 IDC是否因为大网抖动 导致公有云/阿里云托 管区之间调用延迟 不稳定? |
是 |
1、推荐专线互联; 2、采用ipsec+跨域专线方案,阿 里云优质跨域专线提供高稳定性方 案 |
|
用户业务主机调用 第三方业务API接口 是否因为解析到跨 地域节点导致延迟? |
是 |
机房公共服务中的DNS服务,代理 DNs 上联用的dns是public,会导 致解析地域出现偏差,导致用户第 三方调用产生超时的可能 建议:此类涉及业务主机,建议 host绑定PUBLIC DNS解决。如阿 里/NDSPOD公共DNS地址 |
|
存储产品 |
OSS |
使用OSS文件存储是 否出现负载变高问题 引起的上传下载延迟 问题? |
是 |
异常流量,或者异常飙升请求使得 后端集群负载过高,导致用户读取 文件时候延迟比较高,经常报错 1、引导用户评估业务的延迟容忍 度,对于密集型访问,以及小文件 等并发场景,建议用户采用本地部 署分布式存储系统; |
|
|
Redis是否采用短链 接使用方式? |
是 |
2、建议用户对业务的延迟和错误 码占比做监控,同时做好存储容灾 方案。通过修改代码方式切换接入 存储服务商,实现容灾; |
Redis是否设置了 产品告警? |
是 |
采用sdk下载因为线程并发过小。 导致下载文件速度过小 建议用户加大并发线程 |
||
Redis的QPS是否存 在性能瓶颈问题? |
是 |
缓存不建议用短连接,请求并发太 大,很容易导致proxy连接(针对 分布式版本)回收不过来,引起性 能瓶颈问题 |
||
Redis是否设置了 产品告警? |
否 |
推荐就核心指标做告警设置 |
||
Redis的QPS是否 存在性能瓶颈问题? |
是 |
评估业务需求,总体扩容 |
||
redis是否存在凌晨 时段的io波动问题? |
是 |
默认数据做AOF落地,磁盘的波动 性能问题可能会影响用户使用。 非核心业务(重启kv数据丢失), 建议关闭aof |
||
|
是否设置了RDS产品告警? |
否 |
推荐尽快就核心指数设置告警,及 时感知实例性能变化; |
|
RDS的搜索引擎是否采 用了非Innodb引擎? |
是 |
存储引擎建议全部使用InnoDB, InnoDB适用于绝大部分业务场景; |
|
|
RDS的磁盘使用率是 否超限,存在空间 不足风险? |
是 |
建议用户持续关注磁盘容量监控, 并保证磁盘空间使用率控制在80% 以内。 |
|
执行大事务时间过长, 导致主从同步延迟, 主备同步延迟 |
|
解决方案:建议大事务拆分,优化 sql; |
|
业务是否足够重要, 将存量标准版SLB升级 到高可用RDS实例来 提高可用性? |
否 |
存量数据库存在基础版数据库实例 。现有购买数据库均为高可用RDS 实例。对于存量的基础版数据库, 建议依据业务重要与否,尽快做升 级处理; |
||
RDS业务场景是否采 用了缓存架构/连接 池技术架构? |
否 |
1、对于高并发业务,建议使用连 接池技术; 2、对于高可用版RDS,建议使用 长连接,应用层建议使用连接池。 |
||
RDS业务场景中是 否存在批量任务和 长任务(大事务)? |
是 |
长事务:RDS建议在数据库中不要 存在长事务,长事务在执行过程中 ,若造成长时间持有锁,可能会导 致性能问题和备份失败等情况,建 议控制每个事务的执行时间,检查 代码中没有commit的事务,并保 证开启自动提交(auto_commit=1 )。 批量任务:容易导致复制长时间延 迟等情况,SLB建议配置从库延迟 告警,并将批量任务拆分成粒度更 小的子任务,代码中控制从库延迟 情况,从而避免影响读写分离等功 能。 |
||
RDS是否针对表 进行了索引设置? |
否 |
推荐合理为MySQL数据库的表建立合适的索引 ,可以让MySQL在性能方面有更好的体现 1、为每一个表都配置一个自增id作为主键; 2、在频繁查询的字段上建立索引; 3、在基数大的列建立索引(如重复值多的列 ),而不是在基数小的列上建立(如性别); 4、在GROUP BY\ORDER BY后未使用函数的 字段上建立索引; 5、单表不宜建立过多索引,尽量控制在6个左 右; 6、定期登录控制台,下载慢查询分析日志( 下载的慢日志是pt-digest工具分析处理后的日 志),找到业务中的慢SQL,针对慢SQL设置 合适的索引。 |
安全 |
|
针对读写压力比较 大场景,是否开启了 读写分离功能? |
否 |
针对读压力比较大的业务场景,建 议用户开启读写分离分担主库实例 压力。阿里云提供高可用SLB的读 写分离功能一键开启 |
安全 |
用户业务是否存在直 连RDS实例ip场景? |
是 |
故障是否不方便剔除或者切换,建 议启用读写分离组件或者第三方分 布式集群(MyCat方案),屏蔽后 端db变化对业务对影响 |
|
ECS部署业务 是否考虑了高可用架构 及解决方案? |
是 |
推荐高可用方案部署,规避单点风 险 |
||
是否存在核心的或同 业务的云主机位于同 一台宿主机的情况? |
是 |
标准: 1、不同业务主机数量大于等于3 2、同等业务主机数量大于等于2 符合以上条件之一判定为同宿指数 情况严重。 1、尽快做主机迁移打散操作 2、相同业务可以建立硬件隔离组 等特性创建时候设置为打散隔离状 态 |
||
是否存在老化严重 或多次宕机过的宿主机? |
是 |
宿主机器老化问题,定期巡检,做 风险预警,安排迁移处理 |
||
客户是否对云主机的cpu 磁盘IO、包量等指标有 特殊要求?主机所在宿 主机器是否发生 宕机问题? |
是 |
1、针对重点活动临时保障,重点 实例做性能保证,比如迁移加锁独 享等; 2、针对长期使用,要求性能有保 障场景,建议采用私有专区、神龙 服务器来独享性能; 宿主机器物理层面该风险建议通过 应用层面高可用来规避。如业务集 群高可用架构,主备架构实现高可 用。 |
||
|
是 |
1、定期健康巡检 一周巡检一次的 频率; 2、发现隐患及时同步到客户,依 据隐患情况决定是否迁移 |
|
|
用户所用架构中登录 密码是否过于简单? |
是 |
推荐密码加固,采用数字+字母+特 殊符号方式设置;内部管控推荐使 用跳板机+密钥登录 |
|
用户所用架构中主机 资源是否采用了镜像 快照功能? |
否 |
推荐定期对操作系统等数据做镜像 制作备份操作,快速回滚; |
|
用户所用架构中业务 是否采用了https访问 方式,部署ssl加密? |
否 |
推荐核心业务开启https访问,防止 数据流量劫持风险; |
||
用户所用架构中云产品 关联firewall是否合 理设置? |
否 |
firewall策略过粗或者过细都可能影 响业务正常的开展。建议进行针对 性安全过滤设置; |
||
用户所用架构中是否 使用了入口审计产品? |
否 |
推荐堡垒机产品,权限细分+运维 动作回溯管控; |
||
用户所用架构中是 否经常遭受ddos攻击? |
是 |
1、推荐部署高防类产品进行有效 防护; 2、付费提升核心业务EIP的攻击防 御值 |
||
|
用户所用架构中登录 密码是否集中管控, 或者所有资源都是一 套密码? |
是 |
1、推荐资源采用不相同的密码登 录不同主机,或者定期更新密码; 2、对于采用秘钥登录方式,推荐 阿里云堡垒机产品; |
|
账户 |
账户 |
用户账户余额是否 充足?是否足够在下 一个续费周期内满足 续费需求? |
否 |
1、客户账户金额保持充足,规避 在下一个续费周期内因为金额不足 导致的部分机器续费失败问题,影 响到业务运行或者释放; 2、依据情况开通信用账户; |
|
|
用户自建/托管第三方 IDC是否因为大网抖动 导致公有云/阿里云托 管区之间调用延迟 不稳定? |
是 |
1、推荐专线互联; 2、采用ipsec+跨域专线方案,阿 里云优质跨域专线提供高稳定性方 案 |
|
用户业务主机调用 第三方业务API接口 是否因为解析到跨 地域节点导致延迟? |
是 |
机房公共服务中的DNS服务,代理 DNs 上联用的dns是public,会导 致解析地域出现偏差,导致用户第 三方调用产生超时的可能 建议:此类涉及业务主机,建议 host绑定PUBLIC DNS解决。如阿 里/NDSPOD公共DNS地址 |
|
使用OSS文件存储是 否出现负载变高问题 引起的上传下载延迟 问题? |
是 |
异常流量,或者异常飙升请求使得 后端集群负载过高,导致用户读取 文件时候延迟比较高,经常报错 1、引导用户评估业务的延迟容忍 度,对于密集型访问,以及小文件 等并发场景,建议用户采用本地部 署分布式存储系统; |
||
Redis是否采用短链 接使用方式? |
是 |
2、建议用户对业务的延迟和错误 码占比做监控,同时做好存储容灾 方案。通过修改代码方式切换接入 存储服务商,实现容灾; |
||
Redis是否设置了 产品告警? |
是 |
采用sdk下载因为线程并发过小。 导致下载文件速度过小 建议用户加大并发线程 |
||
Redis的QPS是否存 在性能瓶颈问题? |
是 |
缓存不建议用短连接,请求并发太 大,很容易导致proxy连接(针对 分布式版本)回收不过来,引起性 能瓶颈问题 |
||
|
Redis是否设置了 产品告警? |
否 |
推荐就核心指标做告警设置 |
|
Redis的QPS是否 存在性能瓶颈问题? |
是 |
评估业务需求,总体扩容 |
||
redis是否存在凌晨 时段的io波动问题? |
是 |
默认数据做AOF落地,磁盘的波动 性能问题可能会影响用户使用。 非核心业务(重启kv数据丢失), 建议关闭aof |
||
是否设置了RDS产品告警? |
否 |
推荐尽快就核心指数设置告警,及 时感知实例性能变化; |
||
RDS的搜索引擎是否采 用了非Innodb引擎? |
是 |
存储引擎建议全部使用InnoDB, InnoDB适用于绝大部分业务场景; |
《泛娱乐行业技术服务白皮书》——三、泛娱乐典型业务架构与场景——3.2 游戏类泛娱乐——3.2.2 游戏泛娱乐技术服务(3) https://developer.aliyun.com/article/1230994?groupCode=supportservice