5.3.3高可用架构建设
一般来讲,服务系统设计标准都是要求达到4个9或以上,也就是每年的不可用
时间不到1个小时。
“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。以下是高可用系统的设计建议:
•减少单点-去单点首先要识别整个系统所有主链路的单点,如机房(同城异地双
机房),应用服务器,DNS服务器,SFTP服务器,LBS,缓存服务器,数据库,消息服务器,代理服务器和专线等,如系统通过专线调用对方服务,需要考虑同时拉联通和电信的专线,联通或电信的专线还是有一定概率会出现问题的,但是同时出问题的概率会小非常多。优先使用软负载,使用硬负载兜底。
•减少依赖-减少DNS依赖,减少远程服务依赖,DNS依赖可以尝试设置本地
host,用工具给所有服务器推送最新的域名映射关系,通过本地缓存或近端服务减少RPC调用。
•限制循环-避免无限死循环,导致CPU利用率百分百,可以设置for循环的最大
循环次数,如最大循环1000次。
•控制流量-避免异常流量对应用服务器产生影响,可以对指定服务设置流量限
制,如QPS,TPS,QPH(每小时总请求量)和QPD(每天总请求量)。
•精准监控-对CPU利用率,load,内存,带宽,系统调用量,应用错误量,PV
,UV和业务量进行监控,避免内存泄露和异常代码对系统产生影响,配置监控一定要精准,如平时内存利用率是50%,监控可以配置成60%进行报警,这样可以提前感知内存泄露问题,避免应用无响应。
•无状态-服务器不能保存用户状态数据,如在集群环境下不能用static变量保存用户数据,不能长时间把用户文件存放在服务器本地。服务器有状态会难以扩容,且出现单点问题。
•容量规划-定期对容量进行评估。如大促前进行压测和容量预估,根据需要进
行扩容。
•功能开关-打开和关闭某些功能,比如消息量过大,系统处理不了,把开关打
开后直接丢弃消息不处理。上线新功能增加开关,如果有问题关闭新功能。
•设置超时-设置连接超时和读超时设置,不应该太大,如果是内部调用连接超
时可以设置成1秒,读超时3秒,外部系统调用连接超时可以设置成3秒,读超时设置成20秒。
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.3高可用架构建设(下) https://developer.aliyun.com/article/1231889?groupCode=supportservice