开发者社区> 问答> 正文

云计算之路-阿里云上:向大家汇报一下今天上午的网站故障

昨天晚上,我们向博客站点的负载均衡中又增加了一台8核CPU的云服务器,一共用24个核跑博客站点。

今天早上,我们修改了程序,记录从memcached与nosql中读取数据的耗时,以确认是不是与memcached/nosql有关。每次故障时,阿里云都要怀疑memcached与nosql,在这上面耗费了很多的时间。

另外,为了进一步减轻Web服务器的CPU负担,我们将memcached从Web服务器中独立了出来。

今天早上9:30的高峰扛了过去,哪知10:00左右问题又开始出现。


(红色曲线表示的是CPU占用率)

故障期间CPU平均占用率在20%以上。我们增加一台云服务器的目的就是想将CPU平均占用率控制在20%以下,在9:30访问高峰没出问题的时候CPU平均占用率就在20%以下。每次故障,CPU占用率是最直接的反映。这也是我们用了阿里云之后发现的一个很大的不同,以前用物理服务器,我们的Web服务器CPU平均占用率长期在80%以上,一点问题没有。

故障期间单台云服务器的IIS并发连接数由平时的10以内达到我们设置的5000的上限(503错误就是这个引起的),IIS并发连接数暴增由两个可能的原因:一个可能是SLB(负载均衡)出问题扔过来大量额外的请求,一个可能是Web服务器处理能力急聚下降,很多请求得不到处理,越积越多。

我们采用一个方法进行了验证。不走SLB,直接用单台云服务器跑博客站点;如果是SLB的问题,避开它之后问题应该立即缓解。一从SLB切换到单台云服务器,这台云服务器的IIS并发连接数就串到了上万(IIS的连接数限制已取消),对于这么大的连接数,单台云服务器毫无还手之力。以前我们用自己的物理服务器,也是8核CPU,跑的站点还比现在多,2万的IIS并发连接也应对自如。通过这个验证说明了SLB没问题,说明了单台云服务器(虚拟机)虽然用的是2.4G的物理CPU(Azure的虚拟机CPU也只有1.6G),但实际处理能力大打折扣。

在故障期间memcached与nosql的数据读取速度正常,即使禁用memcached与nosql,问题依旧,所以问题与memcached/nosql无关。

通过对今天故障的分析,我们的判断是:云服务器(虚拟机)的CPU处理能力是最大的嫌疑。

我们应对措施是:进一步减轻单台云服务器的负担,将单台云服务器的CPU平均占用率控制在20%以内,目前已经又增加一台8核的Web服务器,用32个核跑博客站点。

博文原文: http://www.cnblogs.com/cmt/archive/2013/05/17/3083505.html

展开
收起
cnblogs 2013-05-17 13:40:02 9955 0
9 条回答
写回答
取消 提交回答
  • 回 8楼(jqueryba) 的帖子
    现在只求稳定了

    -------------------------

    谢谢您的支持!
    加服务器是权宜之计,我们相信问题的真正原因会找出来的。

    2013-05-17 15:50:07
    赞同 展开评论 打赏
  • 成本又大了。。。。

    -------------------------

    回 9楼(cnblogs) 的帖子
    稳定也是 不然用户打不开 或者 速度慢 确实很蛋疼啊
    不过如果以后还有这样那样的问题出来 又得继续加服务器的话 成本和稳定得抉择了
    我也是博客园粉丝  
    祝你们越来越好
    2013-05-17 15:40:54
    赞同 展开评论 打赏
  • Re云计算之路阿里云上:向大家汇报一下今天上午的网站故障
    引用第6楼dns2008于2013-05-17 14:30发表的  :
    意思是云主机的CPU与物理机差距不是一点点?


    云底层的构架就决定了一些东西,后期的优化都是有天花板的。
    2013-05-17 14:37:33
    赞同 展开评论 打赏
  • 意思是云主机的CPU与物理机差距不是一点点?
    2013-05-17 14:30:01
    赞同 展开评论 打赏
  • cpu占用得控制在20%以下,云用成这样可够悲催的
    2013-05-17 13:56:21
    赞同 展开评论 打赏
  • 只要是共享的东西,都会是弱点。
    2013-05-17 13:52:23
    赞同 展开评论 打赏
  • 呵呵 尽快解决吧。。。

    ps:建议楼主设置下防盗链,看到楼主网站的图片没有设置防盗链、可能会带来一些不必要流量 呵呵
    2013-05-17 13:50:17
    赞同 展开评论 打赏
  • Re云计算之路阿里云上:向大家汇报一下今天上午的网站故障
    算是沙发么
    2013-05-17 13:45:51
    赞同 展开评论 打赏
  • 希望阿里能够重视
    2013-05-17 13:45:37
    赞同 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
云计算中的数据安全 立即下载
汇聚云计算的生态核能——云市场,云上APP Store 立即下载
天气风险管理的过去、现在与未来——基于大数据和云计算的天气风险管理 立即下载