本文作者:上海驻云信息科技有限公司 李俊涛
看到IT之家迁移的文章,快速的过了一下客户使用阿里云平台上碰到的问题和处理方式。很平静,因为服务了太多的企业客户,能体会客户碰到问题求助无望的痛感,但是把所有的责任推给阿里云平台本身,个人觉得是欠妥的。抛开碰到平台的问题也好,服务支持对接的效果也好,有问过自己“云计算,我用对了吗?”
马上去访问了一下IT之家网站,每天35万+独立IP,每月3200万的浏览量,从系统角度来说,还是一个相对简单的系统,绝大部分的静态资源通过CDN做了加速,落到后端服务器的压力也就比较小了。我更加坚定了自己的判断,其实客户需要的是服务,如何更好使用云平台的专业服务。
公共云赋予了企业快速使用计算、存储、数据等资源的能力,这些资源和平台是可以海量的、无限扩展的。同时,迁移到云上的系统架构是否具备水平扩展的能力,这其实是一个核心问题。不能说云平台没有责任,也不能说客户该为自己错误的认知买单。应用系统和云平台提供的功能,是有差距的,而这个差距正好是专家服务可以弥补的。
1.避免使用All in one的部署方式:这是一个最普遍的问题。阿里云现在提供120多种产品和服务,而绝大多数客户系统迁移部署到阿里云上选择只使用ECS,应用和数据库部署在高配的ECS上,这样一开始就失去了水平扩展的能力,只能垂直扩展服务器配置,而垂直扩展是有上限的。IT之家就碰到了这样的问题。
2.应用部署到多可用区:主流的云平台在一个大的地域Region都有多个可用区。应用部署的默认推荐配置在不同可用区的ECS上。同一个地域的不同可用区之间做到了高可用。如IT之家碰到的问题,在一个可用区的宿主机上碰到故障的时候,ECS一定会受到影响,然而,其他的可用区有正常的ECS提供服务,负载均衡服务会利用健康检查机制,把访问压力对接到正常的ECS,确保应用对外提供正常访问;
3.应用和数据分开部署:应用和数据分开部署是非常有必要的,除了增加系统扩展的能力,数据部分在备份,性能,安全上会有更好的保障。任何一家公共云服务平台都有类似RDS的服务,可以有效解决客户自己搭建数据库中碰到的各种问题,可视化的性能监控,慢SQL优化建议,只读节点的即开即用等等。
以上说的几点都集中在公共云产品的使用上,对多数有系统架构背景和知识的人来说是浅显易懂的,这些基础知识可以解决大部分的问题。
另外,IT之家在使用中,抱怨更多的其实是服务的对接和响应,以现有的服务对接模式,不管是工单还是IM支持,都是免费的。免费是一把双刃剑。我们看一下AWS的做法,服务是收费的,按照账户消费额度的3%到10%收取不同比例的咨询费用,不同服务对应不同的SLA,这些服务可以更加贴近客户应用本身,及时解决在使用产品和服务中碰到各种问题,例如VPC专线接入,各大公共云平台都有非常详细描述关于接入的流程,但是如何获取专线接入点,怎么和专线运营商对接,怎么创建边界路由器等,一定需要服务才能把这些复杂的流程整合关联起来,让客户少走弯路,有更好的体验;
有了专业的服务后,客户使用公共云的感知应该是怎么样呢?举个例子,公共云平台其实发生过一些大面积的故障,例如网络故障,或者升级服务导致的服务不可用等问题,客户或多或少会出现应用中断访问等故障。然而,有技术支持服务的客户应用出现故障的几乎没有,什么原因?
1.在客户系统上云之前,就推荐了一个高可用的架构,一个负载均衡后面的ECS服务器一定是部署在不同可用区的,应用和数据一定是分离的,哪怕是在小的一个应用。
2.基于7*24小时的监控服务和合理的备份策略;对可用性有强烈要求的客户,数据库本身一定会利用DTS工具,在不同可用区,甚至不同地域做数据的异步同步。一旦发生故障,利用最新的镜像把应用在正常节点的ECS中启动起来,同时数据库平滑切换到之前的灾备节点,整个应用系统几乎没有影响。
3.[当然,还是要基于服务体制,在监控的云平台的故障时候,第一时间通过和客户IM群或者电话,一一通知到客户,让客户提前知道故障的发生,便于客户有更多的时间做应用级别的故障应对。
缺少服务的云计算需要用户有更专业的团队和技术做保障,愿IT之家不要发生下一次的迁移。