公有云市场现状,问题及趋势
从全球公有云市场来看,亚马逊AWS一枝独秀,占据了接近40%的市场份额。2017年全年,AWS营收为43.3亿美元,销售额为174.6亿美元。而在中国公有云市场,阿里云的市场份额达到了47.6%。在连续11个季度三位数增长之后,领先优势继续扩大:同期,国内第2至5位云服务商市场份额分别为9.6%、6.5%、6%和5.5%。
然而,近期公有云厂商出现了不少次故障和宕机事故:
2017年2月,一位AWS工程师试图对位于弗吉尼亚州数据中心内的一个S3存储系统进行调试的时候,意外地输入了一个错误命令行,随后大部分互联网,包括Slack、Quora和Trello在内的很多企业平台停机了4个小时。9月份,该区域(美东)又发生了一起存储事故。
2017年3月,微软Azure公有云存储可用性问题超过8个小时,主要影响到美国东部的一些客户。
2018年6月,阿里云在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。
2018年8月,云服务器声称99.9999999%数据可靠性的腾讯云,因为硬盘固件bug导致的静默错误,从而丢失了创业公司线上的生产数据。
类似这样的生产事故,在各大云厂商上,都发生过。这说明了公有云不安全吗?数据显示,亚马逊AWS增速为45.9%,微软Azure为61%,阿里云达到了126%。据Gartner统计,IaaS仍是未来最具潜力的增长领域,未来5年的增长率为28%。群众的眼睛是雪亮的,群众的选择是明智的。如果这么多企业用户和个人用户都选择了公有云平台,而且越来越多的企业和个人用户都转向公有云平台,说明用户是认可公有云平台的可用性,安全性和可靠性的。这是大势所趋。一起事故引起了如此广泛的讨论,也从侧面证实了公有云广泛的用户基数和影响力。
传统备份容灾方案的问题
备份容灾的产品和方案,依旧是传统厂商的阵地。他们产品丰富,覆盖面广。相比较而言,其他云厂商在这方法的投入与产出显得比较薄弱。在我们看来,传统的备份容灾产品主要有两大问题:
1. 非云原生:对于公有云用户来说,云上的备份容灾生态不够健全。即使将传统厂商的备份和容灾软件成功部署,也很难与所在公有云现有的资源一起做到无缝监控与运维。另外,非云原生的备份容灾会给用户带去潜在的风险。即使一些备份容灾产品已经与公有云一些产品对接,但是面对公有云厂商的产品和功能的快速发布与升级,传统厂商依旧无法做到第一时间的响应与支持,用户也就失去了第一时间享受新功能和一些性能提升的机会。最后,云厂商内部众多产品也有内部协调,传统厂商的产品无法实现这一点。对于专有云(私有云)和混合云场景的用户,存在同样的问题。
2.价格昂贵,部署复杂:传统备份容灾产品面向的依旧还是传统服务器和存储构建的生态。一台或多台设备的部署,方案的设计,以及按节点和容量的付费模式,一次性的投入对于中小企业是个沉重的负担。设备过保或者授权过期后的维护成本有时候比初期投入还要昂贵。
用户的问题就是我们的责任。除了提高每个独立产品的可靠性和运维保障之外,如何提供高性价比,易用和高效的灾备方案,也是每个公有云厂商义不容辞的义务。越来越多的公有云用户,则意味着越来越强的灾备需求。阿里云混合云存储团队的云存储网关,混合云备份和混合云容灾产品能够给用户提供完备的容灾方案,从而解决客户本地IDC到阿里云的混合云灾备场景和其他云厂商平台到阿里云的跨云灾备(多云灾备)场景所遇到的问题。本文侧重梳理混合云存储团队这三个产品是如何应对跨云灾备(多云灾备)场景。
基于混合云备份的跨云备份架构
基于混合云备份的跨云备份实施
在这一章节,通过两次备份和一次恢复来演示混合云备份是如何备份用户云主机上的文件,备份增量数据和恢复用户数据的。让大家对于混合云备份有一个直观的认识。
为了端到端的演示,我们从国内另外一家知名的云厂商T那边申请一台虚拟机,用它来模拟用户服务器。该云主机配置如下图所示:双核4GB内存,50G系统盘,100GB数据盘,内网和公网带宽分别为1.5Gbps和50Mbps,操作系统为64位CentOS 7.4,所在区域为上海。服务器配置
服务器数据盘内容
数据库数据文件
日志文件
然后,需要登陆阿里云控制台,进入混合云备份页面开启服务,并创建备份。此处需要注意一点:出于备份性能和效率的考虑,混合云备份的区域最好是跟备份源端所在的区域一致或靠近。所以,混合云备份的区域也是‘华东2-上海区’。
选择区域并开通混合云备份
选择区域并创建备份
创建完备份及备份库之后,我们需要下载客户端和证书。客户端是需要上传并安装在备份源端,也就是之前我们创建的那台云主机上。
完成创建并下载客户端和证书
将下载完成的客户端软件上传至备份源的云主机上,解压并安装。
上传并安装备份客户端
安装完成之后,在浏览器上打开这个URL:http://<云主机公网IP>:8011。这里需要注意:云主机的安全组很可能没有开启8011端口,需要用户编辑安全组规则,开放TCP: 8011端口。之后,会弹出备份客户端的注册页面。需要用户输入之前下载的证书(注册和连接备份源和备份仓库的钥匙),阿里云账号的AK认证信息和用户自己设定的客户端登陆密码。因为备份客户端和阿里云的云备份库之间是通过公网连通的,所以网络类型选择‘经典网络’。
备份客户端注册页面
注册成功之后,用户就能看到客户端备份页面。该页面是用户创建备份和恢复数据的入口。可以先创建一个立即备份(立即备份可以理解为单次备份,只执行依次;计划备份是按用户定义的排程,周期性的执行备份)。这里,我们选择‘立即备份’来单次备份/server_dir目录。
创建备份
提交之后,备份就会立即执行了。在备份客户端页面,用户就能看到备份进度及其他相关信息。
备份进度
当备份正在执行的时候,有很多用户会很关心一个问题:备份会不会影响备份源端的正常业务?我们可以通过源端的资源监控来查看备份进行时,CPU,内存和网络使用情况。可以看到,当备份开始执行的时候,CPU负载并没有增加,内存使用增加了400MB左右。对服务器的资源占用并不多。网络带宽迅速被打满,体现了混合云备份服务的高性能特点(注:云主机只有一块网卡,所以内外网流量相同。暂且理解为该云厂商就是这么设计的)。
在备份时云主机的资源使用情况
接下来,向server_dir目录中增加一个新的目录,里面包含了不同的13GB文件,并在‘流量控制’页面对备份任务做限流处理:24小时限流,最大速度为2MB/s。记得点击‘添加’将限流策略生效。
新增13G文件
备份限流
提交之后,备份任务执行。可以看到备份总量为57GB,但备份进度很快就显示79%,速度超过了1.5GB/s。这是因为备份源目录中,有超过45GB的文件是已经备份过的。混合云备份通过高效的比对算法快速甄别出两次备份集中的差异部分,将新增文件和有变化的文件增量备份至云上,从而提高了备份效率。
增量备份
看到备份速度显示1.56GB/s,肯定很多人会有疑问:限流有没有起作用?让我们来检查一下,流量控制是否生效。在云主机的资源监控和主机上的nload输出,可以很直观的看出,16Mbps就是2MB/s的出网速度。CPU利用率有一个很短暂的高负载阶段,那是因为在比对增量文件时,主机付出的计算成本。
云主机资源监控
主机nload输出
两次备份完成之后,我们在阿里云控制台的混合云备份页面,也能够非常直白地看到备份概要的信息:2次成功的备份,总的源数据和实际占用备份库的数据。原始数据和实际占用有一个比例,代表了压缩重删比。阿里云混合云备份实现了高效的压缩重删算法,最高可达1:30,从而大大节约备份时的带宽占用和备份库的空间占用。
备份库信息
最后,我们来演示一下混合云备份是如何实现跨云恢复文件的:将备份库中的文件恢复到其他云厂商的主机中。我们模拟用户丢数据的场景,将db_file和server_log目录全部删除。
删除文件
回到混合云备份服务的恢复页面,我们可以看到之前成功备份的两次记录,以及相关信息。
混合云备份恢复页面
点击最近一次备份记录的‘恢复’按钮来恢复最近数据。弹出的数据恢复页面,可以指定将哪些备份文件恢复到哪个目标目录中。很容易理解。这里需要注意一个细节:肯定会有很多用户在目标文件夹这里写上跟备份文件夹一样的路径,然后选上‘所有文件’之后,实际恢复的时候会在‘/sever_dir/’下面再创建一个’sever_dir’目录。当然,这不会影响什么,只是在恢复完成之后,再做一些目录的移动操作就可以了。
简洁灵活的恢复策略
点击‘提交’之后,就能看到数据恢复页面。可以看到恢复的性能,数据量和文件数统计。恢复性能比之前备份性能好,可能是因为云厂商T对写入带宽放的比较宽。可以看到,恢复性能还是非常好的。瓶颈应该是在该云主机100GB云盘的写入性能上。
数据恢复
同样的,用户也可以通过在云主机上查看网络流量的方式来确认的文件恢复的速度。
恢复性能
等恢复完成,用户可以在客户端的恢复页面看到恢复成功的状态。
恢复完成
通过登陆云主机,我们也看到被删除的2个目录被恢复回来了。并且,元数据也被完整恢复了。
恢复后的文件目录
小结
通过以上三个用例,用户可以很直观地了解到混合云备份在跨云或多云场景中是如何按需和按时地高效备份和恢复文件了。批处理一键安装和注册备份客户端可轻松支持多台云主机的文件备份场景,这对于企业用户保护多台主机的文件非常便捷。
最后,混合云备份客户端已经支持全版本的Windows操作系统(32位和64位)及主流的Linux发行版(32位及64位)。对MacOS的支持也会在近期发布。有兴趣的企业和个人用户,可以到阿里云官网上开通混合云备份并使用!