开发者社区> 黄小凡> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

上云迁移-海量数据迁移解决方案

简介: 传统数据存储在线下数据中心,存在成本高、运维难、性能难保障等等多方面的问题。阿里云提供闪电立方、OSS/NASImport、混合云存储阵列、镜像回源、302跳转、伪源站等六大解决方案为企业提供不同场景的海量数据迁移解决方案。
+关注继续查看

摘要:传统数据存储在线下数据中心,存在成本高、运维难、性能难保障等等多方面的问题。阿里云提供闪电立方、OSS/NASImport、混合云存储阵列、镜像回源、302跳转、伪源站等六大解决方案为企业提供不同场景的海量数据迁移解决方案。


存储和数据迁移的挑战
在传统企业服务中,大多数企业都是自建IDC,因此经常会遇到各种各样的问题,第一是成本高,机器成本、网络成本、人工成本,软件授权费用,公网内网费用,IDC租用费用等等。第二是运维很难,经常随着数据的积累,硬盘故障,服务器故障,网络故障,软件故障,IDC故障,用户投诉,整个运维难度成指数增加,体验非常差。第三是性能难保障,数据可靠性,服务可用性,功能先进性,安全性。随着业务的发展,以前的存储系统很难满足业务的发展、功能和性能的发展。因此向云迁移是数据存储的未来趋势。

a58331300a118be55d7e49f140de64df3b281dae 

阿里云存储有很全的产品家族,包含块存储、文件存储、对象存储、归档存储、表格存储等等。每一项都可以分很多子项。因此运维也不像以前那么难,可以做到代码改动上云、安全免运维(不用关注细节)、三步开通(开通-使用-付费)、一键备份等等,非常简洁方便。阿里云存储在全球有19个节点,可以做到全球写、全球读,目前在国内是最强的。


阿里云存储海量数据迁移解决方案
对于数据迁移来说,一般分为以下五个步骤:
1、评估现有的业务情况。做迁移之前,一定要把业务的情况了解清楚,比如:现有存储的总体IO、总吞吐、网络总带宽、已用带宽。
2、评估可用资源。存储集群可用吞吐、IO、可用稳定网络带宽、预留安全水位。
3、迁移前准备。根据评估状况制定迁移方案,计算需要的部署闪电立方Agent的集群数量和NASImport集群数量。
4、开始迁移。部署迁移集群,监测迁移状态,失败文件重试。
5、迁移结束。检查迁移文件数、校验迁移文件正确性。
在向云迁移海量数据的过程中,因为非结构化的存储比结构化的存储有更多的数据格式类型。对于非结构化的存储,没有办法知道有多少数据类型和文件系统,也有一些本地的大数据相关的对象存储,这样的对象存储,接口不一样,实现功能也不一样,因此对于非结构化的存储迁移需要更多的组合方案。阿里云提供了离线迁移的方案,叫闪电立方。同时也提供了海量数据在线迁移基于OSS/NASImport的在线迁移工具,针对不同的互联网产品,也提供了各种迁移服务,比如混合云存储阵列、镜像回源、302跳转、伪源站等等。下面分别介绍这六种解决方案。
在线迁移神器OSS/NASImport
1873161282554105f825721d57e963944f62c120 
Import工具是一款全在线的海量数据迁移工具,通过部署到服务器或者ECS机器,可以快速、安全稳定的将数据迁移到阿里云存储。它有如下特点:
1、支持多种源站,多种数据接口,可定制开发.
2、全在线服务,无缝迁移。
3、支持存量数据同步和增量数据自动同步。
4、支持断点续传,失败任务重传。
5、支持上传/下载流量控制。
6、支持多任务,并行数据下载/上传。
7、支持上传结果校验。
8、可视化监视界面。
离线迁移神器闪电立方
f68a54e65ad829bb20f00cab3a5ff10d08f09b9e 
除了在线迁移之外,闪电立方是阿里云2017年发布的一款离线迁移神器,闪电立方实际上是一台服务器,它有如下特点:
1、军工级物流密码保护箱。
2、双控制器,支持双电源。
3、企业级SAS硬盘,Raid6数据保护。
4、AES256 对称加密,MAC认证。
5、客户保管密码 SHA256(可选)。
6、支持压缩去重。
7、确认迁移完成后,数据合规擦除。
8、单套支持每次迁移480TB。
闪电立方就像一个超大的U盘,可以直接把闪电立方插到机房,然后把数据迁移到闪电立方,再通过专业传输物流上传到阿里云机房即可迁移成功。
混合云存储阵列
91c6b1be875c4b3c31a564a13310df53e5fedffd 
OSS/NASImport和闪电立方这两种方案基本上在数据迁移之后,企业会放弃自己的机房,然而对于想混合使用的原有机房和云上资源的情况下,阿里云也有解决方案,就是使用混合云阵列,使用场景有企业数据云端拓展、企业数据云端同步、备份数据云端异地灾备等。它的核心功能是提供丰富的设备端协议支持,原有应用无需修改,提供端到端的数据加密机制,数据自动分层,高性能的数据上云能力。有缓存和同步两种模式,数据支持端到端的压缩、去重、加密,还支持多版本快照、数据自动分层。
OSS镜像回源
1b62475a96a343e2410027a1363320d98e0b7188 
另外有一些互联网业务,完全不能停机迁移的,阿里云也提供两种迁移方案,第一个是OSS镜像回源,功能是把所有的访问先切到OSS上面,然后配置好镜像回源的地址,用户访问OSS的时候,OSS会主动回源到主站。
302跳转
另外一种方案,不需要把所有数据迁移到OSS数据,比如热点数据,我们提供302跳转功能。当用户通过CDN访问OSS的时候,即使OSS没有数据,只要打开302跳转功能并且配置好回源地址,OSS会主动的把回源地址返回给CDN,然后CDN会拿到地址再回源到源站拿到数据返回给用户。这两种是完全在线迁移,对互联网业务和增量数据迁移是非常好用的。
伪源站
a85981995b978e453c3d27a91769fd7d76a686c4 
如果企业有多个源站,可以使用伪源站在线迁移,把伪源站和真正的源站进行隔离,由伪源站去拿数据。伪源站相当于替代源站,去把所有的业务处理完以后,再把数据上传到OSS,这在互联网业务分发应用的非常广泛。
ee9e7b04811d9942290ec4f8ee6e3e8fa07f90be 

以上介绍的6个方案适用于不同的应用场景。对于非结构化的数据来说,数据类型太多、数据量大小也不一样。例如像闪电立方,最适合做离线迁移,即使数据量上百TB,但前置条件是本地IDC要有足够的内网带宽和机架提供给闪电立方。例如像镜像回源,用户访问OSS的时候,如果文件特别大,再去源站拿数据的时候,访问速度就会非常慢,所以镜像回源适合小规模的文件迁移,例如图片、短视频等等。


客户实践
dc0eb7bc71fa2199bf87c0cc2971bc11b809608b 
某企业业务全是互联网业务,经过日积月累,数据已经达到上百TB,并且数据中心分布的非常广,在各地都有,而且每个数据中心网络条件不一样,存储机器也不一样,所以非常纠结是不是需要上云。阿里云给客户做了一套比较完善的“离线+在线+互联网”迁移方案。因为他们的IDC机器非常老,网络环境又恶劣,没法跟OSS专线连通,成本过高,硬件支持不了这么大的带宽,所以阿里云做了一套闪电立方的专业迁移方案,多批次的搬迁。当第一批闪电立方上架之后,第二批马上准备,在第一批迁移完之后,第二批马上开始,基本上做到了每分每秒都在迁移,跟在线迁移同时完成。在迁移的过程中,也产生了一批增量数据,通过增量数据回源的方法,把增量数据也迁移进去。这是一个大型互联网公司数据迁移上云方案。
47225f9e2b72aa3d393edfd09d6dc1387534e81f 
另一个案例是一个传统的三甲医院的数据迁移方案,他们的存储机还在用,并且希望迁移过程中产生的增量数据只迁移一部分。阿里云也制定了一套完整的方案,其中关键点在于把客户所有的本地数据,通过闪电立方存储到OSS,再同时把混合云存储阵列部署到客户的机房,把剩余的增量数据同步到OSS里面。因为数据不是特别大,一个星期之内就迁移完了。目前,该上云的数据就上云,该在线下的数据依然存储在线下,自己的应用一点都不用改变。
68092cfcef20da00333fdb5d7c7fb3442f301c0e 

在存储迁移这个领域,阿里云积累了大量的经验。阿里云存储服务客户的数据达到了10EB以上,为100PB以上的客户从线下迁移到阿里云OSS,最多一天迁移5PB的数据。阿里云的迁移方案接口丰富、性能强大、稳定可靠、安全高效,支持在线、离线、纯互联网、传统企业的混合云模式进行迁移,将来会有越来越多的客户会把线下的数据迁移到阿里云存储。


本文由云栖志愿小组黄小凡整理

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
前一天数据偏移至当日数据
客户画像项目中可能会遇到此类问题,因为客户画像要求的是对单个用户信息的查询。 但倘若以日周期为准,今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示,要以前一天有数据的值为今日的值,就需要做case when处理。
747 0
海量数据迁移之数据加载流程
在之前的博文中分享了关于数据抽取流程的一些思路,整体来说,数据的抽取是辅助,数据的加载是关键。加载的过程中每一步需要格外关注,稍有偏差就可能造成数据的损坏或者丢失。
636 0
海量数据迁移之分区并行切分
在海量的数据迁移中,如果某个表特别大,可以考虑对表中的分区进行切分,比如某个表有100g,还有100个分区,那么可以考虑针对这100个分区,那么可以考虑把这100个分区看成100个表进行并行抽取,如果某个分区数据比较多,可能生成5个dump,那么着100个分区,就可能生成105个分区以上。
732 0
海量数据迁移之冲突数据筛查
对于数据迁移来说,无论准备工作准备的多么充分,在测试和正式生产环境中,心里还是会对冲突的数据有一些疑虑,心里感觉没底,因为生产的数据也是在不断变化的,要迁移的数据也在做相应的改动,在这样的环境中,其实数据抽取的工作还是顾虑比较少的,只要侧重考虑性能的提升,而在于数据加载的过程中,如果出现主键冲突的字段,不仅会严重拖慢加载的速度,关键对于这些数据的处理,让开发和dba都很头疼,开发需要dba来提供详尽的信息,dba则需要多个team之间进行协调。
876 0
海量数据迁移之外部表加载
在并行生成了大量的dump文件后,可以在目标环境上对数据进行加载,这个加载的过程时间极短,都基本可以在毫秒级完成。 由于在外部表的加载过程中需要知道表结构的定义,所以可以通过如下的脚本得到表定义的基本语句,输出和desc类似。
588 0
+关注
22
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载