OSS无缝数据迁移方案

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 背景 众所周知,云计算的出现改变了IT世界的格局,更低廉的成本和更加易于扩展的特点都成为了传统软件行业改变的动力。而阿里云在此基础上提供了更加完善的服务,更高的可靠性,以及更加低廉的价格,成为了业界值得优先考虑的品牌。 如果您有成千上万的文档、图片、音视频文件需要上传到OSS上来,或者从其他的云

背景

众所周知,云计算的出现改变了IT世界的格局,更低廉的成本和更加易于扩展的特点都成为了传统软件行业改变的动力。而阿里云在此基础上提供了更加完善的服务,更高的可靠性,以及更加低廉的价格,成为了业界值得优先考虑的品牌。
如果您有成千上万的文档、图片、音视频文件需要上传到OSS上来,或者从其他的云存储产品上迁移过来,如何才能应对规模如此庞大的数据迁移,如何处理迁移过程中业务上的新增数据?
OSS有一套完整的无缝数据迁移方案可以帮您解决这些问题。

方案

整个迁移过程分为下面几个步骤:

  • 配置Bucket回源属性,配置好数据在OSS读取miss之后回源的地址。配置好之后如果访问某Object miss的时候你的客户端可以根据OSS返回的302重定向去配置的地址读取文件。
  • 配置迁移工具,从源端向OSS迁移数据,这一步不影响您的业务,异步的从源站将数据搬迁到OSS。
  • 数据搬迁接近完成的时候,将业务上的读写从之前的源站切换到OSS。
  • 等待迁移工具从源搬迁完所有的老数据(这种场景下如果您的业务有对数据的覆盖写是需要注意的,可能会造成老数据覆盖新数据)

如上所说,我们有两种方式Bucket回源属性可以做到无缝迁移,即镜像和重定向:
oss_import_mirror

上图是“利用镜像做无缝数据迁移示意图”,图中带有数字标记的箭头就是数据访问miss时的数据流向。在镜像回源的方式下用户访问OSS如果Object miss,那么OSS会替用户从源站读回文件,并写入到OSS,这样一来,如果用户的请求可以遍历所有的文件,那么这个异步的迁移过程其实是可以省略掉的(当然,这也会带来一些新的问题,后文我们会提到)。

oss_import_mirror

上图是“利用重定向做无缝迁移示意图”,图中有数字标记的箭头就是数据访问miss时的数据流向。在配置重定向回源的方式下,如果Object miss,那么需要您的客户端去源站去读取一次数据。这就要求您的客户端要能理解http协议中的3xx重定向语义(OSS的重定向回源是通过3xx重定向来实现的)。需要注意的是,在这种回源方式下,OSS不能自动帮用户搬迁数据,用户的数据必须依靠迁移工具/服务来异步的搬迁到OSS上面来。
图中也能看到在这种场景下配合CDN一起使用,那么文件会cache在CDN上,无需每次miss之后都回源站读取,也是一种减少延迟、节省源站流量的方式。如果不使用CDN,那么就需要用户自己完成回源站读取数据的过程。

纵观上面的两张图,在您配置Bucket的回源属性之后,再开启数据迁移过程,在业务数据大部分都搬迁到OSS之后,再将整个业务的读写全部切换到OSS。这个时候回源功能就能帮您处理那些尚未搬迁过来的数据,无需停服,无缝衔接。等到所有的数据都搬迁完毕之后就可以关闭回源,停掉数据迁移,整个向OSS迁移数据的方式就完成了。

使用建议

  • 如果要迁移的文件较少,建议配置镜像回源的方式,按照文件列表逐一访问OSS,OSS会把所有的文件从源站读取出来,回写到您的Bucket,这种方式是一个最简单的迁移方案。
  • 如果需要迁移的文件量比较大,或者文件的大小比较大,那么由于镜像回源的方式带宽有限,依靠这种方式来搬迁数据可能会花费比较长的时间,影响您的使用体验,建议使用“重定向回源+迁移工具/服务”的方式,如果Object miss,直接让客户端从源站读取数据,由迁移工具/服务来异步的搬迁数据,不影响您的服务。
  • 如果您的业务对延迟比较敏感,建议在大部分数据迁移完成之后再将业务切到OSS上来,否则像文章开头的两张图中所示,如果数据访问miss的话,用户的请求都会经过一个比直接访问OSS上的Object更长的过程,这一过程会增加访问延迟,可能会降低您的用户体验,所以这个重定向或者镜像的数据比例要控制的尽可能小一些。

配置步骤

本部分主要包含Bucket回源属性的配置,以及迁移工具/服务的使用方法。

配置Bucket回源属性

要配置Bucket的回源属性,要在Bucket属性的“回源设置”里面添加规则。如下图:
how_to_set_bucket_attribute

这里的规则分为两种:镜像回源和重定向回源。

  • 镜像回源:用户访问OSS上的Object,如果文件不存在,就按照镜像回源里的Url向源站去取数据,回写到OSS,回写完成之后Object就自动搬迁到了OSS上面,下一次访问就不会再出现Object不存在的情况。
  • 重定向回源:用户访问OSS上的Object,如果文件不存在,按照配置向用户的客户端返回一个302重定向跳转,用户客户端从配置的源站读取数据,这种方式下OSS不会从用户的源站拉取数据回来回写到OSS,下一次访问仍然会向用户客户端返回一次302重定向跳转,直到用户自己把这个Object写入到OSS为止。

下图为如何配置镜像回源:
mirror
图中可以看到镜像方式只支持http code设置为404这种方式,也就是我们所说的访问Object miss的情况下才会去做镜像。

下图为如何配置重定向回源:
url_rewrite
重定向回源中回源条件中的http code可以设置400-599之间的错误码,但是在用回源实现无缝迁移的时候这个地方要填成404。其他的选项依照您的实际情况使用。

使用迁移工具/服务

  • 迁移工具可以将您本地或者第三方云存储服务上的文件同步到OSS上。
    我们的迁移工具有以下主要特性:

支持将本地、OSS、七牛、百度对象存储、金山对象存储的文件同步到指定OSS Bucket上
支持存量数据同步(允许指定只同步某个时间点之后的文件)
支持增量数据自动同步
支持断点续传
支持上传/下载流量控制
支持并行list和并行数据下载/上传

迁移工具Linux平台使用说明
迁移工具Windows平台使用说明

  • 迁移服务。如果您有较大量级的数据,并且期望在较短的时间之内迁移到OSS上,除了迁移工具之外,我们的专业技术人员还可以为您提供多机器并行同步方案,请加旺旺群:904193608联系我们。
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
《阿里云 JindoFS+OSS 数据上云实战》下载
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
107 5
《阿里云 JindoFS+OSS 数据上云实战》下载
|
存储 SQL Kubernetes
PolarDB-X on OSS冷热数据分离开源版正式发布
本文作者:燧木、七锋架构简介PolarDB-X 采用 Shared-nothing 与存储分离计算架构进行设计,系统由4个核心组件组成。计算节点(CN, Compute Node)计算节点是系统的入口,采用无状态设计,包括 SQL 解析器、优化器、执行器等模块。负责数据分布式路由、计算及动态调度,负责分布式事务 2PC 协调、全局二级索引维护等,同时提供 SQL 限流、三权分立等企业级特性。存储节
PolarDB-X on OSS冷热数据分离开源版正式发布
|
存储 SQL Kubernetes
[版本更新] PolarDB-X on OSS 提供冷热数据分离存储
4月底,PolarDB-X正式发布2.1.1 版本,重点推出冷热数据新特性,可以支持业务表的数据按照数据特性分别存储在不同的存储介质上,比如将冷数据存储到Aliyun OSS对象存储上。
10663 0
[版本更新] PolarDB-X on OSS 提供冷热数据分离存储
|
存储 SQL JSON
降本增效——日志入湖OSS的存储格式选型
日志数据入湖中的场景多样,有做日志数据归档以低成本留存,有导出数据做BI或者报表,有的是用计算引擎进行计算分析。日志服务(SLS)集成了数据入湖投递到OSS中的功能,根据SLS现有能力如何选择不同的存储格式来降本增效
569 0
降本增效——日志入湖OSS的存储格式选型
|
存储 安全 API
【OSS】从AWS S3上的应用无缝切换至OSS
OSS提供了S3 API的兼容性,可以将您的数据从AWS S3无缝迁移至阿里云OSS。
967 0
【OSS】从AWS S3上的应用无缝切换至OSS
|
存储 分布式计算 资源调度
数据湖实操讲解【数据迁移】第一讲:高效迁移 HDFS 海量文件到 OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~
数据湖实操讲解【数据迁移】第一讲:高效迁移 HDFS 海量文件到 OSS
|
存储 弹性计算 监控
OSS在线迁移服务剖析
在前迁移说明 目前由于 OSS 数据迁移服务涉及到对目标的 OSS 要有很多 action 的 API 授权,为避免用户产生过多的学习成本,我们直接强制使用主账号进行迁移; 该服务正在公测中,目前仍在免费使用阶段;服务使用需要提前工单申请账号 UID 加入白名单; 在线迁移分类 离线迁移:这里.
OSS在线迁移服务剖析
|
存储 容灾 对象存储
阿里云OSS同城冗余存储技术解析
近年来,面对数字化转型带来的挑战,越来越多的企业开始将关键业务系统上云,也有更多的业务创新在云上,帮助企业实现业务增长,这些数据已经成为企业最重要的资产、资源。对于企业来说,如何确保宝贵的数据资产不丢失,不因为数据的原因影响业务的正常访问,一直是数据面对的重要挑战。
508 0
阿里云OSS同城冗余存储技术解析
|
安全 对象存储
阿里云基于OSS的云上统一数据保护方案2.0正式发布
数字经济时代,云已经成为数据经济IT新常态。那么上云之后,数据还安全吗?近日,阿里云正式发布基于OSS的云上统一数据保护方案2.0,针对业务上云后数据保护所面临的挑战,提供多层次、全方位的数据保护解决方案,让您业务上云,数据无忧。
1179 0

相关产品

  • 对象存储