如何迁移 OSS 的文件_3|学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习如何迁移 OSS 的文件_3

开发者学堂课程【管理功能玩转对象存储 OSS 使用入门如何迁移 OSS 的文件_3】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/378/detail/4746


如何迁移 OSS 的文件_3

 

内容介绍

一、通过 API/SDK 拷贝文件

、通过 oss-import 工具迁移

、通过云市场服务迁移


一、通过 API/SDK 拷贝文件

1、概述

将同一数据中心的 bucket 上的数据进行迁移可使用 Copy0bject和 UploadPartCopy 实现。通过 API 或者 SDK 拷贝文件方式的使用场景是如果用户的源数据端和目标数据端是属于统数据中心的 bucket,用户可以通过 API 或者 SDK 的 copy object 或者uploadpartcopy 两个接口来实现文件的拷贝

2、区别

如果是 1GB 以下文件采用 CopyObject  (超过该大小会返回400和错误提示: EntityTooLarge ) ,超过该大小的则使用 UploadPartCopy。

3、演示

具体两个接口的使用方法与前述的 putobject 以及 uploadpart 示例代码使用方法相同,建议可以参考前述的示例代码进行操作。

4、优缺点

(1)优点:速度较快因为本方法使用的场景是源数据端和目标数据端是同一数据中心的 bucket ,因此本方法是可以采用内网进行通讯的,这里需要在 endpoint 地方指定为内网地址,用户即可享受千兆带共享带宽进行传输,而且切点也是用户需要自行实现迁移逻辑,包括便利源数据端的 bucket 中的所有 object,以及调用对应的迁移接口来进行数据迁移。

(2)缺点:操作复杂这里需要特别提醒的是,为了降低方法的使用难度osscmd 可以更加方便的实现本方法的操作 osscmd 中提供了 copy 以及 copybucket 的两个接口进行操作,其中 copy 主要是指 copy 具体的 object , 而 copy bucket 则可以将整个 bucket 下所有的 object 进行迁移,来实现整个 bucket 的数据的进行传输。其中在设置 copybucket 的时候可以选择 perfect,就可以指定 bucket 下特定的文件夹进行传输,以提高用户的使用范围。

 

二、通过 oss-import 工具迁移

1、概述:

oss-import 工具是阿里云官方提供的 oss 迁移工具,用户可以通过阿里云的官网进行下载。oss- import 可将用户本地或者其他云存储的文件迁移到 OSS 中。

2、演示:

(1)下载:首先登录阿里云的官网,点击开发者社区,帮助文档,在其中寻找到 oss ,点击周边工具,点击官方迁移工具,可以看到 ossimport 提供了两种主流的操作系统对应 SDK 

(2)安装:这里以 windows 平台的使用方法为例,在工具部署下面点击进行下载,可以得到对应的 oss import 的压缩包,得到 oss import 的压缩后,可以对其进行压,得到其文件夹。打开文件夹可以查看到其主要包含的子文件,其中几个比较重要的子文件分别是Bin目录会包含所有 oss import 需要的对应的 java 包。 conf 则包含了 oss  import 的配置文件,用户需要在对应的配置文件中,按照自己的业务场景需求对其进行配置,以满足自己的迁移任务的需要。Logs 后续会记录所有 oss import 的迁移任务的相关细节的日志,键导入的处理文件则是启动 oss import 的入口。

配置:配置 oss import 以满足用户的需求。首先进入 conf 文件夹,点击 local-job.cfg 文件,打开配置文件,可以查看到该配置文件中有众多的配置项,用户可以根据自己的需求进行配置,这里仅对其中重要的几项进行讲解, jobtype 则主要制定了 job 的类型,这里 type 可以分为两种,一种是 import ,一种是 audit。 Import 则指定了从源数据端同步数据到目标端的 oss ,而 audit 则会校验源数据端的数据和目标端的oss 的数据是否一致。两个参数incremental  incrementalmodelnterval 则主要只设定为增量模式, incremental 设置为主的时候,系统会以 incrementalmodelnterval 的时间间隔来对源数据端进行扫描,如果源数据端存在有增数据,就会将其增长数据同步到 oss 建议用户不要把 incrementalmodelnterval 设置太小否则会对源数据端造成太大的负载srctpe 指定了同步源的类型目前支持 ossqiniubaidulocal 本地文件,srcprefix 如果源数据指定的是本地文件用户需要设置本地路径如果是其他类型而对应的是其他文件的前缀名。Destaccesskeydestsecretkey 则指定的目标段 bucket 所属账号的 access ID 和 access secretdestdomain 指定的目标端 bucket 所属的 endpoint用户需要根据自己购买的endpoint 所属地域来进行设置而源数据端和目标数据端属于同一个数据中心可以使用 oss 的内网地址destbucket 指定了目标端的 bucket 名称destprefix 指定了目标端文件包含的前缀在配置完成本配置文件后用户即可通过一键导入.bat 启动 oss import测试 import 工具的导入功能,可以查看到点击一键导入后,系统会生成两个 cmd 窗口,其中第一个cmd窗口则是显示整个 job 的状态,它会以每10秒钟打整个任务的一个状态,而右边的 cmd 窗口则会显示每一个上传文件所属 test 的状态,在上传文件的过程中,用户请不要关闭两个窗口,否则会导致上传过程中出现异常。这里一个小的上传操作为示例来查看。可以查看到左侧窗口已显示所有任务成功完成,同步执行结束。这时候所属的 oss import 的上传操作即已完成。

3、优缺点:

(1)优点:兼容 windows/linux 系统:配置简便:提供动态配置参数

方便用户结合自身场景进行迁移;支持多处数据来源设置。

(2)缺点:操作复杂,无法普适所有用户场景。

 

三、通过云市场服务迁移

1、概述:

云市场提供了海量数据迁移到 OSS 的功能,用户可以购买该服务有第三方实现迁移数据的功能。

2、演示:

海量数据迁移至 0SS 服务。点击进入云市场,可以查看到对应的数据迁移产品,用户可以选择自己对应的数据规格并查看到其对应的金额。另外在下方的产品介绍中,详细罗列的服务内容、服务流程以及客户需要做什么,已完成整治数据迁移的操作,用户可以在该页面中详细的查看该产品的数据迁移的过程

3、优缺点:

(1)优点:操作便捷,速度较快

(2)缺点:需要费用花销

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之上传素材文件不在同一地域的OSS,怎么上传多张图片
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
49 1
|
4月前
|
存储 运维 Serverless
函数计算产品使用问题之OSS触发器是否可以只设置文件前缀
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
5月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在使用MaxCompute进行数据集成同步到OSS时,出现表名和OSS文件名不一致且多了后缀,该如何处理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
运维 Serverless 对象存储
函数计算产品使用问题之如何配合OSS实现接口收到的图片或文件直接存入OSS
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
5月前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之使用OSS读取CSV文件到ODPS时遇到报错,一般是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之在调用接口传入的图片URL参数,文件在本地或者非上海地域OSS链接,该怎么办
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
Java 对象存储 Perl
oss迁移以及校验
oss的数据迁移以及一致性校验
2394 0
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。