【最佳实践】如何通过OSSimport工具将线下数据迁移至金融云OSS?

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
日志服务 SLS,月写入数据量 50GB 1个月
简介: 1. 当前存在的问题: 金融云由于等保要求,不能直接将闪电立方设备寄送到金融云机房。因此,我们还不能通过闪电立方的方式直接迁移数据至金融云OSS。但是金融云提供了另外一种类型的Bucket-金融云公网Bucket。
+关注继续查看

1. 当前存在的问题:

金融云由于等保要求,不能直接将闪电立方设备寄送到金融云机房。因此,我们还不能通过闪电立方的方式直接迁移数据至金融云OSS。但是金融云提供了另外一种类型的Bucket-金融云公网Bucket。金融云公网Bucket类似于公共云,能够被互联网直接访问。因此,是否可以借助于金融云公网OSS进行中转?

2.总体思路:

由于金融云内网只能在金融云内部访问。外部互联网无法访问。但是金融云公网Bucket类似于与公共云的OSS,允许VPC以及经典网络以及互联网访问。因此我们的思路是在金融云内部搭建1个ECS服务。该ECS服务是能够访问金融云内网Bucket,同时该ECS也是能够访问金融云公网OSS。
注意:金融云的ECS可以直接访问互联网,但是互联网的end user是不能直接访问金融云内部ECS的。需要通过SLB中转。

此处我们的思路是这样的:

  • 创建金融云ECS,同时创建金融云内网OSS;
  • 在该金融云ECS上部署ossimport工具,通过ossimport工具将金融云公网Bucket内容 迁移至 金融云内网Bucket;

说明:

  1. 测试环境下:该方式的单台ECS迁移速度可以达到50MB/s;
  2. 若实际测试环境速度达不到客户要求,可以创建多个ECS服务器,然后集群版ossimport,
  3. 说明:整个迁移过程都不走公网,不会产生流量费用!!!

3.演示示例:

如下的示例均是基于这个场景,实际配置过程中请根据实际客户场景进行修改;

•    ECS 服务器:ubuntu16.04
    - ECS endpoint: 华东2金融云
•    金融云内网OSS: (目的端)
    - Bucket名称:test-shagnhai-finane-in
    - Endpoint: oss-cn-shanghai-finance-1-internal.aliyuncs.com
•    金融云公网OSS:(源端)
    - Bucket 名称:test-shanghai-finance-pubb
    - 内网Endpoint:oss-cn-shanghai-finance-1-pub-internal.aliyuncs.com
    - 外网Endpoint:oss-cn-shanghai-finance-1-pub.aliyuncs.com

3.1 Step1:在上海金融云开通部署ECS

1.下载ossimport(此处下载ossimport集群版):

a) 命令:wget http://gosspublic.alicdn.com/ossimport/distributed/ossimport-2.3.2.tar.gz?spm=a2c4g.11186623.2.1.9EPlFR&file=ossimport-2.3.2.tar.gz
b) 解压 ossimport;tar -zxvf ossimport-2.3.2.tar.gz
c) 修改 worker,job.cfg以及sys.properties文件。
d) 注意worker中 master的ip写在第一行
e) 详细安装部署请参考:https://help.aliyun.com/document_detail/56990.html?spm=a2c4g.11186623.6.1109.d6a1pD

3.2Step2:安装ossimport

1.安装示例:安装示例

安装说明:安装过程中有可能提示任务无法执行,那是因为默认ubuntu没有安装java,请手工安装default-jre;
Job.cfg文件配置:源与目的endpoint 均请填写内网二级域名(注意,不要写外网域名!!!!

3.3Step3: 在master节点上运行

1. 在master运行: bash console.sh deploy
2. 提交任务: bash console.sh submit
3. 启动服务:Linux终端执行 bash console.start
4. 查看任务状态: bash console.sh stat
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
存储 数据采集 运维
Alibaba Cloud Lens for OSS最佳实践
——其冀 阿里云智能产品专家
Alibaba Cloud Lens for OSS最佳实践
|
SQL 分布式计算 关系型数据库
Hive 数仓迁移 JindoFS/OSS 数据湖最佳实践
Hive 数仓是大多数迁移客户都会遇到的场景。在迁移过程中,不建议同时在新集群进行业务升级(比如从 Hive on MR 迁移到 Hive on Tez 或 Spark SQL等),这些业务升级可以在迁移完成后进行。1. 元数据同步Hive 元数据是对于 Hive 表来说非常关键,除了表结构信息,里面还记录着 Hive 表与底层文件系统的关联关系,许多上层服务都依赖 Hive 元数据提供服务。a.
486 0
|
存储 SQL 机器学习/深度学习
OSS加速器最佳实践-总述篇
OSS加速器最佳实践(总述篇)本最佳实践提供OSS加速器相关的信息和适合的场景,面向对oss和数据湖相关技术有一定了解的开发者。     大家可以通过这俩篇先做一些了解相关文档:《配置OSS加速器》https://help.aliyun.com/document_detail/190726.html《OSS加速器介绍》https://developer.aliyun.com/article/780
OSS加速器最佳实践-总述篇
|
对象存储
云速搭部署OSS及资源包最佳实践
本实践通过云速搭设计一个 OSS 的架构,通过 OSS 提供的路径可以下载相应的文件。
云速搭部署OSS及资源包最佳实践
|
存储 SQL 大数据
数据湖实操讲解【数据迁移】第四讲:如何将 Hive 数据按分区归档到 OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md
数据湖实操讲解【数据迁移】第四讲:如何将 Hive 数据按分区归档到 OSS
|
存储 弹性计算 分布式计算
数据湖实操讲解【数据迁移】第三讲:如何将 HDFS 海量文件归档到OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md
数据湖实操讲解【数据迁移】第三讲:如何将 HDFS 海量文件归档到OSS
|
存储 分布式计算 算法
数据湖实操讲解【数据迁移】第二讲:数据无忧 - 利用 checksum 迁移 HDFS 数据到 OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md
数据湖实操讲解【数据迁移】第二讲:数据无忧 - 利用 checksum 迁移 HDFS 数据到 OSS
|
存储 分布式计算 资源调度
数据湖实操讲解【数据迁移】第一讲:高效迁移 HDFS 海量文件到 OSS
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~
数据湖实操讲解【数据迁移】第一讲:高效迁移 HDFS 海量文件到 OSS
|
Java Shell 数据处理
kubernetes部署OSS跨账号复制工具ossimport
生产环境的OSS上有很多数据需要同步到开发环境(帐号不同),每次使用复制很麻烦而且还占用流量。在serverless kubernetes上部署一个pod版的ossimport,实现内网增量复制。
518 0
|
存储 弹性计算 监控
OSS 解决方案篇-OSS 数据迁移
OSS 迁移数据有三种方式(ossutil、ossimport 、在线迁移服务)用户可以根据场景自由选择
7893 0
OSS 解决方案篇-OSS 数据迁移
相关产品
对象存储
推荐文章
更多