非结构化数据迁移介绍|学习笔记

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习非结构化数据迁移介绍

开发者学堂课程【上云迁移实战非结构化数据迁移介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/514/detail/6857


非结构化数据迁移介绍


1、非结构化数据

什么是非结构化数据

图片1.png

非结构化数据是数据结构不规则或不完整没有预定义的数据模型,不方便用数据库二维逻辑来表示的数据。在实际生产中非结构化数据占整个数据构成的80%。

2、非结构化数据应用场景

(1)适用场景

文件: Word,PDF,电子合同

图片:注册用户资料图片,商品图片

音频,视频

(2)业务场景

网站商品图片存储容量 1PB

图片文件数量接近300亿

用户访问时需要动态生成缩略图

非结构化数据在生产环境下的实际需求

图片2.png

3、非结构化数据迁移

用户在阿里云上可以将非结构化数据迁移到 OSS 中

图片3.png

非结构化数据三种迁移方式可以通过 OOS 工具进行非结构化数据迁移,对于海量非结构化数据可以采用迁移服务,快速实现一体化数据上云迁移。对于有开发能力的同学还可以调用 OSS API 来实现非结构化数据的迁移。还可以通过 OSS 无缝迁移方案来实现非结构化数据的迁移。

4、OSS 常用工具及服务

图片4.png

ossfs 通过挂载 bucket 到本地文件系统,能够通过本地文件系统操作 OSS 上的对象,实现数据的访问和共享

备注

官方工具。支持 Linux 平台。

ossimport2 数据同步工具可以将本地或第三方云存储服务上的文件同步到 OSS 上。

备注

官方工具。依赖 JRE7 及以上。支持 Windows、Linux 平台。

OSS 控制台客户端 图像化界面工具,提供 Bucket 和 Object 的管理功能。

备注

官方推荐工具。支持 Windows、 Mac 平台。

OSS数据迁移服务 数据迁移定制化服务,将 TB 级别的数据快速迁移到 OSS 中。

备注

官方推荐服务。

5、什么是 ossfs 工具

ossfs 能让您在 Linux 系统中把 OSS bucket 挂载到本地文件系统中,您能够便捷地通过本地文件系统操作 OSS 上的对象,实现数据的共享。

图片5.png

6、ossfs 工具

(1)主要功能

ossfs 基于 s3fs  构建,具有 s3fs 的全部功能。主要功能包括:

支持 POSIX 文件系统的大部分功能,包括文件读写,目录,链接操作,权限, uid/gid,以及扩展属性 (extended attributes)

通过 OSS  multipart 功能上传大文件。

MD5 校验保证数据完整性。

(2)局限性

ossfs 提供的功能和性能和本地文件系统相比,具有一些局限性。具体包括:

随机或者追加写文件会导致整个文件的重写。

元数据操作,例如 list directory,性能较差,因为需要远程访问 OSS服务器。

文件/文件夹的 rename 操作不是原子的。

多个客户端挂载同一个 OSS bucket 时,依赖用户自行协调各个客户端的行为。例如避免多个客户端写同一个文件等等。

不支持 hard link。

不适合用在高并发读/写的场景,这样会让系统的 load 升高。

(3)应用场景

本地非结构化数据迁移至 OSS

通过 ossfs  OSS 挂载至本地使用 cp 命令将本地非结构化数据复制到挂载 oss 的目录以实现非结构化数据迁移

本地灾备

通过 ossfs 将 OSS 挂载至本地,结合 rsync 等工具,实现对本地非结构化数据自动增量更新至 OSS 所挂载的目录,实现非结构化数据灾备功能

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
负载均衡 网络协议 Linux
探索服务端进程的TCP连接极限,一个服务端进程最多能支持多少条 TCP 连接?
探索服务端进程的TCP连接极限,一个服务端进程最多能支持多少条 TCP 连接?
517 4
|
存储 网络协议 文件存储
云计算——常见存储类型
云计算——常见存储类型
1524 0
|
NoSQL 数据可视化 MongoDB
Windows MongoDB的安装及配置图文说明(非常详细)
Windows MongoDB的安装及配置图文说明(非常详细)
1640 0
|
关系型数据库 MySQL 数据库
2分钟教你用DTS做数据库迁移
工作或者个人开发中,使用的数据库快到期了。不想续费,想换个数据库用,比如从阿里云换到腾讯云数据库。原有的数据怎么一键迁移到新数据库呢,今天就教大家用阿里云DTS做数据库的迁移
1327 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
402 99
|
3月前
|
人工智能 运维 自然语言处理
Java 生态中的 AI 应用开发:从工具对比到 JBoltAI 全栈落地实践
本文探讨Java生态中AI应用开发的挑战与解决方案,重点介绍JBoltAI如何通过全栈能力(SDK+框架+服务)助力企业高效落地AI应用,覆盖制造、金融等场景,实现降本增效。
296 1
|
存储 安全 Linux
s3fs挂载S3对象桶
s3fs(Simple Storage Service File System)是一个基于FUSE(Filesystem in Userspace)的文件系统,它允许将S3(Simple Storage Service)或其他兼容S3 API的对象存储服务挂载到本地文件系统中,从而能够像访问本地磁盘一样访问远程对象存储。以下是通过s3fs挂载OBS(Object Storage Service,对象存储服务,这里以华为云OBS为例)对象桶的基本步骤: ### 一、环境准备 1. **安装s3fs**: - 对于CentOS系统,可以使用yum安装s3fs-fuse: ```
2751 7
|
10月前
|
前端开发 Java 程序员
程序员的宝藏图标资源库:Icons8一键解锁高效设计
🌟 ​大家好,我是摘星!​ 🌟今天为大家带来的是程序员的宝藏图标资源库:Icons8一键解锁高效设计,以前做项目时,找图标要么付费、要么质量差、要么风格不统一,今天偶然间在搜索springboot logo的发现了 Icons8,简直打开了我写文档的新世界的大门!怀着激动的心情,迫不及待的写下这篇文章将这个网站分享给大家,废话不多说,让我们直接开始~
1096 0
|
存储 分布式计算 自然语言处理
大数据中非结构化数据
【10月更文挑战第18天】
1236 4
|
资源调度 分布式计算 Kubernetes
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
🍅程序员小王的博客:程序员小王的博客 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 如有编辑错误联系作者,如果有比较好的文章欢迎分享给我,我会取其精华去其糟粕
12610 3
Flink最全的集群部署攻略(推荐yarn实现企业级部署)

热门文章

最新文章