开发者学堂课程【上云迁移实战:非结构化数据迁移介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/514/detail/6857
非结构化数据迁移介绍
1、非结构化数据
什么是非结构化数据
非结构化数据是数据结构不规则或不完整没有预定义的数据模型,不方便用数据库二维逻辑来表示的数据。在实际生产中非结构化数据占整个数据构成的80%。
2、非结构化数据应用场景
(1)适用场景
文件: Word,PDF,电子合同
图片:注册用户资料图片,商品图片
音频,视频
(2)业务场景
网站商品图片存储容量 1PB
图片文件数量接近300亿
用户访问时需要动态生成缩略图
非结构化数据在生产环境下的实际需求
3、非结构化数据迁移
用户在阿里云上可以将非结构化数据迁移到 OSS 中
非结构化数据三种迁移方式,可以通过 OOS 工具进行非结构化数据迁移,对于海量非结构化数据可以采用迁移服务,快速实现一体化数据上云迁移。对于有开发能力的同学还可以调用 OSS API 来实现非结构化数据的迁移。还可以通过 OSS 无缝迁移方案来实现非结构化数据的迁移。
4、OSS 常用工具及服务
ossfs 通过挂载 bucket 到本地文件系统,能够通过本地文件系统操作 OSS 上的对象,实现数据的访问和共享
备注
官方工具。支持 Linux 平台。
ossimport2 数据同步工具,可以将本地或第三方云存储服务上的文件同步到 OSS 上。
备注
官方工具。依赖 JRE7 及以上。支持 Windows、Linux 平台。
OSS 控制台客户端 ,图像化界面工具,提供 Bucket 和 Object 的管理功能。
备注
官方推荐工具。支持 Windows、 Mac 平台。
OSS数据迁移服务 ,数据迁移定制化服务,将 TB 级别的数据快速迁移到 OSS 中。
备注
官方推荐服务。
5、什么是 ossfs 工具
ossfs 能让您在 Linux 系统中把 OSS bucket 挂载到本地文件系统中,您能够便捷地通过本地文件系统操作 OSS 上的对象,实现数据的共享。
6、ossfs 工具
(1)主要功能
ossfs 基于 s3fs 构建,具有 s3fs 的全部功能。主要功能包括:
支持 POSIX 文件系统的大部分功能,包括文件读写,目录,链接操作,权限, uid/gid,以及扩展属性 (extended attributes)
通过 OSS 的 multipart 功能上传大文件。
MD5 校验保证数据完整性。
(2)局限性
ossfs 提供的功能和性能和本地文件系统相比,具有一些局限性。具体包括:
随机或者追加写文件会导致整个文件的重写。
元数据操作,例如 list directory,性能较差,因为需要远程访问 OSS服务器。
文件/文件夹的 rename 操作不是原子的。
多个客户端挂载同一个 OSS bucket 时,依赖用户自行协调各个客户端的行为。例如避免多个客户端写同一个文件等等。
不支持 hard link。
不适合用在高并发读/写的场景,这样会让系统的 load 升高。
(3)应用场景
本地非结构化数据迁移至 OSS
通过 ossfs 将 OSS 挂载至本地使用 cp 命令将本地非结构化数据复制到挂载 oss 的目录以实现非结构化数据迁移
本地灾备
通过 ossfs 将 OSS 挂载至本地,结合 rsync 等工具,实现对本地非结构化数据自动增量更新至 OSS 所挂载的目录,实现非结构化数据灾备功能