非结构化数据迁移介绍|学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习非结构化数据迁移介绍

开发者学堂课程【上云迁移实战非结构化数据迁移介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/514/detail/6857


非结构化数据迁移介绍


1、非结构化数据

什么是非结构化数据

图片1.png

非结构化数据是数据结构不规则或不完整没有预定义的数据模型,不方便用数据库二维逻辑来表示的数据。在实际生产中非结构化数据占整个数据构成的80%。

2、非结构化数据应用场景

(1)适用场景

文件: Word,PDF,电子合同

图片:注册用户资料图片,商品图片

音频,视频

(2)业务场景

网站商品图片存储容量 1PB

图片文件数量接近300亿

用户访问时需要动态生成缩略图

非结构化数据在生产环境下的实际需求

图片2.png

3、非结构化数据迁移

用户在阿里云上可以将非结构化数据迁移到 OSS 中

图片3.png

非结构化数据三种迁移方式可以通过 OOS 工具进行非结构化数据迁移,对于海量非结构化数据可以采用迁移服务,快速实现一体化数据上云迁移。对于有开发能力的同学还可以调用 OSS API 来实现非结构化数据的迁移。还可以通过 OSS 无缝迁移方案来实现非结构化数据的迁移。

4、OSS 常用工具及服务

图片4.png

ossfs 通过挂载 bucket 到本地文件系统,能够通过本地文件系统操作 OSS 上的对象,实现数据的访问和共享

备注

官方工具。支持 Linux 平台。

ossimport2 数据同步工具可以将本地或第三方云存储服务上的文件同步到 OSS 上。

备注

官方工具。依赖 JRE7 及以上。支持 Windows、Linux 平台。

OSS 控制台客户端 图像化界面工具,提供 Bucket 和 Object 的管理功能。

备注

官方推荐工具。支持 Windows、 Mac 平台。

OSS数据迁移服务 数据迁移定制化服务,将 TB 级别的数据快速迁移到 OSS 中。

备注

官方推荐服务。

5、什么是 ossfs 工具

ossfs 能让您在 Linux 系统中把 OSS bucket 挂载到本地文件系统中,您能够便捷地通过本地文件系统操作 OSS 上的对象,实现数据的共享。

图片5.png

6、ossfs 工具

(1)主要功能

ossfs 基于 s3fs  构建,具有 s3fs 的全部功能。主要功能包括:

支持 POSIX 文件系统的大部分功能,包括文件读写,目录,链接操作,权限, uid/gid,以及扩展属性 (extended attributes)

通过 OSS  multipart 功能上传大文件。

MD5 校验保证数据完整性。

(2)局限性

ossfs 提供的功能和性能和本地文件系统相比,具有一些局限性。具体包括:

随机或者追加写文件会导致整个文件的重写。

元数据操作,例如 list directory,性能较差,因为需要远程访问 OSS服务器。

文件/文件夹的 rename 操作不是原子的。

多个客户端挂载同一个 OSS bucket 时,依赖用户自行协调各个客户端的行为。例如避免多个客户端写同一个文件等等。

不支持 hard link。

不适合用在高并发读/写的场景,这样会让系统的 load 升高。

(3)应用场景

本地非结构化数据迁移至 OSS

通过 ossfs  OSS 挂载至本地使用 cp 命令将本地非结构化数据复制到挂载 oss 的目录以实现非结构化数据迁移

本地灾备

通过 ossfs 将 OSS 挂载至本地,结合 rsync 等工具,实现对本地非结构化数据自动增量更新至 OSS 所挂载的目录,实现非结构化数据灾备功能

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
监控 安全 BI
CloudLens for OSS全新升级助力OSS 安全审计
CloudLens for OSS支持OSS Bucket粒度的统一管理视图,支持资源用量、访问分析、异常检测、安全分析等可视化分析能力,提供场景化运维管理,实现Bucket资产的可观测性。
77454 0
|
机器学习/深度学习 自然语言处理 算法
Machine Learning机器学习之文本分析
Machine Learning机器学习之文本分析
|
NoSQL 数据可视化 MongoDB
Windows MongoDB的安装及配置图文说明(非常详细)
Windows MongoDB的安装及配置图文说明(非常详细)
1414 0
|
关系型数据库 MySQL 数据库
2分钟教你用DTS做数据库迁移
工作或者个人开发中,使用的数据库快到期了。不想续费,想换个数据库用,比如从阿里云换到腾讯云数据库。原有的数据怎么一键迁移到新数据库呢,今天就教大家用阿里云DTS做数据库的迁移
1138 0
|
机器学习/深度学习 自然语言处理 达摩院
Rethinking Information Extraction :信息抽取的现状与未来
​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于
6027 0
|
12月前
|
存储 分布式计算 自然语言处理
大数据中非结构化数据
【10月更文挑战第18天】
881 4
|
存储 机器学习/深度学习 自然语言处理
LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、Prefix tuing等]
LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、Prefix tuing等]
LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、Prefix tuing等]
|
存储 安全 Linux
s3fs挂载S3对象桶
s3fs(Simple Storage Service File System)是一个基于FUSE(Filesystem in Userspace)的文件系统,它允许将S3(Simple Storage Service)或其他兼容S3 API的对象存储服务挂载到本地文件系统中,从而能够像访问本地磁盘一样访问远程对象存储。以下是通过s3fs挂载OBS(Object Storage Service,对象存储服务,这里以华为云OBS为例)对象桶的基本步骤: ### 一、环境准备 1. **安装s3fs**: - 对于CentOS系统,可以使用yum安装s3fs-fuse: ```
1614 7
|
10月前
|
机器学习/深度学习 人工智能 算法
转载:【AI系统】AI系统概述与设计目标
本文介绍了AI系统全栈架构,涵盖AI系统的设计目标、组成和生态,强调了系统性能、用户体验、稳定性及开源社区运营的重要性。文章详细解析了AI系统的基本概念、定义及其设计挑战,旨在为读者构建AI系统知识体系,助力AI技术的全面发展。通过对比传统软件和云计算架构,阐述了AI系统在连接硬件与应用间的独特作用,探讨了高效编程语言、开发框架和工具链的设计,以及AI任务的系统级支持,包括计算能力的扩展、自动编译优化、云原生自动分布式化等方面,为应对AI技术的新挑战提供了全面视角。
|
数据可视化 数据处理 Apache
初窥Apache DolphinScheduler
初窥Apache DolphinScheduler
244 0