OSS-HDFS元数据转换使用场景-简化自动驾驶仿真流程

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 1.背景介绍OSS目前已经直接可以支持HDFS接口,底层数据都是存放在OSS上,但是hdfs的数据以一个单独的组织形式存在,这里一个需要解决的问题是如何将数据在hdfs和oss间款式转换,,“OSS数据湖特征中的HDFS元数据转换”功能就是解决以上问题而推出的(目前支持oss向hdfs转换,后续也会支持反向转换),并且兼顾效率(快速)和资源(不需要安装第三方程序不需要申请服务器)。本文基于此功能,

1.背景介绍

OSS目前已经直接可以支持HDFS接口,底层数据都是存放在OSS上,但是hdfs的数据以一个单独的组织形式存在,这里一个需要解决的问题是如何将数据在hdfs和oss间款式转换,,“OSS数据湖特征中的HDFS元数据转换”功能就是解决以上问题而推出的(目前支持oss向hdfs转换,后续也会支持反向转换),并且兼顾效率(快速)和资源(不需要安装第三方程序不需要申请服务器)。本文基于此功能,主要探讨了如何简化仿真的流程。

2.业务流程

在自动加速的业务场景下,汽车上每天会产生很大的运行日志,如雷达,摄像头等等各种传感器产生的数据,这些数据一般都是存储在车载磁盘上,再讲数据同步到本地数据中心后再上传到云上对象存储进行保存,上传到云上通常会使用专线或者离线上传(比如使用数据立方),这样才能保障上传效率。

数据上传到云上后,数据想要直接使用还有点麻烦。当前的仿真业务,以及其他各种训练业务,使用posix/hdfs接口的居多,并不会直接使用对象接口,并且对象接口对诸如目录移动,目录扫描等操作效率比较低。所以这里需要将数据进行一次导出,比如导出到CPFS或者DFS等存储系统,这里就涉及到大量数据移动,时间成本很高。如果使用了dstcp等工具来导入hdfs,还需要额外申请ECS来部署导入工具。

总结起来,目前使用数据前的导入导出工作:

1.时间开销大:转换需要读取数据,再写入数据,文件多耗时长

2.资源开销大:单独申请资源来部署导入导出工具

针对这个导入导入的动作,使用oss-hdfs的元数据转换功能可以提高效率,减少成本。

oss-hdfs服务的数据也是存储在OSS上,减少了一个外部存储的节点,并且oss-hdfs的元数据转换和导入导出最大的不同是,其并不是讲所有的数据都读取,而是尽可能的只对元数据做操作,从而减少数据的拷贝。在通常情况下,能减少99%的数据移动,并且不需要额外的资源,只需要在oss控制台上就可以启动服务。

3 演示

PS:目前OSS-HDFS元数据转换第一个版本刚发布,正在邀测阶段,后续页面和接口可能会变化。

在oss控制台->数据湖管理->数据转换页面中,可以创建新的任务,最多可以创建3个任务。

将需要转换的目录填入“命中前缀”,最多可以填10个目录。

配置完成后点击“启动任务”后,任务会进入运行阶段。

等待一段时间后,任务会再次变为“空闲”状态,可以在其历史记录中查看任务运行的结果。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
3月前
|
存储 安全
HDFS读写流程详解
HDFS读写流程详解
HDFS读写流程详解
|
3月前
|
存储 机器学习/深度学习 分布式计算
HDFS NameNode元数据管理
HDFS NameNode元数据管理
|
1月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
30 1
|
1月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
45 1
|
3月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
93 1
|
6月前
|
存储 分布式计算 Hadoop
Hadoop节点HDFS元数据与数据块的关系
【5月更文挑战第19天】
109 4
|
6月前
|
存储 Java API
阿里云OSS使用购买流程
本文介绍了阿里云对象存储OSS的基本使用,包括准备工作、购买开通阿里云账号并进行实名认证,以及通过Web控制台、命令行工具ossutil和SDK进行文件操作。此外,还提到了RESTful API和图形化工具OSSBrowser的使用,并给出了Java SDK下载对象的示例代码。文章内容包括了OSS的基本概念,如存储空间Bucket和对象Object,以及不同类型的存储类型。
|
6月前
|
存储 安全 开发工具
oss加密的工作流程
阿里云OSS提供服务器端(SSE-KMS BYOK、SSE-KMS默认密钥)和客户端(CSE)加密。SSE-KMS通过KMS托管密钥或默认密钥在服务器端自动加密/解密对象,减轻用户负担。CSE则在客户端加密数据,使用SDK和用户密钥,灵活性高但管理复杂。两者均保障数据传输和存储的安全。用户可依据安全需求和合规性选择加密方式。
157 4
|
6月前
|
存储 Java API
阿里云oss简介和使用流程
本文档介绍了如何准备阿里云OSS(对象存储服务)并开始使用它。首先,需要注册阿里云账号并进行实名认证,然后购买OSS资源包。在阿里云控制台中,可以创建和管理OSS存储空间(称为“Bucket”)。接着,文章简要介绍了阿里云OSS,它是一个基于云端的对象存储服务,提供高可靠性、高性能、低成本和易于使用的特性。 在阿里云OSS控制台,用户可以进行文件的上传和下载操作。通过API,开发者可以使用各种编程语言(如Java)来创建、删除Bucket以及上传、下载和删除文件。例如,Java代码示例展示了如何创建Bucket、上传文件、删除文件以及下载文件到本地的操作。
|
6月前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程

热门文章

最新文章