OSS-HDFS元数据转换使用场景-简化自动驾驶仿真流程

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 1.背景介绍OSS目前已经直接可以支持HDFS接口,底层数据都是存放在OSS上,但是hdfs的数据以一个单独的组织形式存在,这里一个需要解决的问题是如何将数据在hdfs和oss间款式转换,,“OSS数据湖特征中的HDFS元数据转换”功能就是解决以上问题而推出的(目前支持oss向hdfs转换,后续也会支持反向转换),并且兼顾效率(快速)和资源(不需要安装第三方程序不需要申请服务器)。本文基于此功能,

1.背景介绍

OSS目前已经直接可以支持HDFS接口,底层数据都是存放在OSS上,但是hdfs的数据以一个单独的组织形式存在,这里一个需要解决的问题是如何将数据在hdfs和oss间款式转换,,“OSS数据湖特征中的HDFS元数据转换”功能就是解决以上问题而推出的(目前支持oss向hdfs转换,后续也会支持反向转换),并且兼顾效率(快速)和资源(不需要安装第三方程序不需要申请服务器)。本文基于此功能,主要探讨了如何简化仿真的流程。

2.业务流程

在自动加速的业务场景下,汽车上每天会产生很大的运行日志,如雷达,摄像头等等各种传感器产生的数据,这些数据一般都是存储在车载磁盘上,再讲数据同步到本地数据中心后再上传到云上对象存储进行保存,上传到云上通常会使用专线或者离线上传(比如使用数据立方),这样才能保障上传效率。

数据上传到云上后,数据想要直接使用还有点麻烦。当前的仿真业务,以及其他各种训练业务,使用posix/hdfs接口的居多,并不会直接使用对象接口,并且对象接口对诸如目录移动,目录扫描等操作效率比较低。所以这里需要将数据进行一次导出,比如导出到CPFS或者DFS等存储系统,这里就涉及到大量数据移动,时间成本很高。如果使用了dstcp等工具来导入hdfs,还需要额外申请ECS来部署导入工具。

总结起来,目前使用数据前的导入导出工作:

1.时间开销大:转换需要读取数据,再写入数据,文件多耗时长

2.资源开销大:单独申请资源来部署导入导出工具

针对这个导入导入的动作,使用oss-hdfs的元数据转换功能可以提高效率,减少成本。

oss-hdfs服务的数据也是存储在OSS上,减少了一个外部存储的节点,并且oss-hdfs的元数据转换和导入导出最大的不同是,其并不是讲所有的数据都读取,而是尽可能的只对元数据做操作,从而减少数据的拷贝。在通常情况下,能减少99%的数据移动,并且不需要额外的资源,只需要在oss控制台上就可以启动服务。

3 演示

PS:目前OSS-HDFS元数据转换第一个版本刚发布,正在邀测阶段,后续页面和接口可能会变化。

在oss控制台->数据湖管理->数据转换页面中,可以创建新的任务,最多可以创建3个任务。

将需要转换的目录填入“命中前缀”,最多可以填10个目录。

配置完成后点击“启动任务”后,任务会进入运行阶段。

等待一段时间后,任务会再次变为“空闲”状态,可以在其历史记录中查看任务运行的结果。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
26天前
|
存储 Java API
阿里云oss简介和使用流程
本文档介绍了如何准备阿里云OSS(对象存储服务)并开始使用它。首先,需要注册阿里云账号并进行实名认证,然后购买OSS资源包。在阿里云控制台中,可以创建和管理OSS存储空间(称为“Bucket”)。接着,文章简要介绍了阿里云OSS,它是一个基于云端的对象存储服务,提供高可靠性、高性能、低成本和易于使用的特性。 在阿里云OSS控制台,用户可以进行文件的上传和下载操作。通过API,开发者可以使用各种编程语言(如Java)来创建、删除Bucket以及上传、下载和删除文件。例如,Java代码示例展示了如何创建Bucket、上传文件、删除文件以及下载文件到本地的操作。
|
1月前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程
|
2月前
|
存储 安全 开发工具
oss加密的工作流程
阿里云OSS提供服务器端(SSE-KMS BYOK、SSE-KMS默认密钥)和客户端(CSE)加密。SSE-KMS通过KMS托管密钥或默认密钥在服务器端自动加密/解密对象,减轻用户负担。CSE则在客户端加密数据,使用SDK和用户密钥,灵活性高但管理复杂。两者均保障数据传输和存储的安全。用户可依据安全需求和合规性选择加密方式。
28 4
|
4月前
|
存储 分布式计算 Java
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
32 0
|
4月前
|
Java API
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
21 0
|
10月前
|
缓存
HDFS 读数据流程【重要】
HDFS 读数据流程【重要】
73 0
|
6月前
|
算法 数据中心
HDFS数据的读写流程
HDFS数据的读写流程
45 0
|
8月前
|
缓存 分布式计算 负载均衡
HDFS 的写数据流程分析
HDFS的写数据流程是一道比较常见的面试题,同时梳理了写流程也可以帮助我们更加深入一点的了解 HDFS 的主要原理和各个组件的交互过程
|
9月前
|
机器学习/深度学习 缓存 分布式计算
Hadoop基础学习---4、HDFS写、读数据流程、NameNode和SecondaryNameNode、DataNode
Hadoop基础学习---4、HDFS写、读数据流程、NameNode和SecondaryNameNode、DataNode
|
10月前
|
存储 分布式计算 安全
HDFS 写数据流程【重点】
HDFS 写数据流程【重点】
81 0

热门文章

最新文章