✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

简介: ✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

历史文章

[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS

[hadoop3.x系列]HDFS REST HTTP API的使用(二)HttpFS

[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

🍑新一代的存储格式Apache Arrow

🐒Arrow简介

l Apache Arrow是一个跨语言平台,是一种列式内存数据结构,主要用于构建数据系统。Apache Arrow在2016年2月17日作为顶级Apache项目引入。

l Apache Arrow发展非常迅速,并且在未来会有更好的发展空间。 它可以在系统之间进行高效且快速的数据交换,而无需进行序列化,而这些成本已与其他系统(例如Thrift,Avro和Protocol Buffers)相关联。

l 每一个系统实现,它的方法(method)都有自己的内存存储格式,在开发中,70%-80%的时间浪费在了序列化和反序列化上。

l Arrow促进了许多组件之间的通信。 例如,使用Python(pandas)读取复杂的文件并将其转换为Spark DataFrame。

🐒Arrow是如何提升数据移动性能的

l 利用Arrow作为内存中数据表示的两个过程可以将数据从一种方法“重定向”到另一种方法,而无需序列化或反序列化。 例如,Spark可以使用Python进程发送Arrow数据来执行用户定义的函数。

l 无需进行反序列化,可以直接从启用了Arrow的数据存储系统中接收Arrow数据。 例如,Kudu可以将Arrow数据直接发送到Impala进行分析。

以将Arrow数据直接发送到Impala进行分析。

l Arrow的设计针对嵌套结构化数据(例如在Impala或Spark Data框架中)的分析性能进行了优化。


目录
相关文章
|
4天前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储NameNode管理
【4月更文挑战第17天】Hadoop是一个开源的分布式计算框架,依赖HDFS进行分布式存储。文件被分割成数据块分散在DataNode上,NameNode负责元数据管理和协调,确保数据可靠性。NameNode的高可用性配置能防止单点故障,保证系统稳定性。这套机制支持高效、可靠和可扩展的大数据存储与访问。
14 3
|
1月前
|
存储 JSON Apache
Apache Hudi从零到一:存储格式初探(一)
Apache Hudi从零到一:存储格式初探(一)
34 1
|
4天前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储数据块大小
【4月更文挑战第17天】Hadoop的 数据块大小影响文件在HDFS中的切分与存储。默认值为64MB、128MB或256MB,可按需调整。选择数据块大小需平衡访问模式、存储效率、网络带宽和磁盘I/O。大块减少元数据,但可能降低读取效率;小块提高读取效率,却增大元数据和网络开销。应用需求决定块大小,如小文件读取频繁则选小块,大文件存储选大块。设置前需全面考虑集群需求,遵循官方文档和最佳实践。
14 3
|
1月前
|
资源调度 分布式计算 Hadoop
Apache Hadoop YARN基本架构
【2月更文挑战第24天】
|
1月前
|
存储 SQL 消息中间件
Apache Hudi:统一批和近实时分析的存储和服务
Apache Hudi:统一批和近实时分析的存储和服务
32 0
|
1月前
|
存储 机器学习/深度学习 Apache
Apache Hudi与机器学习特征存储
Apache Hudi与机器学习特征存储
29 0
|
2月前
|
存储 消息中间件 Java
新一代消息中间件—Apache Pulsar
新一代消息中间件—Apache Pulsar
91 0
新一代消息中间件—Apache Pulsar
|
3月前
|
存储 druid NoSQL
Apache Druid 底层存储设计(列存储与全文检索)
Apache Druid 底层存储设计(列存储与全文检索)
59 1
|
4月前
|
存储 分布式计算 资源调度
[hadoop3.x]HDFS中的内存存储支持(七)概述
[hadoop3.x]HDFS中的内存存储支持(七)概述
51 0
|
1月前
|
消息中间件 API Apache
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。
1416 1
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

相关实验场景

更多

推荐镜像

更多