备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

2019-07-23 1005

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

直播间直达链接：（回看链接）

https://tianchi.aliyun.com/course/live?spm=5176.12282027.0.0.5622379ccY33Rf&liveId=41070

时间

7月24日19:00

主讲人：

诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

简介：

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
_Apache_Spark_Apache_Arrow____spark_

文章标签：

开源大数据平台 E-MapReduce

Apache

关键词：

apache spark列式存储

Apache列式存储

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

晓之以理的喵~~

|

1月前

|

存储 SQL 分布式计算

性能优化：Spark SQL中的谓词下推和列式存储

性能优化：Spark SQL中的谓词下推和列式存储

晓之以理的喵~~

100 0 0

社区小助手

|

存储分布式计算大数据

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

社区小助手

1573 0 1

疯狂的猿

|

1月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

213 0 0

梦回故国楼台梦

|

1月前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

梦回故国楼台梦

520 1 2

程序猿～厾罗

|

1月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

121 0 0

vohelon

|

6天前

|

存储分布式计算 Hadoop

Spark和Hadoop都是大数据处理领域的重要工具

【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具

vohelon

34 7 7

郑小健

|

10天前

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

38 6 6

1941623231718325

|

8天前

|

分布式计算 Hadoop 大数据

大数据技术：Hadoop与Spark的对比

【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构，擅长处理大规模批处理任务，依赖HDFS和MapReduce，具有高可靠性和生态多样性。Spark是快速数据处理引擎，侧重内存计算，提供多语言接口，支持机器学习和流处理，处理速度远超Hadoop，适合实时分析和交互式查询。两者在资源占用和生态系统上有差异，适用于不同应用场景。选择时需依据具体需求。

1941623231718325

78 1 2

孜倦与shine

|

11天前

|

分布式计算 Kubernetes Spark

大数据之spark on k8s

大数据之spark on k8s

孜倦与shine

29 2 2

孜倦与shine

|

11天前

|

机器学习/深度学习数据采集分布式计算

基于spark的大数据分析预测地震受灾情况的系统设计

基于spark的大数据分析预测地震受灾情况的系统设计

孜倦与shine

41 1 1

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

EMR Serverless Spark：结合实时计算 Flink 基于 Paimon 实现流批一体

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

HIVE MapJoin异常问题处理总结

E-MapReduce中Spark 2.x读写MaxCompute数据

EMR集群上capacity scheduler的ACL实现

数据湖正在成为新的数据仓库

使用spark-redis组件访问云数据库Redis

阿里云 EMR StarRocks VS 开源版本功能差异介绍

首批！阿里云完成中国信通院数据智能平台专项测试

【评测有奖】参加 EMR Serverless Spark 产品评测，赢机械键盘、充电宝等礼品！

EMR Serverless Spark：结合实时计算 Flink 基于 Paimon 实现流批一体

客户案例 | 阿里云向量检索 Milvus 版在识货电商检索场景的应用与实践

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless Spark 版开启免费公测

文心大模型的智能体（Agent）平台

阿里巴巴的通义千问大模型

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

推荐镜像

更多

apache

packman

CPAN

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考