文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

2019-07-23 2744

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

直播间直达链接：（回看链接）

https://tianchi.aliyun.com/course/live?spm=5176.12282027.0.0.5622379ccY33Rf&liveId=41070

时间

7月24日19:00

主讲人：

诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

简介：

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
_Apache_Spark_Apache_Arrow____spark_

文章标签：

开源大数据平台 E-MapReduce

Apache

分布式计算

Spark

存储

关键词：

Apache社区

apache spark存储

apache spark优化

Apache spark

apache spark apache spark

开源大数据EMR

目录

相关文章

技术小达人

|

消息中间件人工智能 Apache

Apache RocketMQ 中文社区全新升级！

Apache RocketMQ 中文社区全新升级！

技术小达人

352 7 7

SelectDB

|

存储 SQL 监控

计算效率提升 10 倍，存储成本降低 60%，灵犀科技基于 Apache Doris 建设统一数据服务平台

灵犀科技早期基于 Hadoop 构建大数据平台，在战略调整和需求的持续扩增下，数据处理效率、查询性能、资源成本问题随之出现。为此，引入 [Apache Doris](https://doris.apache.org/) 替换了复杂技术栈，升级为集存储、加工、服务为一体的统一架构，实现存储成本下降 60%，计算效率提升超 10 倍的显著成效。

SelectDB

809 0 0

计算效率提升 10 倍，存储成本降低 60%，灵犀科技基于 Apache Doris 建设统一数据服务平台

技术小达人

|

存储大数据数据处理

您有一份 Apache Flink 社区年度报告请查收～

您有一份 Apache Flink 社区年度报告请查收～

技术小达人

315 0 0

SelectDB

|

存储消息中间件运维

招联金融基于 Apache Doris 数仓升级：单集群 QPS 超 10w，存储成本降低 70%

招联内部已有 40+ 个项目使用 Apache Doris ，拥有超百台集群节点，个别集群峰值 QPS 可达 10w+ 。通过应用 Doris ，招联金融在多场景中均有显著的收益，比如标签关联计算效率相较之前有 6 倍的提升，同等规模数据存储成本节省超 2/3，真正实现了降本提效。

SelectDB

806 11 11

招联金融基于 Apache Doris 数仓升级：单集群 QPS 超 10w，存储成本降低 70%

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

2283 0 0

人物我非-32022

|

分布式计算监控大数据

如何优化Spark中的shuffle操作？

【10月更文挑战第18天】

人物我非-32022

1153 1 1

yuanzhengme

|

存储分布式计算监控

Spark如何优化？需要注意哪些方面？

【10月更文挑战第10天】Spark如何优化？需要注意哪些方面？

yuanzhengme

292 6 6

龙大吉

|

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

556 1 1

武子康

|

分布式计算 Java 大数据

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

武子康

307 0 0

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

阿里云云原生

|

消息中间件人工智能监控

Apache RocketMQ 中文社区全新升级丨阿里云云原生 7 月产品月报

阿里云云原生 7 月产品月报

阿里云云原生

379 7 7

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

玩转阿里云EMR三部曲-中级篇集成自有服务

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

EMR Serverless StarRocks Stella 能力解读，从海量广告素材、游戏聊天数据到金融 RAG 的一站式 SQL 实践

阿里云 EMR Serverless StarRocks（Stella 2.2.0）发布：多模态处理与分析闭环，内表与湖表统一检索

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

apache

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！