文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

2019-07-23 1295

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

直播间直达链接：（回看链接）

https://tianchi.aliyun.com/course/live?spm=5176.12282027.0.0.5622379ccY33Rf&liveId=41070

时间

7月24日19:00

主讲人：

诚历，阿里巴巴计算平台事业部 EMR 技术专家，Apache Sentry PMC，Apache Commons Committer，目前从事开源大数据存储和优化方面的工作。

简介：

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
_Apache_Spark_Apache_Arrow____spark_

文章标签：

开源大数据平台 E-MapReduce

Apache

关键词：

apache spark列式存储

Apache列式存储

阿里云E-MapReduce团队

目录

相关文章

晓之以理的喵~~

|

存储 SQL 分布式计算

性能优化：Spark SQL中的谓词下推和列式存储

性能优化：Spark SQL中的谓词下推和列式存储

晓之以理的喵~~

1006 0 0

社区小助手

|

存储分布式计算大数据

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

社区小助手

1874 0 1

开源大数据EMR

|

存储分布式计算 Apache

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Apache Arrow 是一个基于内存的列式存储标准，旨在解决数据交换和传输过程中，序列化和反序列化带来的开销。目前，Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开，本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

开源大数据EMR

2721 0 0

大熊计算机

|

12月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

661 0 0

郑小健

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1232 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

759 79 80

武子康

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

443 0 0

武子康

|

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

387 0 0

武子康

|

消息中间件存储分布式计算

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

武子康

468 0 0

土木林森

|

SQL 机器学习/深度学习分布式计算

Spark快速上手：揭秘大数据处理的高效秘密，让你轻松应对海量数据

【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark，涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台，支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码，帮助读者快速掌握 Spark 的核心技能。

土木林森

758 6 6

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

开源深度学习库BigDL在阿里云E-MapReduce上的实践

开源大数据周刊-第36期

Spark + AI 2019北美技术峰会华丽落幕

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

分布式快照算法: Chandy-Lamport

小红书 API 接口使用指南：笔记详情数据接口的接入与使用

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

大模型RAG实战：从零搭建专属知识库问答助手

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

JindoFS解析 - 云上大数据高性能数据湖存储方案

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

推荐镜像

更多

apache

下一篇

利用阿里云OSS（对象存储服务）快速搭建私人网盘