开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

2018-12-26 1571

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

主讲人：诚历（孙大鹏）阿里巴巴计算平台事业部EMR技术专家

简介：Parquet 和 ORC 是大数据生态里最常用到的两个列式存储引擎，这两者在实现上有什异同，哪个效率更好，哪个性能更优，本次分享将和您一起探索两大列式存储。

_2018_12_26_8_21_56

ppt链接：https://yq.aliyun.com/download/3234

视频链接：https://yq.aliyun.com/live/785

加入Apache Spark中国技术交流钉钉群与大牛交流经验

_2018_12_05_4_48_20_meitu_1

文章标签：

云原生大数据计算服务 MaxCompute

存储

Apache

大数据

分布式计算

Spark

关键词：

云原生大数据计算服务 MaxCompute技术

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute apache

apache spark Apache

Apache大数据

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

社区小助手

JavaPub

3天前

分布式计算 Hadoop 分布式数据库

Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

JavaPub

12 2 2

郑小健

3天前

监控大数据 Java

使用Apache Flink进行大数据实时流处理

Apache Flink是开源流处理框架，擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构（包括客户端、作业管理器、任务管理器和数据源/接收器）和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用，讨论其实战挑战与优化。Flink作为大数据处理的关键组件，将持续影响实时处理领域。

郑小健

38 5 5

东方睿赢

10天前

数据采集传感器大数据

利用大数据进行精准农业：技术与挑战

【6月更文挑战第6天】大数据技术正变革农业，推动精准农业发展。通过实时收集农田数据（如土壤条件、作物生长情况），运用数据分析预测病虫害，优化生产管理。示例代码显示了如何使用Python进行产量预测。然而，数据质量、整合、农民技术接受度及隐私安全等问题挑战重重。需强化数据管理，统一标准，提升农民数字素养，并保障数据安全。随着技术进步，大数据在精准农业的应用将更加广泛，助力农业高效可持续发展。

东方睿赢

22 0 0

1941623231718325

19小时前

分布式计算 Hadoop 大数据

大数据技术：Hadoop与Spark的对比

【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构，擅长处理大规模批处理任务，依赖HDFS和MapReduce，具有高可靠性和生态多样性。Spark是快速数据处理引擎，侧重内存计算，提供多语言接口，支持机器学习和流处理，处理速度远超Hadoop，适合实时分析和交互式查询。两者在资源占用和生态系统上有差异，适用于不同应用场景。选择时需依据具体需求。

1941623231718325

9 1 1

郑小健

3天前

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

25 6 6

_BugMan

3天前

存储大数据 Linux

【大数据】GFS，大数据技术的基石，分布式文件系统的鼻祖

_BugMan

12 0 0

孜倦与shine

4天前

消息中间件分布式计算关系型数据库

使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

孜倦与shine

22 0 0

1941623231718325

9天前

存储大数据分布式数据库

使用Apache HBase进行大数据存储：技术解析与实践

【6月更文挑战第7天】Apache HBase，一个基于HDFS的列式存储NoSQL数据库，提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色，未来有望在更多领域发挥作用。

1941623231718325

16 3 4

1941623231718325

13天前

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

63 3 3

嘟嘟嘟嘟嘟嘟

24天前

消息中间件 Java Kafka

实时计算 Flink版操作报错之Apache Flink中的SplitFetcher线程在读取数据时遇到了未预期的情况，该怎么解决

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

嘟嘟嘟嘟嘟嘟

48 0 0

大数据与机器学习

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

# Apache Spark系列技术直播# 第七讲 【 大数据列式存储之 Parquet/ORC 】

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

# Apache Spark系列技术直播# 第七讲【大数据列式存储之 Parquet/ORC 】