开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

2018-12-14 1809

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家直播时间：2018.12.13（本周四）19:00 - 20:00 内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括： Spark、RDD简介 RDD API简介打包与spark-submit 性能分析与调优基础 ppt链接：https://yq.

主讲人：王道远(健身) 阿里巴巴计算平台EMR技术专家

直播时间：2018.12.13（本周四）19:00 - 20:00

内容提要：本次讲座主要涵盖Spark RDD编程入门基础，包括：

Spark、RDD简介
RDD API简介
打包与spark-submit
性能分析与调优基础

ppt链接：https://yq.aliyun.com/download/3142
视频链接：https://yq.aliyun.com/live/720

加入Apache Spark中国技术交流钉钉群与大牛交流经验

_2018_12_05_4_48_20_meitu_1

文章标签：

开源大数据平台 E-MapReduce

分布式计算

Apache

API

Spark

关键词：

Apache技术

apache spark技术

apache spark rdd

技术apache spark

Apache spark

社区小助手

SelectDB

10月前

消息中间件 OLAP Kafka

Apache Doris 实时更新技术揭秘：为何在 OLAP 领域表现卓越？

Apache Doris 为何在 OLAP 领域表现卓越？凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现，在分析领域展现了独特的实时更新能力。

SelectDB

834 9 9

JJLIN距离

9月前

消息中间件监控 Java

Apache Kafka 分布式流处理平台技术详解与实践指南

本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统，Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制，帮助开发者构建可靠、可扩展的实时数据流处理系统。

JJLIN距离

826 4 4

Echo_Wish

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

759 79 80

SelectDB

存储 SQL 缓存

Apache Doris & SelectDB 技术能力全面解析

本文将对 Doris & SelectDB 适合的分析场景和技术能力进行概述解析

SelectDB

2087 1 1

NineData

安全 Apache 数据库

【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup，5月24日深圳见！

5月24日，NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域，邀请行业专家分享技术趋势、产品实践及解决方案，助力企业构建高效安全的数据管理体系。时间：14:00-17:30；地点：深圳新一代产业园2栋20楼会议室。线下名额有限（80人），速报名参与深度交流！

NineData

357 1 1

蚂蚁数据智能技术

11月前

人工智能自然语言处理测试技术

新晋社区PMC李攀：“在Apache Fory，技术实力是唯一的通行证”

一起走近开源项目的幕后英雄——PMC成员

蚂蚁数据智能技术

361 0 0

武子康

存储分布式计算 druid

大数据-149 Apache Druid 基本介绍技术特点应用场景

武子康

509 1 1

土木林森

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

753 2 2

土木林森

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

675 1 1

龙大吉

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

531 1 1

大数据与机器学习

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

推荐镜像

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门 】

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

推荐镜像

# Apache spark系列技术直播# 第五讲【 Spark RDD编程入门】