【Spark Summit East 2017】使用Spark RDD构建用户应用

简介: 本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。


b6281961f61fe1183050c4d6ced6515e70d02918

a2879b8d9bcd7323707344d158c341a5265bafe4

6f88221ffcc4413f5f8a9620e1d03e40f991d714

73d4402da9e7d387e4157a3ec8d64fd871e1bac8

d5a13d7ab9df68a780e6e192a36f2cb5fda25116

c0dad08fb11a52cecba2bd31a7afac9acd663cfe

cb57dd2750adedd8be426c16e2c557daa25f701d

ce95286501e1c4f3f93e56888bff64506bfcdad8

cdb875bd45532692a28a19f455f5627926f3fdd1

987e8c31af68b742ed57d63f32e0698178359848

202ef64ea364c7fa26d327952afbf0df8a5ecb59

8df0b4dd6491fed828e20123469070daa0f456d3

c95f373fd3c00bad4acdd3d821b0e9bb06607765

56cf0e8bbd87b99d9e02eed43be2f79ac4f00c2a

efabd9608cdf55b44ca692572141c24ffb82a108

22da8bc5d245364a509fa6df46b3b55e03727819

8278701455a82d84664cbdf30825428cb8ea1d27

0756511c734487a5bbdf7d5930de7fa082a1c13f

7c92b889f0ea4a5ed43627d7307f019e6d07a1f0

0fd97d562c1dcc8ff25d52d5398719b0d039d010

56ba8b23445d2e9056e9fd9633a44cfb355d053c

e74540cb3f766eb04ab4a537a40b30f8538e53fb

941f8bdae4ad14e9664418e7e034d3b7812575ab

13679f31627c32f3f1937eb9bf1a785f1ebe79eb

c0ca782906cff16581bd0ae9659556be07584b23

a638aa81763c202323076884223f2833c8e33263

08b208871befc0e70bb1359976d46ea7e8b72f43

f89a430aaed4f1d38feed1fd97549c364e317d14

bd862e5314b8a28cc471117f4ca83e1210224978

1cca1f1fb75a8542e7c3d25005e4a141bf4a9474

62c272aa7712bac01b2d92b5c1ba2ad43d4dfa22

11da3e14dd2d78af4c4bca4e4f53777ac7b3756b

5c5a1c7155eb76be3db6978fba2cb838bf467379

63be60fbd5591ba22cecd4697af06878f9053832

84d616c4f6aec187123d213a5881fb751f7b58d2

96144b4d5f18d4784142c0155c83dd56e8ce4ca2

08b208871befc0e70bb1359976d46ea7e8b72f43

85983924fae9b6ebe8f26fe754c1ef4481d75e59

9d9728c42df4b506ffdc6c19aa4140fb58d98a8d

相关文章
|
2月前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
282 1
|
1月前
|
存储 分布式计算 并行计算
【赵渝强老师】Spark中的RDD
RDD(弹性分布式数据集)是Spark的核心数据模型,支持分布式并行计算。RDD由分区组成,每个分区由Spark Worker节点处理,具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD,可以指定分区数量,并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。
|
2月前
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
47 4
|
2月前
|
JSON 分布式计算 大数据
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
37 1
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
42 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
33 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
74 0
|
2月前
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
48 0
|
2月前
|
缓存 分布式计算 大数据
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
59 0
|
2月前
|
分布式计算 算法 大数据
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(二)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(二)
61 0
下一篇
DataWorks