【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

简介: 本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比。最后还分享了关于Spark的可靠性、性能的提升技巧以及配置调优技巧。


cf033017364a527c2ceff84b763b765e1342d413

15e0578e2e80b7cb1c3b40c30dc35913ccc9f24b

025f5c36319ce01c5e4633b5611352115787e324

275fd9133cbe2bca77b225f31d077c425610a459

0f03d3368bee895abc67b44cad42485193078803

32bd29d995c5644e75367c79cb7485201a11d621

9f9c9755a8a031587b997560bf951a86cd8e02af

d6173dcf92230d5c2231bb33bf99dac3bb094544

13e3bf162e2e5194f6a1361aa7cd5fe96e69dd0d

2233dad41e090b21502637213f1a89f98b1e0551

465366daae4cb98011d8874770ab6240652aaf31

215e94fb3872b98e7e09325f09338ee152d2d4a8

e8d17da255bb385042cdd03644583de596c912db

e0805232f84daf24c27131fd1066803ed0da8bf7

7f53c0ea43018681eaf9e44cfef11e2eefbae640

db0f07ba8a14536892d9eb6a1612372878974da2

2e7ce700c6c653dc3735af5de95fe157ef880103

c155e2fe8e1209ecfeee4322b2f107284bb3cc87

d0d4aebdbdfc6db312db41143f955636d514891f

d690b91286b53667f3d6a2fe6f0a2b99f5d3246c

08c686567c87689b923cf48b028836e609b7f854

ff2f8a4f330fdef382e36fde22e2f2cb5de02cb4

529c8b23331949b37dd5309bd5d4dc90a768845a

7d83a9a825b91761e876c8bae76b9516c5b8a43a

b668de6e8e396f7959aa6bada1fc2bfb204d7b13

e5a29a5d900ff97059e519a6f1fe6f19c58bad35

相关文章
|
2月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
57 2
|
1月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
98 1
|
1月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
3月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
3月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
3月前
|
存储 分布式计算 调度
Spark任务调度与数据本地性
Spark任务调度与数据本地性
|
4月前
|
分布式计算 Java Spark
Spark Driver和Executor数据传递使用问题
Spark Driver和Executor数据传递使用问题
31 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
13天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。