【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验

简介: 本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。


在分享中,Berni Schiefer还介绍了TPC-DS基准测试的相关内容,并且讲述了从配置操作系统、网络再到配置Spark等一系列工作的体验以及最终实验的结果和体验。


9a03ac88319285a220d44166f3cb9975a5f992ca

77c3216645557444ab29050128503117c1c043a9

ff13e4ee748e89ce364d68761904d292a863f057

abd25dec8a82df2c8118634e082258a33d467ee5

cf18040454aea461fc2c9711ea1f566cd1d18496

9ea7cfbc4e7d25a2de8ee5b6ccc9871a71a05f4e

d78d040d5261ba0dc7fb64de994b6a213d7bad42

6f6107b463c01eaf3002554cc1567ba834e70d35

6f6107b463c01eaf3002554cc1567ba834e70d35

c5e63dbf4836b76147c8db5a85b3a89831511f57

50de64d4a9c5b7992da646a5a73dbf674bc8a0aa

5f20bd4ed45384ea4efba0c5f131c62d547976e5

8146bea0f8f94ba931b5367e8e718bd546563c91

4e22dfe12aad5354618c2c180918267221a22656

3f7cfe27f2b1178dd8cfead95deec9aa75805436

5df10de156b5470e546b56ab5e70ab0d7378ec9b

e70b1b8d4a469b44a771acc1acca2f6723cf2912

a4f0cad334addf4b57233a2a60ccf295ac3fdea9

14814831965c904e257b82e3cb7f4e5ae97acc37

3ecf0dcf81acb5a9150f6cbdd23890ca8fedb5cd

2373e790235c06eabb1c1b043d21e206cdeb825d

d7b8820b59219f8a4044fa4b8f0a71390de2a7cc

67823876ed2f57900b2db7f44b4b36c6a7065d56

c2baf79be2fc9b96b75a1030731481b753591590

9613d480114209bf933c14f41a66c180436553cf

f059e7bb72c3b708f2a3e89e22c8ab1ef7288f90

0444897adbbd66995bbbd81f874479c3f89d0fa0

f6bb37b915a5471ba023c414ffcae55b032e5e6a

973f1752335b6d01fdfcf56f8e6b9f4033a49a61

03b86a81c70a21c6871771ae4cd088fa7b3053f9

a96df03089bf19f4f7e09c07fd496deed357d4fb

f7e3dfaa54a3ab135f5b82589e0908c3d9c9f571

相关文章
|
1月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
2月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
43 1
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
58 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
86 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
51 0
|
2月前
|
存储 SQL 分布式计算
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
43 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
68 0
|
2月前
|
SQL 存储 分布式计算
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
45 0
|
4月前
|
SQL 存储 分布式计算
|
3月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")