【Spark Summit EU 2016】TPC-DS基准测试下的Spark SQL2.0使用体验

简介: 本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。


在分享中,Berni Schiefer还介绍了TPC-DS基准测试的相关内容,并且讲述了从配置操作系统、网络再到配置Spark等一系列工作的体验以及最终实验的结果和体验。


9a03ac88319285a220d44166f3cb9975a5f992ca

77c3216645557444ab29050128503117c1c043a9

ff13e4ee748e89ce364d68761904d292a863f057

abd25dec8a82df2c8118634e082258a33d467ee5

cf18040454aea461fc2c9711ea1f566cd1d18496

9ea7cfbc4e7d25a2de8ee5b6ccc9871a71a05f4e

d78d040d5261ba0dc7fb64de994b6a213d7bad42

6f6107b463c01eaf3002554cc1567ba834e70d35

6f6107b463c01eaf3002554cc1567ba834e70d35

c5e63dbf4836b76147c8db5a85b3a89831511f57

50de64d4a9c5b7992da646a5a73dbf674bc8a0aa

5f20bd4ed45384ea4efba0c5f131c62d547976e5

8146bea0f8f94ba931b5367e8e718bd546563c91

4e22dfe12aad5354618c2c180918267221a22656

3f7cfe27f2b1178dd8cfead95deec9aa75805436

5df10de156b5470e546b56ab5e70ab0d7378ec9b

e70b1b8d4a469b44a771acc1acca2f6723cf2912

a4f0cad334addf4b57233a2a60ccf295ac3fdea9

14814831965c904e257b82e3cb7f4e5ae97acc37

3ecf0dcf81acb5a9150f6cbdd23890ca8fedb5cd

2373e790235c06eabb1c1b043d21e206cdeb825d

d7b8820b59219f8a4044fa4b8f0a71390de2a7cc

67823876ed2f57900b2db7f44b4b36c6a7065d56

c2baf79be2fc9b96b75a1030731481b753591590

9613d480114209bf933c14f41a66c180436553cf

f059e7bb72c3b708f2a3e89e22c8ab1ef7288f90

0444897adbbd66995bbbd81f874479c3f89d0fa0

f6bb37b915a5471ba023c414ffcae55b032e5e6a

973f1752335b6d01fdfcf56f8e6b9f4033a49a61

03b86a81c70a21c6871771ae4cd088fa7b3053f9

a96df03089bf19f4f7e09c07fd496deed357d4fb

f7e3dfaa54a3ab135f5b82589e0908c3d9c9f571

相关文章
|
1月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
77 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
92 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
67 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
82 0
|
2月前
|
SQL 存储 分布式计算
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
50 0
|
4月前
|
SQL 存储 分布式计算
|
8天前
|
监控 JavaScript 测试技术
postman接口测试工具详解
Postman是一个功能强大且易于使用的API测试工具。通过详细的介绍和实际示例,本文展示了Postman在API测试中的各种应用。无论是简单的请求发送,还是复杂的自动化测试和持续集成,Postman都提供了丰富的功能来满足用户的需求。希望本文能帮助您更好地理解和使用Postman,提高API测试的效率和质量。
48 11
|
1月前
|
JSON Java 测试技术
SpringCloud2023实战之接口服务测试工具SpringBootTest
SpringBootTest同时集成了JUnit Jupiter、AssertJ、Hamcrest测试辅助库,使得更容易编写但愿测试代码。
65 3
|
2月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
80 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)