【Spark Summit EU 2016】Apache Kudu&Spark SQL:对快数据进行快速分析

简介: 本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。


41eb70c4ff86f0995da0c3f99845799566f68d05

189bec42a6827768693dfcc82fc3f7d4d864effe

fddc86132c7eb3ca1d229a950e87d32d3a51f79f

0e3fe94d42c79ab6a3a827529707a370672a8032

9ac1180be026f2ab8b6d1aa5c809000d97e945b2

ac6e84d823968344e47a14498c8873e6080ae7e3

efeda8a0a8ea64fade1331458c7358820ad51169

a073e78e1d26f0121ea0dd924ef02c0dbb74812e

4e9434c2025d130421244ff0e913221e4bbe117a

2f90d649805c5b19485d74faf09f976e00fa430a

049c1090b31d6eedde85f1762734c253aa3c2873

92d45605846a51271e0a0eba29ccb6a5afc22cc8

4fa6c906fcd5f46f3fc71aeb8a0780d673d4de54

95bc9555073a20495d8f02a4464d70ca5d29b37b

a098f085db124abd6c7f05bbed4a0ef37ac18ae9

cb425d1fc6c5085d027bb5a0edc81b1d27117388

8a6c505b9e0265c2be3e3fa17fe09b2694a6a95e

3203fa966ac3d4cffe5437fc468ea05d9c35b735

e25607b47d1098a18b4b076db1d515607062f887

a60e9da8ef0da7dbf0dff6ee2c36ae35af4c40e2

ca677abb59a6f60e89b9820d46618d864062ddb1

ece3fd8d401aa2cc1589b697b36945c57b8f82d3

be0e560360ee7330d77024ef9ceb061d8ef90285

8d887d3a71e6afe56bf2f97b9e91f995fea5d7e2

8f4a9ca34c91c0787ead542418a2014bfdd88515

49774dd4c664673f25e48a28c2fc53b71949b546

4a76ddc19aadbc07b8e189cdb6c90b7293f7f056

6d09b166021743864a6093727f7e412268ca385b

f25eb947f2f3ed4724c55abbf72b5b5074d689c0

1778af8668ef6b76c8ba6494cf7984a9c744417c

475c436b244634914cc46e4151e732c4dfa28e16

88060f5eed8f4c51f822948e03d8dfcbb3b81cb1

4aa3fd523d1abf92dcef821208b9110a34a0a563

c663c3d15f3624fbdbd4f436a159b2780947b5cc

1155bae45d59646e2d9117f8b75e1df803adbd91

f6c707b478a68a968edae2daa2ab0e0b1a7be387

32c3a0484d973379c4c01f13946dba21d2fa1563

58af816cddc1034ee4180553eddfea2329c4292e

b6aa8c508511f7f7f8a9965362aeb9a7233933ab

418e3f5435232b17ed2ab5080c5d785fe54f35ff

dfad7e71fabaf01f8574ead62a3cae58d056ad46

8459bf50834c6de4a33e46f64e8de7541b121f87

c9565e2978fd159aa194dc96965de670be4af440

77935ff0192dd57a1753116538d21ad2e6c53e8f

c572ab80685faaad57ddcf72f4749e4dd35d1df2

1b0272c7d235816a7abae7ebfe983b7a72c651d2

1158acaa0cd13a586c10162822d4fbfe74b40618

相关文章
|
1月前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
39 1
|
15天前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
1月前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
58 1
|
1月前
|
分布式计算 Java 大数据
大数据-147 Apache Kudu 常用 Java API 增删改查
大数据-147 Apache Kudu 常用 Java API 增删改查
33 1
|
1月前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
23 0
|
1月前
|
存储 分布式计算 大数据
大数据-145 Apache Kudu 架构解读 Master Table 分区 读写
大数据-145 Apache Kudu 架构解读 Master Table 分区 读写
45 0
|
1月前
|
存储 分布式计算 NoSQL
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
37 0
|
1月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
47 0
|
1月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
81 0
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
37 0

推荐镜像

更多
下一篇
无影云桌面