【Spark Summit EU 2016】Apache Kudu&Spark SQL:对快数据进行快速分析

简介: 本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。


41eb70c4ff86f0995da0c3f99845799566f68d05

189bec42a6827768693dfcc82fc3f7d4d864effe

fddc86132c7eb3ca1d229a950e87d32d3a51f79f

0e3fe94d42c79ab6a3a827529707a370672a8032

9ac1180be026f2ab8b6d1aa5c809000d97e945b2

ac6e84d823968344e47a14498c8873e6080ae7e3

efeda8a0a8ea64fade1331458c7358820ad51169

a073e78e1d26f0121ea0dd924ef02c0dbb74812e

4e9434c2025d130421244ff0e913221e4bbe117a

2f90d649805c5b19485d74faf09f976e00fa430a

049c1090b31d6eedde85f1762734c253aa3c2873

92d45605846a51271e0a0eba29ccb6a5afc22cc8

4fa6c906fcd5f46f3fc71aeb8a0780d673d4de54

95bc9555073a20495d8f02a4464d70ca5d29b37b

a098f085db124abd6c7f05bbed4a0ef37ac18ae9

cb425d1fc6c5085d027bb5a0edc81b1d27117388

8a6c505b9e0265c2be3e3fa17fe09b2694a6a95e

3203fa966ac3d4cffe5437fc468ea05d9c35b735

e25607b47d1098a18b4b076db1d515607062f887

a60e9da8ef0da7dbf0dff6ee2c36ae35af4c40e2

ca677abb59a6f60e89b9820d46618d864062ddb1

ece3fd8d401aa2cc1589b697b36945c57b8f82d3

be0e560360ee7330d77024ef9ceb061d8ef90285

8d887d3a71e6afe56bf2f97b9e91f995fea5d7e2

8f4a9ca34c91c0787ead542418a2014bfdd88515

49774dd4c664673f25e48a28c2fc53b71949b546

4a76ddc19aadbc07b8e189cdb6c90b7293f7f056

6d09b166021743864a6093727f7e412268ca385b

f25eb947f2f3ed4724c55abbf72b5b5074d689c0

1778af8668ef6b76c8ba6494cf7984a9c744417c

475c436b244634914cc46e4151e732c4dfa28e16

88060f5eed8f4c51f822948e03d8dfcbb3b81cb1

4aa3fd523d1abf92dcef821208b9110a34a0a563

c663c3d15f3624fbdbd4f436a159b2780947b5cc

1155bae45d59646e2d9117f8b75e1df803adbd91

f6c707b478a68a968edae2daa2ab0e0b1a7be387

32c3a0484d973379c4c01f13946dba21d2fa1563

58af816cddc1034ee4180553eddfea2329c4292e

b6aa8c508511f7f7f8a9965362aeb9a7233933ab

418e3f5435232b17ed2ab5080c5d785fe54f35ff

dfad7e71fabaf01f8574ead62a3cae58d056ad46

8459bf50834c6de4a33e46f64e8de7541b121f87

c9565e2978fd159aa194dc96965de670be4af440

77935ff0192dd57a1753116538d21ad2e6c53e8f

c572ab80685faaad57ddcf72f4749e4dd35d1df2

1b0272c7d235816a7abae7ebfe983b7a72c651d2

1158acaa0cd13a586c10162822d4fbfe74b40618

相关文章
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
369 1
Spark快速大数据分析PDF下载读书分享推荐
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
313 0
|
8月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
172 0
|
12月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
575 58
|
12月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
391 0
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23884 42
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56795 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
409 1
|
SQL 分布式计算 关系型数据库
Spark 分析计算连续三周登录的用户数
本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据,接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL,分步骤实现:1)确定统计周期,2)筛选符合条件的数据,3)计算用户连续登录状态。在初始实现中出现错误,因未考虑日期在周中的位置,修正后正确计算出活跃用户数。
280 6
|
分布式计算 定位技术 Scala
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
259 0

热门文章

最新文章