【Spark Summit EU 2016】一起聊数据:Elsevier的Spark观

简介: 本讲义出自Emlyn Whittick在Spark Summit EU上的演讲,他分享了数据的价值与所面临的挑战,并且以烹饪这一形象化的比喻分享了从数据收集到、依靠Spark对数据进行加工、处理等一系列过程,并且在这一过程中也分享了Spark的发展历程。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Emlyn Whittick在Spark Summit EU上的演讲,他分享了数据的价值与所面临的挑战,并且以烹饪这一形象化的比喻分享了从数据收集到、依靠Spark和DataBricks对数据进行加工、处理等一系列过程,并且在这一过程中也分享了Spark的发展历程。


99d4ae0c588e8bb9d2ade2943d84c82946c664b0

1958d6e6a96b4b57905290ae805470ef75894764

500d5db6870adccf3f24ef652ef3eddcec8db9c3

0a65cdb2d2b9b9af2219768d526602882af59f34

cec1971be7560932c5af91662d0dac09878dd4d5

92ec5421aa4c4f6456cc3e9d88c00008d0e2d9d7

12ba5cc82c88dadd30e0740fd05b6ed51a23ea31

aa7a4ad75fbc0cfad68c24dad31c330076438549

6e386e710463bc943e021a3d43ff2fe8b62f7c27

9007752b7c9987ae46b2b580e6f6669a9ec9519d

2fa9431c95fa982924742816c956ab6625de333f

61af8304637c1c01871e4de0932225fadd53501d

119d4d289784e4607c77c3ed9f8083cca55319b5

2c9190f26f2127b37c38e2796e5cb905b77ea742

218b850c9a571478682b3f9aebc2eaa73c6c4d79

6d1d41466f7d7fd4cc6fd1655fd5f72301f5bbac

93c24ebcd3fa790d5aacee097f37ae5f82d57c6c

622dfb5f4aa070b7fda1e91c947bb5f5651cdba1

a8410ede489d4c43abc6600f91f2034fae101d82

eeb4852dfd1a7bc143bb64558487ae4cedf4916b

438aab0e12d87fedff1fa852ab5ab03250477fc8

f4e317f91981e22db1c4fa6d06f8bcf3f4225c06

d24b4e439c8a0a5b9fe326c864009cdaff857071

8806966d6797e70f635f611af90dbfa1c3e7f667

1a0374ce61d8832248f0fdcf58f308d33c2a1306

47d702c2f65b834892d10e19de0cbc66cc37e590

ff0895febb08ff163bb7db256eb52e8da641f5e2

9719bcfc19747bb06200200f559efcb086e408eb

0530aeafc8a4708a8f863fb1d38ad4366c79f6d3

25f023057d95d878ca59eb4afe3727eb8d91ba3d

15983afc1809f24bfaf52177b21b4c04a2a13e36b7dfd0e5361fdc1aa16dfecafce3c9892406951a

相关文章
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
4月前
|
存储 分布式计算 Java
|
4月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
266 4
|
4月前
|
存储 缓存 分布式计算
|
4月前
|
SQL 存储 分布式计算
|
4月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
62 1
|
5月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
弹性计算 分布式计算 DataWorks
DataWorks产品使用合集之spark任务如何跨空间取表数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
47 1
|
6月前
|
SQL 分布式计算 HIVE
实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
分布式计算 定位技术 Scala
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
132 0