【Spark Summit EU 2016】Spark数据感知

简介: 本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃,为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就没有看上去那么合适了,事实上可能变得令人惊讶的缓慢甚至会崩溃,这就是所谓的数据倾斜(data-skew),为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节。


d1a698da4a4a7f46442409bdfdc3b0a3716d749f

edb68ed75752f3d447b5b9e9cf9695c0d4dd4e3d

f5b7a881f375e74064c85ae3459931862cee9029

6c90cb803595e51b543dd0621cc594de09550595

9894bae58ce2b2e3c74889efedad36dbe1f5d444

3df500533760579663d6d587b4625836d60da990

228767d9baf697166af2df20f74b0a495c3ec602

a54364034b1d0aa6b9555df91a57435b6b313d9d

839840382bcd1ea7d92825dad6127224fb3ba55c

75654cb75d7fc9800c0b6d1ff7a64513da03bce1

f2b1a14479ac6119f019ae773d52f28493ef9e74

f27a60545968ef74f60759c3359e0677047ae4d3

e4fbf08b7eccb419d61d445032f726435726c2fd

b51757d1b428014e3a90fdf485234431e218a454

3b0c2f4b0d4a7aa823e121883fa984bcf2cf2bff

063390e26f25a348e1ddb74d2e5a9c9490c3aaf6

30e2f0f44b395249f286b0648553681deb9fb11a

1dbacf6236bfb3f3bb7f0de22b940451de92dbd9

4388913f8168bd154710cca7d3bb5044b2ae8291

9c2d39e78523063e9c9ae50ea9bb7bab9ea644c2

a9f3f83606de627b9593e8493969c2779bc077f2

ab4a01d2dff277f6c7c2aebde45287d0df6d30db



2dc25c4f4e56be74bef158be71835120aeb5000c

51fd2a63a61041cf25877522ed8e1df19578884e

21db4d9330fd93f6e3018a8622c20881ece9a338

3041f0e1158098cd233b99c2d1518ff3de37c59b

a2f0613034d1f696e1e728e6decfb4b318e84f6a

0afc3c775545a2d66c786b68884518ca74aa06e4

c9afa7a9381e4f6a3d58b1c542493ca6c9f2204d

49f218fe5267e89819dd63a46eaa710baf781188

5f7f2c7428a817d618b4a54a6fbdd6f65af0f4f7

46f8dcb3440dae5e8dbd682bd2883a10106a7555

568aed82c7d01dae8f8ef338c6dfb4b585e1cdc2b101c438b513b4d9f5e2fa6f74bb418b6afca399


相关文章
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
4月前
|
存储 分布式计算 Java
|
4月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
266 4
|
4月前
|
存储 缓存 分布式计算
|
4月前
|
SQL 存储 分布式计算
|
4月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
62 1
|
5月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
弹性计算 分布式计算 DataWorks
DataWorks产品使用合集之spark任务如何跨空间取表数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
47 1
|
6月前
|
SQL 分布式计算 HIVE
实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
分布式计算 定位技术 Scala
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析
132 0