开发者社区大数据文章正文

【Spark Summit EU 2016】Spark数据感知

2017-02-14 1887

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲，聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好，但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃，为了应对这一问题，Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲，聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好，但是将应用部署到真实的数据集上时就没有看上去那么合适了，事实上可能变得令人惊讶的缓慢甚至会崩溃，这就是所谓的数据倾斜（data-skew），为了应对这一问题，Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。本讲义就介绍了这个基于Spark的数据感知分布式数据处理框架的技术细节。

d1a698da4a4a7f46442409bdfdc3b0a3716d749f

edb68ed75752f3d447b5b9e9cf9695c0d4dd4e3d

f5b7a881f375e74064c85ae3459931862cee9029

6c90cb803595e51b543dd0621cc594de09550595

9894bae58ce2b2e3c74889efedad36dbe1f5d444

3df500533760579663d6d587b4625836d60da990

228767d9baf697166af2df20f74b0a495c3ec602

a54364034b1d0aa6b9555df91a57435b6b313d9d

839840382bcd1ea7d92825dad6127224fb3ba55c

75654cb75d7fc9800c0b6d1ff7a64513da03bce1

f2b1a14479ac6119f019ae773d52f28493ef9e74

f27a60545968ef74f60759c3359e0677047ae4d3

e4fbf08b7eccb419d61d445032f726435726c2fd

b51757d1b428014e3a90fdf485234431e218a454

3b0c2f4b0d4a7aa823e121883fa984bcf2cf2bff

063390e26f25a348e1ddb74d2e5a9c9490c3aaf6

30e2f0f44b395249f286b0648553681deb9fb11a

1dbacf6236bfb3f3bb7f0de22b940451de92dbd9

4388913f8168bd154710cca7d3bb5044b2ae8291

9c2d39e78523063e9c9ae50ea9bb7bab9ea644c2

a9f3f83606de627b9593e8493969c2779bc077f2

ab4a01d2dff277f6c7c2aebde45287d0df6d30db

2dc25c4f4e56be74bef158be71835120aeb5000c

51fd2a63a61041cf25877522ed8e1df19578884e

21db4d9330fd93f6e3018a8622c20881ece9a338

3041f0e1158098cd233b99c2d1518ff3de37c59b

a2f0613034d1f696e1e728e6decfb4b318e84f6a

0afc3c775545a2d66c786b68884518ca74aa06e4

c9afa7a9381e4f6a3d58b1c542493ca6c9f2204d

49f218fe5267e89819dd63a46eaa710baf781188

5f7f2c7428a817d618b4a54a6fbdd6f65af0f4f7

46f8dcb3440dae5e8dbd682bd2883a10106a7555

568aed82c7d01dae8f8ef338c6dfb4b585e1cdc2 b101c438b513b4d9f5e2fa6f74bb418b6afca399

文章标签：

物联网

分布式计算

Spark

关键词：

apache spark数据

apache spark summit数据

apache spark summit

apache spark summit eu

apache spark summit eu数据

小猫吃鱼569

武子康

分布式计算关系型数据库 MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

武子康

235 3 3

wljslmz

存储分布式计算 Java

解释 Spark 与数据序列化格式的互操作性

【8月更文挑战第13天】

wljslmz

533 4 4

wljslmz

分布式计算监控大数据

如何处理 Spark 中的倾斜数据？

【8月更文挑战第13天】

wljslmz

1041 4 4

wljslmz

存储缓存分布式计算

如何在 Spark 中持久保存数据，有哪些不同的存储级别可用？

【8月更文挑战第13天】

wljslmz

801 4 4

wljslmz

SQL 存储分布式计算

如何使用 Spark SQL 从 DataFrame 查询数据？

【8月更文挑战第13天】

wljslmz

928 4 4

呆呆宝

分布式计算 Apache 数据安全/隐私保护

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决

呆呆宝

325 1 1

三分钟热度的鱼

分布式计算数据处理流计算

实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时，如何实时查看数据变化

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

259 1 1

冲冲冲c

弹性计算分布式计算 DataWorks

DataWorks产品使用合集之spark任务如何跨空间取表数据

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

冲冲冲c

207 1 1

三分钟热度的鱼

SQL 分布式计算 HIVE

实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取

三分钟热度的鱼

450 3 3

孜倦与shine

分布式计算定位技术 Scala

使用spark基于出租车GPS数据实现车辆数量统计以及北京每个城区的车辆位置点数分析

孜倦与shine

416 0 0

【Spark Summit EU 2016】Spark数据感知

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit EU 2016】Spark数据感知

热门文章

最新文章

相关课程

相关电子书