开发者社区大数据文章正文

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

2017-02-12 3622

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。最后还分享了关于Spark的可靠性、性能的提升技巧以及配置调优技巧。

cf033017364a527c2ceff84b763b765e1342d413

15e0578e2e80b7cb1c3b40c30dc35913ccc9f24b

025f5c36319ce01c5e4633b5611352115787e324

275fd9133cbe2bca77b225f31d077c425610a459

0f03d3368bee895abc67b44cad42485193078803

32bd29d995c5644e75367c79cb7485201a11d621

9f9c9755a8a031587b997560bf951a86cd8e02af

d6173dcf92230d5c2231bb33bf99dac3bb094544

13e3bf162e2e5194f6a1361aa7cd5fe96e69dd0d

2233dad41e090b21502637213f1a89f98b1e0551

465366daae4cb98011d8874770ab6240652aaf31

215e94fb3872b98e7e09325f09338ee152d2d4a8

e8d17da255bb385042cdd03644583de596c912db

e0805232f84daf24c27131fd1066803ed0da8bf7

7f53c0ea43018681eaf9e44cfef11e2eefbae640

db0f07ba8a14536892d9eb6a1612372878974da2

2e7ce700c6c653dc3735af5de95fe157ef880103

c155e2fe8e1209ecfeee4322b2f107284bb3cc87

d0d4aebdbdfc6db312db41143f955636d514891f

d690b91286b53667f3d6a2fe6f0a2b99f5d3246c

08c686567c87689b923cf48b028836e609b7f854

ff2f8a4f330fdef382e36fde22e2f2cb5de02cb4

529c8b23331949b37dd5309bd5d4dc90a768845a

7d83a9a825b91761e876c8bae76b9516c5b8a43a

b668de6e8e396f7959aa6bada1fc2bfb204d7b13

e5a29a5d900ff97059e519a6f1fe6f19c58bad35

文章标签：

分布式计算

Spark

关键词：

apache spark数据

apache spark产品

apache spark summit数据

apache spark summit

apache spark summit eu

小猫吃鱼569

武子康

3月前

分布式计算关系型数据库 MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

武子康

61 3 3

wljslmz

5月前

存储分布式计算 Java

解释 Spark 与数据序列化格式的互操作性

【8月更文挑战第13天】

wljslmz

85 4 4

wljslmz

5月前

分布式计算监控大数据

如何处理 Spark 中的倾斜数据？

【8月更文挑战第13天】

wljslmz

271 4 4

wljslmz

5月前

存储缓存分布式计算

如何在 Spark 中持久保存数据，有哪些不同的存储级别可用？

【8月更文挑战第13天】

wljslmz

229 4 4

呆呆宝

5月前

分布式计算 Apache 数据安全/隐私保护

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决

呆呆宝

72 1 1

知与谁同

分布式计算 Java Spark

Spark Streaming 数据清理机制

知与谁同

1081 0 0

祝威廉

分布式计算 Java Spark

Spark Streaming 数据清理机制

大家刚开始用Spark Streaming时，心里肯定嘀咕，对于一个7*24小时运行的数据，cache住的RDD,broadcast 系统会帮忙自己清理掉么？还是说必须自己做清理？如果系统帮忙清理的话，机制是啥？

祝威廉

3022 0 0

郑小健

2月前

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

180 2 3

武子康

3月前

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

82 0 0

武子康

3月前

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

56 0 0

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

热门文章

最新文章

相关课程

相关电子书