开发者社区大数据文章正文

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

2017-02-12 3653

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sital Kedia在Spark Summit EU上的演讲，主要介绍了60 TB+数据规模的Spark产品用例，他在开始时首先介绍了实体排序的用例，然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式，并对于两种实现方式进行了对比。最后还分享了关于Spark的可靠性、性能的提升技巧以及配置调优技巧。

cf033017364a527c2ceff84b763b765e1342d413

15e0578e2e80b7cb1c3b40c30dc35913ccc9f24b

025f5c36319ce01c5e4633b5611352115787e324

275fd9133cbe2bca77b225f31d077c425610a459

0f03d3368bee895abc67b44cad42485193078803

32bd29d995c5644e75367c79cb7485201a11d621

9f9c9755a8a031587b997560bf951a86cd8e02af

d6173dcf92230d5c2231bb33bf99dac3bb094544

13e3bf162e2e5194f6a1361aa7cd5fe96e69dd0d

2233dad41e090b21502637213f1a89f98b1e0551

465366daae4cb98011d8874770ab6240652aaf31

215e94fb3872b98e7e09325f09338ee152d2d4a8

e8d17da255bb385042cdd03644583de596c912db

e0805232f84daf24c27131fd1066803ed0da8bf7

7f53c0ea43018681eaf9e44cfef11e2eefbae640

db0f07ba8a14536892d9eb6a1612372878974da2

2e7ce700c6c653dc3735af5de95fe157ef880103

c155e2fe8e1209ecfeee4322b2f107284bb3cc87

d0d4aebdbdfc6db312db41143f955636d514891f

d690b91286b53667f3d6a2fe6f0a2b99f5d3246c

08c686567c87689b923cf48b028836e609b7f854

ff2f8a4f330fdef382e36fde22e2f2cb5de02cb4

529c8b23331949b37dd5309bd5d4dc90a768845a

7d83a9a825b91761e876c8bae76b9516c5b8a43a

b668de6e8e396f7959aa6bada1fc2bfb204d7b13

e5a29a5d900ff97059e519a6f1fe6f19c58bad35

文章标签：

分布式计算

Spark

关键词：

apache spark数据

apache spark产品

apache spark summit数据

apache spark summit

apache spark summit eu

小猫吃鱼569

武子康

11月前

分布式计算关系型数据库 MySQL

大数据-88 Spark 集群案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

武子康

116 3 3

wljslmz

存储分布式计算 Java

解释 Spark 与数据序列化格式的互操作性

【8月更文挑战第13天】

wljslmz

233 4 4

wljslmz

分布式计算监控大数据

如何处理 Spark 中的倾斜数据？

【8月更文挑战第13天】

wljslmz

514 4 4

wljslmz

存储缓存分布式计算

如何在 Spark 中持久保存数据，有哪些不同的存储级别可用？

【8月更文挑战第13天】

wljslmz

486 4 4

呆呆宝

分布式计算 Apache 数据安全/隐私保护

流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决

呆呆宝

141 1 1

大熊计算机

3月前

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

172 0 0

Echo_Wish

6月前

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

277 79 80

郑小健

10月前

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

647 2 3

武子康

11月前

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

181 0 0

武子康

11月前

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

163 0 0

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit EU 2016】60 TB+数据规模的Spark产品用例

热门文章

最新文章

相关课程

相关电子书