开发者社区大数据文章正文

【Spark Summit East 2017】商品集群上的时间演化图处理

2017-02-19 1901

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Anand Iyer在Spark Summit East 2017上的演讲，主要介绍了构建于通用数据流框架上的时间演化图处理系统Tegra，并介绍了间隔拍摄（Timelapse）来呈现两个计算模型：用于对于进化图的多个快照进行计算的时序分析模型，以及能够有效更新结果的广义增量计算模型。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Anand Iyer在Spark Summit East 2017上的演讲，主要介绍了构建于通用数据流框架上的时间演化图处理系统Tegra，并介绍了间隔拍摄（Timelapse）来呈现两个计算模型：用于对于进化图的多个快照进行计算的时序分析模型，以及能够有效更新结果的广义增量计算模型。

4778049c6b934eaf2091c73fa2e1238596b7a727

66efa817617d374eb509eb23466b8649fe3c8123

6dd4ce72e0bc3853e4b1f617dee0f0f7aeaa6aca

44178f27c1d70bf4c13ecb9996b6ef31d76d3b5f

f3fbdc9f9b69b8f67859ff8c4e7b1699ea3fef20

a5c28461df13fc11633276d23017540bd4d59171 7547601539aa904f8bf5e8bc9a0481b85470a462

36e47a14f84b1df484ed95a2bd67e5917f8ee596

53b84befeb95f8901d0007e24c0e42048f64c0e2

a11ad4e926d9faed141c9df39618e7cad0af1dc8

10f6dccf92e041c0291ce9b50c71daa839e2e4f5

ef3187fc4d34ff9d8ccfa346f24de9cd151f5472

54e1a81dce80959edd9cb834fb1f0655097961d9

d26a5b545b1f874ab140474adeabc9b97e086bdc

a78cea5bd7247aece53fdddac1757f12aba5a97e

455b28208caf6497e207b3ae49666640ae9138ac

5d84b44a001dc5f830afb0da9e8e90622e8068a5

86208b4cece56231d7767c54e5021a96240c0396

f443bd7a49c0a2c4367c35e45ac0fcf03f6f0c1c

a18422904c001f0543522ede89e1c448b9196893

d368a5673600674d34f0de7e4b5886a34a4d25d3

b485313fe2aff92a8310000390ae682d9a1c28f4

a4d7b4dffaaf22b48e5ed903186444e815ee28d1

ee6dbd3786815319b61c66763e62ed2ea19a562f

a3a0544b5be26bdac31025c406ec017f7ca1ee19

061e765a89d0c3be39d777731b7e9489cce34348

7a43b65209fdb6278678446b9c634811816f17f6

8b46fe8d35d83af8be79f4fc2a282d0077bfe187

319b62209e0e0138f7a7c79f902d25718121cc63

83695a4915aef21c8184e757e2ff0362c6b0b323

2eb17e2f01f0fd83556aa4c2f1b24ddd78e1a01e

70cb5945c252c9363bc4686c6c738f8ed56fbd74

33c09ba99fc03268b4baf9d474fb5f93856f3be2

960ca8f6b263d61ade01b1d8158d546174eaae12

64db7303b83a88deb1fff88b84f9fba9d7608ca8

62f1974f42eef4de2d29d77445b9a992e68c10a0

文章标签：

大数据

分布式计算

Spark

MaxCompute

关键词：

apache spark集群

apache spark summit集群

apache spark商品

apache spark图

apache spark时间

小猫吃鱼569

阿里云基础设施.

人工智能分布式计算调度

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

ACK One多集群Spark作业调度，可以帮助您在不影响集群中正在运行的在线业务的前提下，打破资源边界，根据各集群实际剩余资源来进行调度，最大化您多集群中闲置资源的利用率。

阿里云基础设施.

583 26 26

游客tvgb6vci6chtq

存储分布式计算调度

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

Spark Master 的高可用性（HA）机制确保主节点故障时，备用主节点能无缝接管集群管理，保障稳定运行。关键在于： 1. **Driver 和 Executor 独立**：任务执行不依赖 Master。 2. **应用状态保持**：备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**：快速选举新 Master 并同步状态。 4. **容错机制**：任务可在其他 Executor 上重新调度。这些特性保证了集群在 Master 故障时仍能正常运行。

游客tvgb6vci6chtq

358 7 7

武子康

SQL 分布式计算大数据

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（一）

武子康

198 0 0

武子康

SQL 分布式计算大数据

大数据-100 Spark 集群 Spark Streaming DStream转换黑名单过滤的三种实现方式（二）

武子康

188 0 0

武子康

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

288 0 0

武子康

消息中间件分布式计算 Kafka

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

武子康

392 0 0

武子康

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

578 0 0

大熊计算机

11月前

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

598 0 0

郑小健

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1187 2 3

Echo_Wish

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

695 79 80

【Spark Summit East 2017】商品集群上的时间演化图处理

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】商品集群上的时间演化图处理

热门文章

最新文章

相关课程

相关电子书