【Spark Summit East 2017】商品集群上的时间演化图处理

简介: 本讲义出自Anand Iyer在Spark Summit East 2017上的演讲,主要介绍了构建于通用数据流框架上的时间演化图处理系统Tegra,并介绍了间隔拍摄(Timelapse)来呈现两个计算模型:用于对于进化图的多个快照进行计算的时序分析模型,以及能够有效更新结果的广义增量计算模型。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Anand Iyer在Spark Summit East 2017上的演讲,主要介绍了构建于通用数据流框架上的时间演化图处理系统Tegra,并介绍了间隔拍摄(Timelapse)来呈现两个计算模型:用于对于进化图的多个快照进行计算的时序分析模型,以及能够有效更新结果的广义增量计算模型。


4778049c6b934eaf2091c73fa2e1238596b7a727

66efa817617d374eb509eb23466b8649fe3c8123

6dd4ce72e0bc3853e4b1f617dee0f0f7aeaa6aca

44178f27c1d70bf4c13ecb9996b6ef31d76d3b5f

f3fbdc9f9b69b8f67859ff8c4e7b1699ea3fef20

a5c28461df13fc11633276d23017540bd4d591717547601539aa904f8bf5e8bc9a0481b85470a462

36e47a14f84b1df484ed95a2bd67e5917f8ee596

53b84befeb95f8901d0007e24c0e42048f64c0e2

a11ad4e926d9faed141c9df39618e7cad0af1dc8

10f6dccf92e041c0291ce9b50c71daa839e2e4f5

ef3187fc4d34ff9d8ccfa346f24de9cd151f5472

54e1a81dce80959edd9cb834fb1f0655097961d9

d26a5b545b1f874ab140474adeabc9b97e086bdc

a78cea5bd7247aece53fdddac1757f12aba5a97e

455b28208caf6497e207b3ae49666640ae9138ac

5d84b44a001dc5f830afb0da9e8e90622e8068a5

86208b4cece56231d7767c54e5021a96240c0396

f443bd7a49c0a2c4367c35e45ac0fcf03f6f0c1c

a18422904c001f0543522ede89e1c448b9196893

d368a5673600674d34f0de7e4b5886a34a4d25d3

b485313fe2aff92a8310000390ae682d9a1c28f4

a4d7b4dffaaf22b48e5ed903186444e815ee28d1

ee6dbd3786815319b61c66763e62ed2ea19a562f

a3a0544b5be26bdac31025c406ec017f7ca1ee19

061e765a89d0c3be39d777731b7e9489cce34348

7a43b65209fdb6278678446b9c634811816f17f6

8b46fe8d35d83af8be79f4fc2a282d0077bfe187

319b62209e0e0138f7a7c79f902d25718121cc63

83695a4915aef21c8184e757e2ff0362c6b0b323

2eb17e2f01f0fd83556aa4c2f1b24ddd78e1a01e

70cb5945c252c9363bc4686c6c738f8ed56fbd74

33c09ba99fc03268b4baf9d474fb5f93856f3be2

960ca8f6b263d61ade01b1d8158d546174eaae12

64db7303b83a88deb1fff88b84f9fba9d7608ca8

62f1974f42eef4de2d29d77445b9a992e68c10a0

相关文章
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
198 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
188 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
288 0
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
392 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
578 0
|
11月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
598 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1187 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
695 79