【Spark Summit East 2017】Spark中的草图数据和T-Digest

简介: 本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。


669279f0a2335fb5481183f7c6d017b3edfc84bd

ed52ee26ad21a517f97a4c2c47afbdf03559d3d6

536d5110ae6ebee8cb19c73da6431703b0ffa91d

4e12ae2bf5c747d937f3344ba901e8fd812ca402

5e1e5a371f33d853e84c1d4ca26fc8842e737766

ac2891a2a04dabc69b1c9d67fa37eabd5ab9cb3b

3cbe10ea69aab5924b740d69cb72b00dc340bcc4

a52fee6cfa199ba86ccab51f0f57ffccc8bd930d

dfc0332d7dd067edb1988685812f92b154599084

fa2c579203d9166c03ec5ea3a7a3455b9900a568

70e8cf3c13cdcebac87a4ee647e5cc4aaa5ebaf4

ded69b5a1a874f763b5e8ca609f5b03cb29b7de3

47635c4d7c117477a6fc817b5a044a7429ae88d0

80c38d841c460a50a6a428a61115fb37997d4d95

07cb4f8f4bc361296ba59059700735e8055dd23d

178a19eae5aa860e5d9b903e5a685ecc870efd52

e84b8e32b2fe85bf0f16419383b156c3cec21ca6

bc80559c7deb0a9ae531bed3c338f60616832e5f

044bc66b2f777f52adf6b05b23bece66294915e2

6a8ac030de682c9b523857fc56e1426fc9f22690

105ece2f9556f6d209ae8ff2b0da6f7d120dce4f

9473c83c046bd9ecbbdeca5a0ba2f21dd00b080f

621001a54e0bb557c043465be51079ebeffe591d

b36fd4fff192875c757992bad53cd9c74e3fcffc

046e0201934593d9baee1831487726406f8c6a33

c3184bddda49d86c693434bcd212058867d451e1

相关文章
|
3月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
63 3
|
5月前
|
存储 分布式计算 Java
|
5月前
|
分布式计算 监控 大数据
如何处理 Spark 中的倾斜数据?
【8月更文挑战第13天】
274 4
|
5月前
|
存储 缓存 分布式计算
|
5月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
73 1
|
2月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
197 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
3月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
83 0
|
3月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
56 0
|
3月前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
116 0
|
2月前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
128 6