【译】Spark-Alchemy:HyperLogLog的使用介绍

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 原文链接: [https://databricks.com/blog/2019/05/08/advanced-analytics-with-apache-spark.html] 译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

译者:辰石,阿里巴巴计算平台事业部EMR团队技术专家,目前从事大数据存储以及Spark相关方面的工作。

预先聚合是一种常用高性能分析的手段,通过该方法处理数据的规模可以下降1000倍, 例如网站访问记录可以产生100亿条记录,通过预先聚合可以减少到1000万条记录, 因此数据的处理成本以及处理时间都会相应的减少,此外用户还可以通过更高层次的聚合达到进一步的提升,例如在时间维度上按天进行聚合, 或者按照网站维度上进行聚合而非按照URL来进行聚合。

本篇文章主要介绍开源库spark-alchemy中的HyperLogLog功能 以及他是如何解决数据聚合过程中遇到挑战,首先介绍这些挑战

Reaggregation的挑战

Reaggregation的成立存在先决条件, 预先计算的维度可以再次进行聚合, 在字典释义中聚合表示可聚合性,通过进一步扩展该语义来解释reaggregation - 具有可以再次进行聚合的聚合, 求和,最大值,最小值都是可以reaggregation的, 但是distinct count是不支持reaggregation的,主要因为存在二次计数的问题, 统计每个网站的访问人数的总和并不等于访问网站的总人数,这是由于单个访问者可以访问多个网站。

这种不可重新聚合的特性使得计算distinct count的系统必须访问最细粒度的数据,因此每个查询需要访问每一行数据去统计distinct count。

standard-workflow.png

在大数据领域, distinct counts存在另外一个问题,在计算过程需要的内存大小是更需要统计不同结果集的大小成正比的,为了避免上述问题,近年来一些大数据平台如Apache Spark 以及面向分析的数据库如Amazon RedShift引入基数估计的算法,该算法使用HyperLogLog(HLL)去估计distinct counts, 在spark 中如果要使用基数估计算法,只要使用approx_count_distinct(x [, rsd])代替COUNT(DISTINCT x)就可以运行, 其中可选参数rsd代表可以容忍的误差, 在databricks的测试报告, HLL的聚合性能可以达到精确计算distinct count性能的2-8倍,误差率保持在1%以上,用户可以追求更高精度,但是HLL算法的运行时间可能要比精确计算distinct count时间更长。

2-8倍性能的提升的代价是误差率始终保持在1%以上, 这在某些场景下是不可接受的, 此外在预先聚合能带来1000倍的性能提升面前, 2-8倍性能显得微不足道, 对此我们能做些什么?下面首先介绍下HLL算法。

HyperLogLog算法

HLL算法在Spark 处理流程可以分为以下几个部分

  • Map阶段

    • 初始化HLL sketch数据结构
    • 为每个HLL sketch加入输入
    • 发送HLL sketch
  • Reduce

    • 合并所有的HLL sketches到聚合的sketch
  • Finalize

    • 从聚合的sketch中计算出distinct count的估计值

HLL sketch是支持reaggreation, reduce阶段合并产生的依旧是HLL sketch,用户可以序列化该结果,并将该结果持久化存储,作为预先聚合的一部分,为后续计算distinct count提供输入,这样就可以带来1000倍的提升。
这种方法还能另外一种好处,通过该方法用户可以将误差率控制1%以内,由于预先聚合可以带来1000倍的提升,我们可以花费更长的时间来计算HLL以便达到更小的误差率,在预先聚合阶段,花费2-5倍的计算预先聚合时间是可以接受的, 对大多数用户而言,性能提升的同时基本没有任何其他方面的牺牲。

Spark-Alchemy介绍: HLL 功能

由于Spark社区不支持HLL功能,Swoop将这部分功能作为spark-alchemy库的一部分进行开源,用户可以参照HLL文档提供的样例, 相比BigQuery的HLL支持,Spark alchemy提供了更加丰富的功能。

下图显示spark alchemy HLL是如何处理聚合的初始化(hll_init_agg), 重新聚合(hll_merg) 以及最后结果的展示(hll_cardinality).
workflow-with-hll-functions.png

如果用户担心HLL sketches的存储开销, 通过以下规则可以进行简单的估算: 精度提高2倍, HLL sketches的存储开销将会提升4倍, 在大部分应用程序中,记录数目的减少带来的存储开销的减少远远超过HLL sketch增加的开销

09_49_45__06_28_2019.jpg

HyperLogLog互操作性

Distinct count精确计算以及估算模式的相互切换以及将HLL sketches保存为列式数据可以避免用户在查询的时候遍历所有记录数据, 但是系统在准备HLL数据的时候还是需要访问所有的记录数据。 此外对于HLLsketches的序列化业界也没有统一的标准,所以HLL的数据在不同的系统中不能够共享, 这种互操作性的不便利性增加交互分析系统的分析成本以及复杂度。
交互式分析系统要求快速的响应时间,但是这个要求不是大数据系统核心的设计目标,这就是为什么现在交互式分析还运行在在关系型或者NoSQL数据库上的原因,没有HLL sketches的互操作性便利,用户可能在交互式查询还是使用原有的方式。
为了解决这个问题, spark alchemey在开发HLL相关功能时,提供了一种存储格式以及原生支持Postgres兼容的数据库, 这样对于要求快速响应时间的系统而言, spark就可以作为数据预处理统一平台, 这种架构的好处如下

  • 99%以上的数据通过spark进行管理,没有副本
  • 99%以上处理发生在spark支持,包括预先聚合
  • 交互式查询性能更高以及需要的资源更少

总结

本文展示了在使用spark alchemy 提供HLL数据结构,预先聚合如何为distinct counts的性能带来1000倍的性能提升, 除此以外由于提供了一种存储格式, HLL数据结构可以在spark, RDBMS甚至JavasCript之间共享。
高阶HLL处理只是spark alchemy提供的功能之一,如果你还有其他需求可以登录spark-alchemy网页获取更多的信息。
最后Swoop工程和科学团队感谢Databricks工程以及支持团队的合作。

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
3月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
124 1
Spark快速大数据分析PDF下载读书分享推荐
|
2月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
165 3
|
1月前
|
机器学习/深度学习 分布式计算 大数据
Spark 适合解决多种类型的大数据处理问题
【9月更文挑战第1天】Spark 适合解决多种类型的大数据处理问题
38 3
|
2月前
|
分布式计算 大数据 Apache
跨越界限:当.NET遇上Apache Spark,大数据世界的新篇章如何谱写?
【8月更文挑战第28天】随着信息时代的发展,大数据已成为推动企业决策、科研与技术创新的关键力量。Apache Spark凭借其卓越的分布式计算能力和多功能数据处理特性,在大数据领域占据重要地位。然而,对于.NET开发者而言,如何在Spark生态中发挥自身优势成为一个新课题。为此,微软与Apache Spark社区共同推出了.NET for Apache Spark,使开发者能用C#、F#等语言编写Spark应用,不仅保留了Spark的强大功能,还融合了.NET的强类型系统、丰富库支持及良好跨平台能力,极大地降低了学习门槛并拓展了.NET的应用范围。
52 3
|
2月前
|
分布式计算 大数据 数据处理
Apache Spark的应用与优势:解锁大数据处理的无限潜能
【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统,在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及,Spark必将成为企业实现数字化转型和业务创新的重要工具。未来,我们有理由相信,Spark将继续引领大数据处理技术的发展潮流,为企业创造更大的价值。
|
4月前
|
存储 分布式计算 Hadoop
Spark和Hadoop都是大数据处理领域的重要工具
【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具
164 59
|
2月前
|
Java Spring API
Spring框架与GraphQL的史诗级碰撞:颠覆传统,重塑API开发的未来传奇!
【8月更文挑战第31天】《Spring框架与GraphQL:构建现代API》介绍了如何结合Spring框架与GraphQL构建高效、灵活的API。首先通过引入`spring-boot-starter-data-graphql`等依赖支持GraphQL,然后定义查询和类型,利用`@GraphQLQuery`等注解实现具体功能。Spring的依赖注入和事务管理进一步增强了GraphQL服务的能力。示例展示了从查询到突变的具体实现,证明了Spring与GraphQL结合的强大潜力,适合现代API设计与开发。
59 0
|
2月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
70 2
|
3月前
|
分布式计算 Hadoop 大数据
Hadoop与Spark在大数据处理中的对比
【7月更文挑战第30天】Hadoop和Spark在大数据处理中各有优势,选择哪个框架取决于具体的应用场景和需求。Hadoop适合处理大规模数据的离线分析,而Spark则更适合需要快速响应和迭代计算的应用场景。在实际应用中,可以根据数据处理的需求、系统的可扩展性、成本效益等因素综合考虑,选择适合的框架进行大数据处理。
|
2月前
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
33 0
下一篇
无影云桌面