2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》


作者:王道远,花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。


视频链接:https://tianchi.aliyun.com/course/video?spm=5176.12282027.0.0.369a379cZrDREc&liveId=41101


Document_page_001

分四部分介绍阿里云EMR团队在Spark Relational Cache上的工作。
Document_page_002

项目介绍

EMR为用户提供了丰富的应用,可以进行各种数据分析。
Document_page_004

在云上进行数据分析时,需要在支持大规模数据的同时,实现快速的分析。Spark目前用户数量庞大,然而Spark目前的数据缓存机制,不支持缓存在跨会话共享,也需要使用者改写SQL查询才能利用缓存好的数据。
Document_page_005

Spark Relational Cache 内建于EMR Spark中,为这种场景提供了一种解决方案。
Document_page_006

Spark Relational Cache 用户透明且支持数据更新,未来还会支持缓存方案自动推荐。
Document_page_007

技术分析

核心技术主要分三部分:数据预计算、数据预组织、查询自动重写。
Document_page_009

数据预计算:由于数据之间是直接有关系的,查询间通常有一些通用模式。通过预计算可以大大加速查询。
Document_page_010

Spark Relational Cache 引入执行计划重写,用户无需修改查询语句即可使用缓存好的数据。
Document_page_011

下面是两个查询自动重写的简单示例。
Document_page_012
Document_page_013

数据预组织则是为了进一步优化读取预计算好的数据的过程。通过对数据进行排序和全局索引的构建,使用列式存储格式,在需要读取一定量的数据时,可以显著减少查询时间。
Document_page_014

如何使用

Spark Relational Cache 提供了 DDL 语句用于定义缓存。
Document_page_016

两种数据更新策略,在加速的同时能保证数据准确。Spark Relational Cache目前也支持基于分区的增量更新,后续会有更细粒度的增量更新支持。
Document_page_017

性能分析

用Star Schema Benchmark进行测试。
Document_page_019

由于EMR Spark的优化,1TB数据构建时间约为1小时,明显优于同类产品。
Document_page_020

使用 Spark Relational Cache 可以获得200倍以上的性能提升。
Document_page_021

欢迎加入Spark技术交流钉钉二群进行交流:
image

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
5月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
188 1
Spark快速大数据分析PDF下载读书分享推荐
|
7月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
144 0
|
7月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
267 0
|
7月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
7月前
|
SQL 分布式计算 HIVE
Spark数据倾斜问题分析和解决
Spark数据倾斜问题分析和解决
94 0
|
2月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
174 2
|
2月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
103 0
|
3月前
|
存储 缓存 分布式计算
Spark cache()与unpersist()使用位置
Spark在执行过程中是懒加载模式,RDD转换仅仅是构建DAG描述而不执行,只有遇到action算子才会真正的运行
54 9
|
5月前
|
弹性计算 分布式计算 Serverless
全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测
23727 42
|
7月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56607 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用