文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

2019-10-08 2880

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

作者：王道远，花名健身，阿里云EMR技术专家，Apache Spark活跃贡献者，主要关注大数据计算优化相关工作。

视频链接：https://tianchi.aliyun.com/course/video?spm=5176.12282027.0.0.369a379cZrDREc&liveId=41101

Document_page_001

分四部分介绍阿里云EMR团队在Spark Relational Cache上的工作。
Document_page_002

项目介绍

EMR为用户提供了丰富的应用，可以进行各种数据分析。
Document_page_004

在云上进行数据分析时，需要在支持大规模数据的同时，实现快速的分析。Spark目前用户数量庞大，然而Spark目前的数据缓存机制，不支持缓存在跨会话共享，也需要使用者改写SQL查询才能利用缓存好的数据。
Document_page_005

Spark Relational Cache 内建于EMR Spark中，为这种场景提供了一种解决方案。
Document_page_006

Spark Relational Cache 用户透明且支持数据更新，未来还会支持缓存方案自动推荐。
Document_page_007

技术分析

核心技术主要分三部分：数据预计算、数据预组织、查询自动重写。
Document_page_009

数据预计算：由于数据之间是直接有关系的，查询间通常有一些通用模式。通过预计算可以大大加速查询。
Document_page_010

Spark Relational Cache 引入执行计划重写，用户无需修改查询语句即可使用缓存好的数据。
Document_page_011

下面是两个查询自动重写的简单示例。
Document_page_012
Document_page_013

数据预组织则是为了进一步优化读取预计算好的数据的过程。通过对数据进行排序和全局索引的构建，使用列式存储格式，在需要读取一定量的数据时，可以显著减少查询时间。
Document_page_014

如何使用

Spark Relational Cache 提供了 DDL 语句用于定义缓存。
Document_page_016

两种数据更新策略，在加速的同时能保证数据准确。Spark Relational Cache目前也支持基于分区的增量更新，后续会有更细粒度的增量更新支持。
Document_page_017

性能分析

用Star Schema Benchmark进行测试。
Document_page_019

由于EMR Spark的优化，1TB数据构建时间约为1小时，明显优于同类产品。
Document_page_020

使用 Spark Relational Cache 可以获得200倍以上的性能提升。
Document_page_021

欢迎加入Spark技术交流钉钉二群进行交流：

文章标签：

开源大数据平台 E-MapReduce

分布式计算

Spark

云栖大会

缓存

关键词：

云栖大会分析

apache spark分析

apache spark cache

apache spark交互式

apache spark交互式分析

健身不健身

目录

相关文章

张飞的猪

|

机器学习/深度学习分布式计算算法

Spark快速大数据分析PDF下载读书分享推荐

《Spark快速大数据分析》适合初学者，聚焦Spark实用技巧，同时深入核心概念。作者团队来自Databricks，书中详述Spark 3.0新特性，结合机器学习展示大数据分析。Spark是大数据分析的首选工具，本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center

张飞的猪

727 1 1

Spark快速大数据分析PDF下载读书分享推荐

敏叔V587

|

移动开发分布式计算 Spark

Spark的几种去重的原理分析

Spark的几种去重的原理分析

敏叔V587

661 0 0

疯狂的猿

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

460 0 0

扬流

|

SQL 分布式计算 Serverless

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

扬流

1087 58 58

技术小达人

|

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

405 0 0

六月的雨在钉钉

|

弹性计算分布式计算 Serverless

全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

【7月更文挑战第6天】全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

六月的雨在钉钉

24069 42 43

LKIDTI数据

|

设计模式数据采集分布式计算

企业spark案例 —出租车轨迹分析

企业spark案例 —出租车轨迹分析

LKIDTI数据

737 0 1

Z_sorrain

|

存储缓存分布式计算

Spark cache()与unpersist()使用位置

Spark在执行过程中是懒加载模式，RDD转换仅仅是构建DAG描述而不执行，只有遇到action算子才会真正的运行

Z_sorrain

292 9 9

扬流

|

SQL 分布式计算监控

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程，包括数据开发和生产调度以及交互式查询等场景。

扬流

57192 7 8

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

Spark in action on Kubernetes - Playground搭建与架构浅析

HIVE MapJoin异常问题处理总结

Spark中的资源调度

E-MapReduce的HBase集群使用Hue

E-MapReduce集群中HDFS服务集成Kerberos

通过可视化更好的了解你的Spark应用

E-MapReduce 2.0.0 版本发布

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

开源大数据周刊-第106期

Flink在快手的应用实践与技术演进之路

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！