数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoTable 计算加速】第十九讲


主题:Spark 对 OSS 上的 Parquet 数据进行查询加速uid+JindoFSOSS 上数据进行训练加速

讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JindoFS 计算加速介绍
  • 使用 JindoFS 计算加速
  • 演示


直播回放链接:(19讲)

https://developer.aliyun.com/live/247100

一、JindoFS 计算加速介绍

背景介绍:

当前数据湖市场规模正在飞速增长,随着数据规模的增长,基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储,相对于本地存储,其性能受到网络带宽和负载机器的影响,存在性能瓶颈和波动,同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。

JindoFS 计算加速:

JindoFS 通过 Native Engine 能够加速存储在 JindoFS / OSS 上面的 ORC / Parquet 文件, 配合 filter pushdownSpark / Hive / Presto 上明显的提升查询速度。

JindoFS 计算加速架构:

image.png

TPCDS 5T 测试:

image.png

TPCDS 5T 规模的 Spark 测试,使用 JindoFS 计算加速方案,平均 query 查询性能整体上较 Spark + parquet 的方案提升22.9%( GeoMean),总时间缩短从8158秒缩短到7309秒,下降12%


参考文章:

tpcds5t 查询性能报告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md


q96 查询对比:

spark 查询:

image.png

JindoFS 查询加速 :

image.png

结论:下推 filter 之后读取相同数据量时间缩短近一倍


二、使用 JindoFS 计算加速


Spark 使用 JindoFS 计算加速读取 Parquet 数据

前提:

已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本,且 Parquet 文件已存放至JindoFS OSS

Spark 使用 JindoFS 计算加速:

添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension


三、演示

演示内容:

  • Spark2.4 使用 JindoFS 计算加速      
  • Spark2.4 任务界面查看计算加速相关信息



参考文章:

计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP




点击回放链接,直接观看第19讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247100




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
3月前
|
存储 监控 BI
OSS日志查询
实时日志查询功能将OSS与日志服务SLS相结合,允许您在OSS控制台直接查询OSS的访问日志
35 1
|
4月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
8月前
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
558 0
|
8月前
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。通过和OSS团队的深入合作,AnalyticDB MySQL 的Spark能力 更好发挥了云原生数据湖方案的优势,本文为你详细解读!
|
9月前
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL Spark 助力在OSS上构建低成本数据湖
借助AnalyticDB MySQL Spark 可以轻松处理OSS上PB级数据,助力企业构建低成本数据湖
|
存储 缓存 NoSQL
文件上传oss,并查询上传进度(SpringBoot+Redis+Oss+Swagger3)
文件上传oss,并查询上传进度(SpringBoot+Redis+Oss+Swagger3)
文件上传oss,并查询上传进度(SpringBoot+Redis+Oss+Swagger3)
|
边缘计算 缓存 对象存储
阿里云OSS传输加速和CDN有什么区别?
阿里云对象存储OSS传输加速和阿里云CDN的区别
|
存储 数据安全/隐私保护 对象存储
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理(下)
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理(下)
307 0
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理(下)
|
存储 弹性计算 安全
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理(上)
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理
326 0
阿里云云计算ACP实验考试之使用OSS对图片进行基本处理(上)
|
存储 云安全 运维
如何安全存放数据到对象存储 OSS 及数据湖的13问
数据作为企业的血液和命脉,需要妥善的保存。对象存储作为云计算的数据存储底座,并且还在支持数据湖存储能力,它是企业存储数据的理想之地。但是如何安全的存放数据到存储,特别是公共云对象存储,相信不少的的数据负责人都会有很多疑问,本文从账户认证能力、网络安全配置、访问授权方法、数据加密功能、访问日志审计、数据安全机制等纬度总结了13个安全问题,帮助回答企业上云存放数据的安全顾虑。一、企业上云存放数据的安全
618 1
如何安全存放数据到对象存储 OSS 及数据湖的13问