数据湖实操讲解【 JindoTable 计算加速】第十九讲:Spark 对 OSS 上的 Parquet 数据进行查询加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoTable 计算加速】第十九讲


主题:Spark 对 OSS 上的 Parquet 数据进行查询加速uid+JindoFSOSS 上数据进行训练加速

讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JindoFS 计算加速介绍
  • 使用 JindoFS 计算加速
  • 演示


直播回放链接:(19讲)

https://developer.aliyun.com/live/247100

一、JindoFS 计算加速介绍

背景介绍:

当前数据湖市场规模正在飞速增长,随着数据规模的增长,基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储,相对于本地存储,其性能受到网络带宽和负载机器的影响,存在性能瓶颈和波动,同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。

JindoFS 计算加速:

JindoFS 通过 Native Engine 能够加速存储在 JindoFS / OSS 上面的 ORC / Parquet 文件, 配合 filter pushdownSpark / Hive / Presto 上明显的提升查询速度。

JindoFS 计算加速架构:

image.png

TPCDS 5T 测试:

image.png

TPCDS 5T 规模的 Spark 测试,使用 JindoFS 计算加速方案,平均 query 查询性能整体上较 Spark + parquet 的方案提升22.9%( GeoMean),总时间缩短从8158秒缩短到7309秒,下降12%


参考文章:

tpcds5t 查询性能报告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md


q96 查询对比:

spark 查询:

image.png

JindoFS 查询加速 :

image.png

结论:下推 filter 之后读取相同数据量时间缩短近一倍


二、使用 JindoFS 计算加速


Spark 使用 JindoFS 计算加速读取 Parquet 数据

前提:

已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本,且 Parquet 文件已存放至JindoFS OSS

Spark 使用 JindoFS 计算加速:

添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension


三、演示

演示内容:

  • Spark2.4 使用 JindoFS 计算加速      
  • Spark2.4 任务界面查看计算加速相关信息



参考文章:

计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP




点击回放链接,直接观看第19讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247100




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关文章
|
11月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
8月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
9月前
|
SQL 存储 运维
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
324 0
|
7月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
8月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
8月前
|
存储 安全 数据管理
服务器违规资源被删,数据定时备份OSS 云存储才是 “救命稻草”
在数字化时代,数据已成为企业与个人的核心资产。然而,服务器违规、硬件故障等问题频发,导致数据丢失、业务中断,甚至造成不可挽回的损失。为保障数据安全与业务连续性,定时备份至关重要。阿里云国际站OSS提供高效、可靠的云存储解决方案,支持自动定时备份,帮助用户轻松应对数据风险。本文详解OSS备份操作步骤与注意事项,助你为数据穿上“防护甲”,实现安全无忧存储。
|
11月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
1342 34
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
755 1
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
下一篇
开通oss服务