数据湖实操讲解【OSS 访问加速】第十讲:Impala 如何高效查询 OSS 数据

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
+关注继续查看

本期导读 :【OSS 访问加速】第十讲


主题:Impala 如何高效查询 OSS 数据


讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 背景介绍
  • Impala 使用 JindoSDK
  • 具体演示


直播回放链接:(9/10讲)

https://developer.aliyun.com/live/246875



一、背景介绍


Apache Impala 介绍

能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架

image.png

使用 JindoSDK 高效查询 OSS 数据

  • JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS  提供高度优化的 Hadoop FileSystem 实现。
  • 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。


二、Impala 使用 JindoSDK

1、安装 jar 包

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将 sdk 包安装到 Impala 的 lib 下


  • 下载链接:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md


  • cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/


2、配置 JindoFSOSS 实现类

  • 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS

image.png


3、配置 OSS Access Key

  • 将 OSS 的Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的 core-site.xml 中

image.png


4、使用 JindoFS SDK 访问 OSS

image.png


三、具体演示


演示逻辑


  • 下载 JindoFS SDK
  • 将 jar 包拷贝到 $IMPALA_HOME/lib/
  • 修改 JindoSDK 配置
  • 演示 Impala 加载和查询 OSS 表


点击回放链接,直接观看第9/10讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246875


相关资源



  • Impala 使用 JindoSDK:
    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md



Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

image.png



相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
9月前
|
边缘计算 缓存 对象存储
阿里云OSS传输加速和CDN有什么区别?
阿里云对象存储OSS传输加速和阿里云CDN的区别
|
存储 对象存储 CDN
【对象存储OSS/网络分发加速CDN】使用OSS后,如何实现流量访问限制或请求次数的限制
描述使用对象存储OSS后,如何实现流量访问限制或请求次数的限制
1610 2
|
SQL 缓存 分布式计算
Spark 对 OSS 上的 ORC 数据进行查询加速 | 学习笔记
快速学习 Spark 对 OSS 上的 ORC 数据进行查询加速。
237 0
Spark 对 OSS 上的 ORC 数据进行查询加速 | 学习笔记
|
存储 SQL 分布式计算
Spar k对 OSS 上的 Parquet 数据进行查询加速 | 学习笔记
快速学习Spar k对 OSS 上的 Parquet 数据进行查询加速。
169 0
|
缓存 Kubernetes Cloud Native
Fluid十JindoFS 对 OSS 上的数据进行训练加速 | 学习笔记
快速学习Fluid十JindoFS 对 OSS 上的数据进行训练加速。
132 0
|
分布式计算 Hadoop Java
Hadoop/Spark 访问 OSS 加速 | 学习笔记
快速学习Hadoop/Spark 访问 OSS 加速。
347 0
|
缓存 分布式计算 Java
Spark 访问 OSS 透明缓存加速 | 学习笔记
快速学习Spark 访问 OSS 透明缓存加速。
172 0
Spark 访问 OSS 透明缓存加速 | 学习笔记
|
SQL 缓存 分布式计算
Presto 访问 OSS 透明缓存加速 | 学习笔记
快速学习 Presto 访问 OSS 透明缓存加速。
248 0
Presto 访问 OSS 透明缓存加速 | 学习笔记
|
缓存 tengine Unix
CDN加速OSS后未响应Content-MD5
OSS对于range请求不响应Content-MD5,这份响应被CDN缓存下来。后续客户端请求到对应的CDN节点,不管是否是range请求,由于CDN已经有缓存,就会直接返回之前缓存的不带Content-MD5的Response信息。
686 0
|
SQL 存储 缓存
数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第二十讲:Spark 对 OSS 上的 ORC 数据进行查询加速
热门文章
最新文章
相关产品
开源大数据平台 E-MapReduce
推荐文章
更多