本期导读 :【OSS 访问加速】第十讲
主题:Impala 如何高效查询 OSS 数据
讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
- 背景介绍
- Impala 使用 JindoSDK
- 具体演示
直播回放链接:(9/10讲)
https://developer.aliyun.com/live/246875
一、背景介绍
Apache Impala 介绍
能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架
使用 JindoSDK 高效查询 OSS 数据
- JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。
- 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。
二、Impala 使用 JindoSDK
1、安装 jar 包
- 下载最新的jar包 jindofs-sdk-x.x.x.jar,将 sdk 包安装到 Impala 的 lib 下
- 下载链接:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
- cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/
2、配置 JindoFSOSS 实现类
- 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS
3、配置 OSS Access Key
- 将 OSS 的Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的 core-site.xml 中
4、使用 JindoFS SDK 访问 OSS
三、具体演示
演示逻辑
- 下载 JindoFS SDK
- 将 jar 包拷贝到 $IMPALA_HOME/lib/
- 修改 JindoSDK 配置
- 演示 Impala 加载和查询 OSS 表
⭐点击回放链接,直接观看第9/10讲视频回放,获取讲师实例讲解:
https://developer.aliyun.com/live/246875
相关资源
- 下载 JindoFS SDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
- Impala 使用 JindoSDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md
⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!