Impala 如何高效查询 OSS 数据 | 学习笔记

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 快速学习 Impala 如何高效查询 OSS 数据。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲Impala 如何高效查询 OSS 数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13970


Impala 如何高效查询 OSS 数据

 

内容介绍

一、背景介绍

二、Impala 使用 JindoSDK

三、 演示


一、   背景介绍

1. ApacheImpala 介绍

能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的布式 MPP 查询框架.

1.png2.    使用 JindoSDK 高效查询 OSS 数据

JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。

通过 JindoFS SDR,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。

 

二、   Impal a使用 JindoSDK

1.    安装 jar

下载最新的 jar jindofs-sdk-x.x.x.jar,将sdk包安装到Impalalib下。

cp jindofs-sdk-$(version].jar $IMPALA_HOME/lib/

2.    配置 JindoFS OSS 实现类

配置IMPALA使用的 core-site.xml配置JindoFS SDK 访问 OSS

代码

fs.AbstractFileSystem.oss.impl

com.aliyun.emr.fs.oss.0SS

fs.oss.impl

com.aliyun.emr.fs.oss.Jindo0ssFileSystem

3.    配置 OSS Access Key

OSS Access KeyAccess Key SecretEndpoint 等预先配置在 Hadoop core-site.xml 中。

代码

jindo.common.accessKeyId

xxx

jindo.comon.accessKeySecret

xocx

jindo.comon.oss.endpoint

oss-cn-xox,aliyuncs.comk/value>

4.    使用JindoFSSDK访问OSS

1)    下载测试数据集链接;

2)    上传数据

hadoop fs -put test_data oss://bucket/dir

3)    创建表

CREATE EXTERNAL TABLE customer_demographics(

`cd_demo_sk` INT,

`cd_gender` STRING,

`cd _marital_status` STRING,

`cd_education_status` STRING,

`cd_purchase_estinate` INT,

`cd_credit_rating` STRING,

`cd_dep_count` INT,

`cd_dep_employed_count` INT,

`cd_dep_college_count` INT)

STORED AS PARQUET

LOCATIONOSS://bucket/dir;

4)    查询 OSS

select * from customer_demographics;

 

三、   演示

1.    下载 JindoFS SDK

2.    jar 包拷贝到 $IMPALA_HOME/lib/

3.    修改 JindoSDK 配置;

4.    演示 Impala 加载和查询 OSS

l  补充:相关资源

1.  下载 JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.    lmpala 使用:

JindoSDK:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk on impala.md

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
7月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
4月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
4月前
|
存储 安全 数据管理
服务器违规资源被删,数据定时备份OSS 云存储才是 “救命稻草”
在数字化时代,数据已成为企业与个人的核心资产。然而,服务器违规、硬件故障等问题频发,导致数据丢失、业务中断,甚至造成不可挽回的损失。为保障数据安全与业务连续性,定时备份至关重要。阿里云国际站OSS提供高效、可靠的云存储解决方案,支持自动定时备份,帮助用户轻松应对数据风险。本文详解OSS备份操作步骤与注意事项,助你为数据穿上“防护甲”,实现安全无忧存储。
|
7月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
732 34
|
2月前
|
存储 人工智能 Cloud Native
阿里云渠道商:OSS与传统存储系统的差异在哪里?
本文对比传统存储与云原生对象存储OSS的架构差异,涵盖性能、成本、扩展性等方面。OSS凭借高持久性、弹性扩容及与云服务深度集成,成为大数据与AI时代的优选方案。
|
4月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
4月前
|
存储 域名解析 前端开发
震惊!不买服务器,还可以用阿里云国际站 OSS 轻松搭建静态网站
在数字化时代,利用阿里云国际站OSS可低成本搭建静态网站。本文详解OSS优势及步骤:创建Bucket、上传文件、配置首页与404页面、绑定域名等,助你快速上线个人或小型业务网站,操作简单,成本低廉,适合初学者与中小企业。
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
248 0

热门文章

最新文章