数据湖实操讲解【OSS 访问加速】第十讲:Impala 如何高效查询 OSS 数据

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【OSS 访问加速】第十讲


主题:Impala 如何高效查询 OSS 数据


讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 背景介绍
  • Impala 使用 JindoSDK
  • 具体演示


直播回放链接:(9/10讲)

https://developer.aliyun.com/live/246875



一、背景介绍


Apache Impala 介绍

能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架

image.png

使用 JindoSDK 高效查询 OSS 数据

  • JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS  提供高度优化的 Hadoop FileSystem 实现。
  • 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。


二、Impala 使用 JindoSDK

1、安装 jar 包

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将 sdk 包安装到 Impala 的 lib 下


  • 下载链接:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md


  • cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/


2、配置 JindoFSOSS 实现类

  • 配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS

image.png


3、配置 OSS Access Key

  • 将 OSS 的Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的 core-site.xml 中

image.png


4、使用 JindoFS SDK 访问 OSS

image.png


三、具体演示


演示逻辑


  • 下载 JindoFS SDK
  • 将 jar 包拷贝到 $IMPALA_HOME/lib/
  • 修改 JindoSDK 配置
  • 演示 Impala 加载和查询 OSS 表


点击回放链接,直接观看第9/10讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246875


相关资源



  • Impala 使用 JindoSDK:
    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md



Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

image.png



相关文章
|
8月前
|
存储 缓存 网络协议
如何使用CDN加速访问OSS存储的图片资源?
通过阿里云CDN加速OSS上的图片和视频资源,可显著提升访问速度、降低带宽成本。CDN将静态资源缓存至离用户最近的节点,减少加载时间,并提供图像处理、缓存优化等功能,提升用户体验。同时,CDN还支持访问数据分析,助力运营决策。本文详解如何通过CDN控制台配置OSS加速,包括添加域名、设置CNAME、配置缓存策略等步骤,帮助您快速实现资源加速。
|
11月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
8月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
存储 Kubernetes 对象存储
StrmVol存储卷:如何解锁K8s对象存储海量小文件访问性能新高度?
如何提升海量文件的数据读取速率,对于AI训练集管理、量化回测、时序日志分析等场景尤为重要。阿里云容器服务(ACK))支持StrmVol类型存储卷,基于底层虚拟块设备及内核态文件系统,显著降低海量小文件访问延迟。
|
11月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
1396 34
|
8月前
|
存储 安全 数据管理
服务器违规资源被删,数据定时备份OSS 云存储才是 “救命稻草”
在数字化时代,数据已成为企业与个人的核心资产。然而,服务器违规、硬件故障等问题频发,导致数据丢失、业务中断,甚至造成不可挽回的损失。为保障数据安全与业务连续性,定时备份至关重要。阿里云国际站OSS提供高效、可靠的云存储解决方案,支持自动定时备份,帮助用户轻松应对数据风险。本文详解OSS备份操作步骤与注意事项,助你为数据穿上“防护甲”,实现安全无忧存储。
|
6月前
|
存储 人工智能 Cloud Native
阿里云渠道商:OSS与传统存储系统的差异在哪里?
本文对比传统存储与云原生对象存储OSS的架构差异,涵盖性能、成本、扩展性等方面。OSS凭借高持久性、弹性扩容及与云服务深度集成,成为大数据与AI时代的优选方案。
|
8月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
8月前
|
存储 域名解析 前端开发
震惊!不买服务器,还可以用阿里云国际站 OSS 轻松搭建静态网站
在数字化时代,利用阿里云国际站OSS可低成本搭建静态网站。本文详解OSS优势及步骤:创建Bucket、上传文件、配置首页与404页面、绑定域名等,助你快速上线个人或小型业务网站,操作简单,成本低廉,适合初学者与中小企业。