Presto 如何高效查询 OSS 数据 | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习 Presto 如何高效查询 OSS 数据。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲Presto 如何高效查询 OSS 数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13969


Presto 如何高效查询 OSS 数据

 

内容介绍

一、Presto介绍:SQL-on-Anything

二、JindoSDK 安装

三、使用

四、相关资料


一、   Presto 介绍:SQL-on-Anything

1.    为性能和规模而生;

2.    存储计算分离,没有存储;

3.    最初针对 HDFS 进行设计;

4.    原地查询,无需迁移数据。

6.png

 

二、 JindoSDK 安装

1.    下载最新的 jar j indofs-sdk-x.x.x.jar,然后在所有 Presto 节点安装JindoFS SDK

cp jindofs-sdk-$(version)jar $PRESTO_HOME/plugin/hive-hadoop2/

2.    配置 JindoFS OSS 实现类

JindoFS OSS 实现类配置到所有 Presto 节点上的 Hadoop core-site.xml 中。

代码:

fs.AbstractFileSystem.oss.impl

com.aliyun.emr.fs.oss.0SS

fs.oss.impl

com.aliyun.emr.fs.oss.Jindo0ssFileSystem

3.    配置 OSS Access Key

请参考

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_credential_provider.md

4.    重启 Presto 所有服务,使配置生效

5.    现在 hive catalog 即可访问 OSS

 

三、   使用

l  查询演示

1.    安装 JindoSDK

2.    配置 Presto

3.    读取鸢尾花数据集并写入 OSS

4.     OSS 查询鸢尾花数据集

 

四、   相关资料

1.    下载 JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs-sdk-download.md

2.    Presto 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindosdkon presto.md

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
2月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
5月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
2月前
|
存储 安全 数据管理
服务器违规资源被删,数据定时备份OSS 云存储才是 “救命稻草”
在数字化时代,数据已成为企业与个人的核心资产。然而,服务器违规、硬件故障等问题频发,导致数据丢失、业务中断,甚至造成不可挽回的损失。为保障数据安全与业务连续性,定时备份至关重要。阿里云国际站OSS提供高效、可靠的云存储解决方案,支持自动定时备份,帮助用户轻松应对数据风险。本文详解OSS备份操作步骤与注意事项,助你为数据穿上“防护甲”,实现安全无忧存储。
|
5月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
591 34
|
7月前
|
存储 Ubuntu 数据管理
使用s3cmd 2.x 与 Cyberduck 管理在 DigitalOcean Spaces 对象存储中的数据
通过 `s3cmd` 2.x 和 Cyberduck,你可以轻松管理 DigitalOcean Spaces 中的数据。`s3cmd` 提供了强大的命令行操作能力,适合脚本化和自动化任务,而 Cyberduck 提供了直观的图形界面,便于日常手动操作。掌握这两种工具的使用方法,将极大提高你的数据管理效率。希望本文能帮助你更好地使用 DigitalOcean Spaces。
160 7
|
消息中间件 Kafka API
AutoMQ 对象存储数据高效组织的秘密: Compaction
AutoMQ是一款使用对象存储的消息系统,通过内存攒批和EBS持久化降低API调用成本。它有两种对象类型:Stream Set Object和Stream Object。Compaction过程用于数据清理、减少元数据和提升读取性能。Compaction包括SSO和SO两阶段,本文聚焦于SSO Compaction,涉及索引解析、排序、数据段分裂和迭代计划。每个迭代按内存限制划分任务,读取数据段并上传新对象,最后提交元数据更新。AutoMQ还有其他特性如Force Split和分级限流。团队由Apache RocketMQ和Linux LVS背景成员组成,致力于提供低成本、高弹性的消息服务。
180 0
AutoMQ 对象存储数据高效组织的秘密: Compaction
|
5天前
|
存储 人工智能 Cloud Native
阿里云渠道商:OSS与传统存储系统的差异在哪里?
本文对比传统存储与云原生对象存储OSS的架构差异,涵盖性能、成本、扩展性等方面。OSS凭借高持久性、弹性扩容及与云服务深度集成,成为大数据与AI时代的优选方案。
|
2月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
2月前
|
存储 域名解析 前端开发
震惊!不买服务器,还可以用阿里云国际站 OSS 轻松搭建静态网站
在数字化时代,利用阿里云国际站OSS可低成本搭建静态网站。本文详解OSS优势及步骤:创建Bucket、上传文件、配置首页与404页面、绑定域名等,助你快速上线个人或小型业务网站,操作简单,成本低廉,适合初学者与中小企业。
|
2月前
|
存储 安全 API
某网盘不好用?有没有类似某网盘的存储软件?阿里云国际站 OSS:云存储的全能助手,你 get 了吗?
在数据爆炸时代,阿里云国际站OSS提供海量、安全、低成本的云存储服务,支持多种数据类型存储与灵活访问,助力企业与个人高效管理数据,降低存储成本。开通简便,操作友好,是理想的云端数据解决方案。