数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速-阿里云开发者社区

数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速

2021-05-26 1511

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【OSS 访问加速】第六讲

主题：Hadoop/Spark 访问 OSS 加速

讲师：流影，阿里巴巴计算平台事业部 EMR 技术专家

内容框架：

JindoFS SDK 介绍
Hadoop 使用 JindoFS SDK
Spark 使用 JindoFS SDK
演示

直播回放链接：（5/6讲）

https://developer.aliyun.com/live/246811

一、JindoFS SDK 介绍

JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端，为阿里云 OSS 提供高度优化的 HadoopFileSystem 实现。
通过 JindoFS SDK，可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。
例如：

为什么使用 JindoFS SDK

优异的性能表现：和开源版本的 Hadoop-OSS-SDK 进行对比，各项操作性能均显著好于 Hadoop-OSS-SDK
良好的兼容性：兼容市面上大部分 Hadoop 版本，JindoFS SDK 在 Hadoop2.3 及以上的版本上验证通过
专业团队维护：阿里云 EMRHadoop 团队维护，JindoFS Hadoop SDK 在阿里云 EMR等产品中广泛使用
功能更新快：及时跟进 OSS 最新特性和优化，版本更新及时。

二、Hadoop 使用 JindoFS SDK 访问 OSS

安装 jar 包

下载最新的jar包 jindofs-sdk-x.x.x.jar，将sdk包安装到hadoop的classpath下。

配置 JindoFSOSS 实现类

将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。

配置 OSSAccess Key

将OSS的AccessKey、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

使用 JindoFSSDK 访问 OSS

用HadoopShell访问OSS，下面列举了几个常用的命令。

put操作：hadoop fs -put <path> oss://<bucket>/
ls 操作：hadoop fs -ls oss://<bucket>/
mkdir操作：hadoopfs -mkdiross://<bucket>/<path>
rm操作：hadoop fs rm oss://<bucket>/<path>

三、Spark 使用 JindoFS SDK 访问 OSS

在 Spark CLASSPATH 中添加 JindoFS SDK

下载最新的jar包 jindofs-sdk-x.x.x.jar，将sdk包安装到 Spark的classpath下。
cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

配置 JindoFS SDK

全局配置：参考 Hadoop 配置

任务级别配置：spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS --conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com

访问 OSS

完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访问

四、演示

下载JindoFSSDK
将jar包拷贝到hadoopclasspath
修改配置
演示hadoop 命令
将jar包拷贝到Spark${SPARK_HOME}/jars
演示Spark 访问 OSS

直接观看第三课（5/6讲）视频回放，获取实例讲解~

https://developer.aliyun.com/live/246811

相关资源

1.下载JindoFS SDK：

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.Hadoop 使用 JindoSDK：

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md

3.Spark 使用 JindoSDK：

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速

本期导读：【OSS 访问加速】第六讲

一、JindoFS SDK 介绍

二、Hadoop 使用 JindoFS SDK 访问 OSS

三、Spark 使用 JindoFS SDK 访问 OSS

四、演示

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

数据湖实操讲解【OSS 访问加速】第六讲：Hadoop/Spark 访问 OSS 加速

本期导读 ：【OSS 访问加速】第六讲

一、JindoFS SDK 介绍

二、Hadoop 使用 JindoFS SDK 访问 OSS

三、Spark 使用 JindoFS SDK 访问 OSS

四、演示

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

本期导读：【OSS 访问加速】第六讲