本期导读 :【OSS 访问加速】第六讲
主题:Hadoop/Spark 访问 OSS 加速
讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
- JindoFS SDK 介绍
- Hadoop 使用 JindoFS SDK
- Spark 使用 JindoFS SDK
- 演示
直播回放链接:(5/6讲)
https://developer.aliyun.com/live/246811
一、JindoFS SDK 介绍
- JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS 提供高度优化的 HadoopFileSystem 实现。
- 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。
- 例如:
为什么使用 JindoFS SDK
- 优异的性能表现:和开源版本的 Hadoop-OSS-SDK 进行对比,各项操作性能均显著好于 Hadoop-OSS-SDK
- 良好的兼容性:兼容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop2.3 及以上的版本上验证通过
- 专业团队维护:阿里云 EMRHadoop 团队维护,JindoFS Hadoop SDK 在阿里云 EMR等产品中广泛使用
- 功能更新快:及时跟进 OSS 最新特性和优化,版本更新及时。
二、Hadoop 使用 JindoFS SDK 访问 OSS
安装 jar 包
- 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到hadoop的classpath下。
配置 JindoFSOSS 实现类
- 将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。
配置 OSSAccess Key
- 将OSS的AccessKey、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。
使用 JindoFSSDK 访问 OSS
用HadoopShell访问OSS,下面列举了几个常用的命令。
- put操作:hadoop fs -put <path> oss://<bucket>/
- ls 操作:hadoop fs -ls oss://<bucket>/
- mkdir操作:hadoopfs -mkdiross://<bucket>/<path>
- rm操作:hadoop fs rm oss://<bucket>/<path>
三、Spark 使用 JindoFS SDK 访问 OSS
在 Spark CLASSPATH 中添加 JindoFS SDK
- 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到 Spark的classpath下。
- cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/
配置 JindoFS SDK
全局配置:参考 Hadoop 配置
任务级别配置:spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS --conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com
访问 OSS
- 完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访问
四、演示
- 下载JindoFSSDK
- 将jar包拷贝到hadoopclasspath
- 修改配置
- 演示hadoop 命令
- 将jar包拷贝到Spark${SPARK_HOME}/jars
- 演示Spark 访问 OSS
直接观看第三课(5/6讲)视频回放,获取实例讲解~
https://developer.aliyun.com/live/246811
相关资源
1.下载JindoFS SDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md
2.Hadoop 使用 JindoSDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md
3.Spark 使用 JindoSDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md
⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!