数据湖实操讲解【OSS 访问加速】第六讲:Hadoop/Spark 访问 OSS 加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【OSS 访问加速】第六讲


主题:Hadoop/Spark 访问 OSS 加速


讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JindoFS SDK 介绍
  • Hadoop 使用 JindoFS SDK
  • Spark 使用 JindoFS SDK
  • 演示


直播回放链接:(5/6讲)

https://developer.aliyun.com/live/246811



一、JindoFS SDK 介绍


  • JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS 提供高度优化的 HadoopFileSystem 实现。
  • 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。
  • 例如:

image.png


为什么使用 JindoFS SDK

  • 优异的性能表现:和开源版本的 Hadoop-OSS-SDK 进行对比,各项操作性能均显著好于 Hadoop-OSS-SDK
  • 良好的兼容性:兼容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop2.3 及以上的版本上验证通过
  • 专业团队维护:阿里云 EMRHadoop 团队维护,JindoFS Hadoop SDK 在阿里云 EMR等产品中广泛使用

  • 功能更新快:及时跟进 OSS 最新特性和优化,版本更新及时。



二、Hadoop 使用 JindoFS SDK 访问 OSS


安装 jar 包

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到hadoop的classpath下。

image.png


配置 JindoFSOSS 实现类

  • 将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。

image.png


配置 OSSAccess Key

  • 将OSS的AccessKey、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

image.png


使用 JindoFSSDK 访问 OSS

用HadoopShell访问OSS,下面列举了几个常用的命令。

  • put操作:hadoop fs -put <path> oss://<bucket>/  
  • ls 操作:hadoop fs -ls oss://<bucket>/
  • mkdir操作hadoopfs -mkdiross://<bucket>/<path>
  • rm操作:hadoop fs rm oss://<bucket>/<path>


三、Spark 使用 JindoFS SDK 访问 OSS


在 Spark CLASSPATH 中添加 JindoFS SDK

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到 Spark的classpath下。
  • cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

配置 JindoFS SDK

全局配置:参考 Hadoop 配置

任务级别配置:spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS --conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com

访问 OSS

  • 完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访问



四、演示


  1. 下载JindoFSSDK
  2. 将jar包拷贝到hadoopclasspath
  3. 修改配置
  4. 演示hadoop 命令
  5. 将jar包拷贝到Spark${SPARK_HOME}/jars
  6. 演示Spark 访问 OSS


直接观看第三课(5/6讲)视频回放,获取实例讲解~

https://developer.aliyun.com/live/246811


相关资源

1.下载JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.Hadoop 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md

3.Spark 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md





Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!


1835a71d3367446db32f7169e4ae62e3.jpg



相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
2月前
|
分布式计算 API Spark
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码
67 11
|
28天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
2天前
|
域名解析 弹性计算 应用服务中间件
基于nginx反向代理实现OSS固定域名IP访问
本文基于阿里云OSS手册:https://help.aliyun.com/zh/oss/use-cases/use-an-ecs-instance-that-runs-centos-to-configure-a-reverse-proxy-for-access-to-oss,继续深入讨论如何利用nginx反向代理,实现固定的IP/域名访问OSS bucket。官方文档能够解决大部分的反向代理固定IP访问oss bucket的场景,但是对于必须使用域名作为endpoint的系统,会出现signatrue鉴权问题。本文继续在官方文档的基础上,将反向代理需要域名作为endpoint的场景补齐方案。
|
14天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
2月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
108 2
|
2月前
|
弹性计算 开发工具 对象存储
ECS实例通过OSS内网地址访问OSS资源
ECS实例通过OSS内网地址访问OSS资源
45 0
|
2月前
|
存储 域名解析 应用服务中间件
阿里云OSS对象存储,实现内网访问,免流量费用
阿里云OSS对象存储,实现内网访问,免流量费用
451 1
|
3月前
|
域名解析 应用服务中间件 对象存储
解决阿里云oss图片浏览器访问直接下载而不是打开
解决阿里云oss图片浏览器访问直接下载而不是打开
529 0
|
4月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问