备案控制台

开发者社区问答正文

E-MapReduce Spark如何简单操作 OSS 文件?

使用 OSS SDK 存在的问题

若在 Spark 或者 Hadoop 作业中无法直接使用 OSS SDK 来操作 OSS 中的文件，是因为OSS SDK 中依赖的http-client-4.4.x 版本与 Spark 或者 Hadoop 运行环境中的 http-client存在版本冲突。如果要这么做，就必须先解决这个依赖冲突问题。实际上在 E-MapReduce 中，Spark 和 Hadoop 已经对 OSS做了无缝兼容，可以像使用 HDFS 一样来操作 OSS 文件。

当前E-MapReduce环境支持MetaService服务，可以支持在E-MapReduce环境面AK访问OSS数据。旧的显示写AK的方式依旧支持，请注意在操作OSS的时候优先使用内网的Endpoint。
当您需要在本地进行测试的时候，才要用到OSS的外网的Endpoint，这样才能从本地访问到OSS的数据。

所有的Endpint可以参考 OSS Endpoint。

[font='iconfont'] 推荐做法（以免AK方式为例）

请您使用如下方法来查询 OSS 目录下的文件：

[Scala]
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{Path, FileSystem}
val dir = "oss://bucket/dir"
val path = new Path(dir)
val conf = new Configuration()
conf.set("fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem")
val fs = FileSystem.get(path.toUri, conf)
val fileList = fs.listStatus(path)
...
[Java]
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
String dir = "oss://bucket/dir";
Path path = new Path(dir);
Configuration conf = new Configuration();
conf.set("fs.oss.impl", "com.aliyun.fs.oss.nat.NativeOssFileSystem");
FileSystem fs = FileSystem.get(path.toUri(), conf);
FileStatus[] fileList = fs.listStatus(path);
...

展开

收起

nicenelly 2017-10-30 15:48:50 1906 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在使用阿里云对象存储服务（OSS）SDK时，特别是在与大数据处理框架如Spark或Hadoop集成的场景中，确实可能会遇到一些挑战，尤其是版本冲突问题。您已经提到了一个关键点：直接在Spark或Hadoop作业中使用OSS SDK可能会因为依赖库版本不兼容而出现问题。为了解决这一问题，并高效地在这些环境中操作OSS文件，可以采取以下几种策略：

利用E-MapReduce的原生支持：E-MapReduce是阿里云提供的一个托管服务，它集成了Hadoop、Spark等大数据处理框架，并对OSS进行了深度优化。通过E-MapReduce，您可以像操作HDFS一样无缝地访问和管理OSS中的数据，无需直接调用OSS SDK，从而避免了版本冲突的问题。
配置Hadoop File System实现：如您所示的代码片段，可以通过配置Hadoop的文件系统实现来间接访问OSS。通过设置fs.oss.impl属性为com.aliyun.fs.oss.nat.NativeOssFileSystem，可以让Hadoop识别并使用阿里云提供的OSS文件系统实现。这种方式允许您使用标准的Hadoop API进行文件操作，简化了代码编写和维护工作。
解决依赖冲突：如果必须直接在应用中使用OSS SDK，并且遇到了依赖冲突，可以通过以下方法尝试解决：
- Shaded SDK: 使用阿里云提供的带有重新打包（shaded）依赖的OSS SDK版本，这样可以避免与其他库的http-client冲突。
- 排除冲突依赖：在构建工具（如Maven或Gradle）中明确排除掉引起冲突的依赖，然后手动添加与当前环境兼容的http-client版本。
使用MetaService服务：E-MapReduce环境支持MetaService服务，允许用户以更安全的方式（如使用RAM角色而非直接暴露AccessKey和SecretKey）访问OSS资源。这不仅提高了安全性，也简化了权限管理。
Endpoint选择：正确选择内网或外网Endpoint对于性能和成本控制至关重要。在E-MapReduce集群内部操作OSS时，应优先使用内网Endpoint以减少出流量费用并提高传输速度。而在本地开发或测试时，则需使用外网Endpoint确保连通性。

综上所述，通过合理选择技术方案和配置，可以有效解决在大数据处理框架中使用OSS SDK时遇到的问题，同时保证数据操作的安全性和效率。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Hadoop Java Scala 开发工具对象存储 Spark 开源大数据平台 E-MapReduce 对象存储

问答标签：

spark对象存储 mapreduce文件 mapreduce spark mapreduce apache spark e-mapreduce apache spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

131

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

93

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

95

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

145

2

0

阿里云E-MapReduce中oss在这个do-while循环期间如果有新创建的文件是否能读取到呢？

150

0

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

117

1

0

OSS是否有提供文件的在线处理能力？

1169

3

0

dataphin外部表读取OSS的CSV文件，执行完，书记是空的，没有读到csv文件。

971

0

0

在对象存储服务 OSS 中，用户创建了存储空间（Bucket）之后，可以上传任何类型的文件（Obje

1649

1

0

这个URL必须是OSS上面的文件吗？可以是本地文件吗？

1103

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

一、Scala 基础语法、变量与数据类型

三、Scala方法与函数

二、Scala流程控制：分支与循环

四、Scala深入面向对象：类、对象与伴生关系

医院随访系统成品源码，二三级医院等级评审必备系统

还有其他疑问?