开发者社区> 问答> 正文

如何在 MR/Spark 作业中指定 OSS 数据源文件路径

开源大数据EMR 2019-04-26 15:35:29 281

如何在 MR/Spark 作业中指定 OSS 数据源文件路径

分布式计算 对象存储 Spark
分享到
取消 提交回答
全部回答(1)
  • 开源大数据EMR
    2019-07-17 23:34:20

    如下:OSS URL: oss://[accessKeyId:accessKeySecret@]bucket[.endpoint]/object/path

    用户在作业中指定输入输出数据源时使用这种 URI,可以类比 hdfs://。 用户操作 OSS 数据时:
    (建议)EMR 提供了 MetaService 服务,支持免 AK 访问 OSS 数据,直接写oss://bucket/object/path。
    (不建议)可以将 AccessKeyId,AccessKeySecret 以及 endpoint 配置到Configuration(Spark 作业是 SparkConf,MR 类作业是 Configuration)中,也可以在 URI中直接指定 AccessKeyId,AccessKeySecret 以及 endpoint。具体请参考开发准备一节

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程