从Redshift读入Spark Dataframe(Spark-Redshift模块)-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

从Redshift读入Spark Dataframe(Spark-Redshift模块)

2019-01-02 15:02:39 3740 1

我正在按照spark-redshift教程阅读redshift到spark(databricks)。我有以下代码:

val tempDir = "s3n://{my-s3-bucket-here}"

val jdbcUsername = "usernameExample"
val jdbcPassword = "samplePassword"
val jdbcHostname = "redshift.companyname.xyz"
val jdbcPort = 9293
val jdbcDatabase = "database"
val jdbcUrl = "sampleURL"

sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "SAMPLEAWSKEY")
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "SECRETKEYHERE")

val subs_dim = sqlContext.read.format("com.databricks.spark.redshift").option("url", jdbcUrl).option("tempdir", tempDir).option("dbtable", "example.exampledb").load()
现在,当我试图运行它时,我得到:

java.lang.IllegalArgumentException: requirement failed: You must specify a method for authenticating Redshift's connection to S3 (aws_iam_role, forward_spark_s3_credentials, or temporary_aws_*. For a discussion of the differences between these options, please see the README.
我有点困惑,因为我使用sc.hadoopConfiguration.set定义了awsAccesskeyID。=我想知道AWS密钥是错误的,还是我遗漏了什么?

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:24:24

    我认为唯一的原因是,由于您尚未设置,因此未将S3凭据传递给Redshift连接forward_spark_s3_credentials。

    在你的调试中添加以下操作。

    option("forward_spark_s3_credentials", "true");

    将Spark的S3凭据转发到Redshift:如果forward_spark_s3_credentials选项设置为true,则此库将自动发现Spark用于连接到S3的凭据,并将这些凭据通过JDBC转发到Redshift。

    0 0
相关问答

1

回答

拆分文本并在Spark Dataframe中查找常用词

2018-12-21 11:11:44 1860浏览量 回答数 1

1

回答

Noxmobi系统使用流式计算Spark Streaming的要求有哪些?

2021-12-08 18:27:58 423浏览量 回答数 1

1

回答

Noxmobi系统使用流式计算Spark Streaming的目的是什么?

2021-12-08 18:25:33 424浏览量 回答数 1

1

回答

Spark Streaming中的JobGenerator的作用是什么?

2021-12-07 20:14:49 186浏览量 回答数 1

1

回答

Spark Streaming SQL是什么?

2021-01-07 16:29:39 837浏览量 回答数 1

1

回答

在Spark Streaming Python中将RDD转换为Dataframe

2018-12-21 13:36:36 2303浏览量 回答数 1

1

回答

Spark Structured Streaming获取最后一个Kafka分区的消息

2018-12-10 16:20:26 2253浏览量 回答数 1

1

回答

spark streaming job运行卡住

2018-12-11 01:52:01 6670浏览量 回答数 1

1

回答

如何缓存spark streaming Dataset <Row>

2018-12-06 15:30:29 1813浏览量 回答数 1

1

回答

Spark Structured Streaming error读取字段'topic_metadata'时出错

2018-12-06 15:51:39 2288浏览量 回答数 1
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
文章
问答
问答排行榜
最热
最新
相关电子书
更多
Spark介绍及Spark多数据源分析
立即下载
GeoMesa on Spark SQL
立即下载
云HBaseSQL及分析 ——Phoenix&Spark
立即下载