开发者社区> 问答> 正文

从Redshift读入Spark Dataframe(Spark-Redshift模块)

社区小助手 2019-01-02 15:02:39 630

我正在按照spark-redshift教程阅读redshift到spark(databricks)。我有以下代码:

val tempDir = "s3n://{my-s3-bucket-here}"

val jdbcUsername = "usernameExample"
val jdbcPassword = "samplePassword"
val jdbcHostname = "redshift.companyname.xyz"
val jdbcPort = 9293
val jdbcDatabase = "database"
val jdbcUrl = "sampleURL"

sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "SAMPLEAWSKEY")
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "SECRETKEYHERE")

val subs_dim = sqlContext.read.format("com.databricks.spark.redshift").option("url", jdbcUrl).option("tempdir", tempDir).option("dbtable", "example.exampledb").load()
现在,当我试图运行它时,我得到:

java.lang.IllegalArgumentException: requirement failed: You must specify a method for authenticating Redshift's connection to S3 (aws_iam_role, forward_spark_s3_credentials, or temporary_aws_*. For a discussion of the differences between these options, please see the README.
我有点困惑,因为我使用sc.hadoopConfiguration.set定义了awsAccesskeyID。=我想知道AWS密钥是错误的,还是我遗漏了什么?

分布式计算 Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:24:24

    我认为唯一的原因是,由于您尚未设置,因此未将S3凭据传递给Redshift连接forward_spark_s3_credentials。

    在你的调试中添加以下操作。

    option("forward_spark_s3_credentials", "true");

    将Spark的S3凭据转发到Redshift:如果forward_spark_s3_credentials选项设置为true,则此库将自动发现Spark用于连接到S3的凭据,并将这些凭据通过JDBC转发到Redshift。

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程