我将Spark作业提交给Yarn上的远程Spark集群,并在spark-submit中包含一个文件,--file我想将提交的文件作为数据框读取。但我对如何解决这个问题感到困惑,而不必将文件放在HDFS中:
spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar
spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")
employee.csv位于executor的工作目录中,只需按如下方式读取:val df = spark.read.csv(“employee.csv”)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。