我试图使用spark_session和sqlContext将本地文件作为数据帧加载。
df = spark_session.read...load(localpath)
它无法读取本地文件。df是空的。但是,在从spark_context创建sqlcontext之后,它可以加载本地文件。
sqlContext = SQLContext(spark_context)
df = sqlContext.read...load(localpath)
它工作正常。但我不理解为什么。原因是什么?
Envionment:Windows10,spark 2.2.1
我正在粘贴一个可能有用的示例代码。我们用它来创建一个Sparksession对象并用它读取一个本地文件:
import org.apache.spark.sql.SparkSession
object SetTopBox_KPI1_1 {
def main(args: Array[String]): Unit = {
if(args.length < 2) {
System.err.println("SetTopBox Data Analysis <Input-File> OR <Output-File> is missing")
System.exit(1)
}
val spark = SparkSession.builder().appName("KPI1_1").getOrCreate()
val record = spark.read.textFile(args(0)).rdd
总的来说,在Spark 2.2中,使用Spark的首选方法是创建一个SparkSession对象。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。