使用带引号的字符串读取spark数据-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

使用带引号的字符串读取spark数据

社区小助手 2018-12-21 11:53:35 702

我有以下给出的csv数据文件,每一行都由回车符(' r')终止

但是某些文本值是多行字段,其中行分隔符为换行符(' n')。如何使用spark数据源api选项来处理这些问题。

分布式计算 API Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:23:21

    Spark 2.2.0增加了对解析多行CSV文件的支持。您可以使用以下内容来读取多行的csv:

    val df = spark.read
    .option("sep", ",")
    .option("quote", "")
    .option("multiLine", "true")
    .option("inferSchema", "true")
    .csv(file_name)

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题