开发者社区> 问答> 正文

Spark DataFrame处理损坏的记录

在spark dataFrame中,如何处理损坏的记录?实际上,我正在寻找损坏的记录应该持久到另一个文件供以后审查。模式 - DROPMALFORMED选项将从数据集中删除损坏的记录。

val data = sparkSession.read

                   .option("mode", "DROPMALFORMED")
                   .json("file:///C:/finances.json")

展开
收起
社区小助手 2018-12-12 11:28:33 1877 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    如果要保留corrupted记录,则可以将这些记录过滤到另一个数据帧并将其写入文件。

    这里的问题是使用PERMISSIVE(默认)而不是 DROPMALFORMED模式,因为它会丢弃您想要捕获的损坏记录。

    PERMISSIVE:尝试解析所有行:为缺少的标记插入空值,忽略额外的标记。

    然后,根据您的clause of corruptness,,您可以过滤行的null值。

    2019-07-17 23:20:04
    赞同 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载