开发者社区> 问答> 正文

检查spark数据帧中的空行?

运行几个csv文件,我试图运行并做一些检查,由于某种原因我得到一个文件NullPointerException,我怀疑有一些空行。

所以我运行以下内容,由于某种原因,它给了我一个OK输出:

check_empty = lambda row : not any([False if k is None else True for k in row])
check_empty_udf = sf.udf(check_empty, BooleanType())
df.filter(check_empty_udf(sf.struct([col for col in df.columns]))).show()
我在过滤器函数中遗漏了一些东西,或者我们无法从数据帧中提取空行。

展开
收起
社区小助手 2018-12-12 13:26:28 1700 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    您可以使用df.dropna()删除空行,然后比较计数。

    就像是

    df_clean = df.dropna()
    num_empty_rows = df.count() - df_clean.count()

    2019-07-17 23:20:06
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载