开发者社区> 问答> 正文

如何用整数替换Null条件Pyspark Dataframe

我想(在pyspark / spark内)。具体来说,数据框如下所示:

ID response_variable id_name
id_1 NULL "randomidDKHFD"
id_2 NULL NULL
id_3 NULL "randomid86438"
我希望能够转换数据帧,以便每当id_name具有非NULL条目时,response_variable变为1.因此,在此示例中:

ID response_variable in_data
id_1 1 "randomidDKHFD"
id_2 NULL NULL
id_3 1 "randomid86438"
有谁知道如何做到这一点?

展开
收起
社区小助手 2018-12-05 13:23:47 3578 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    您可以使用withColumn和when执行此操作
    Python:

    yourDf.withColumn("response_variable", when(col("id_name").isNotNull(), lit(1)).otherwise(col("response_variable")))
    Scala:

    yourDf.withColumn("response_variable", when(col("id_name").isNotNull, lit(1)).otherwise(col("response_variable")))

    2019-07-17 23:18:20
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Data Wrangling with PySpark for Data Scientists Who Know Pandas 立即下载
ApacheSpark’sPerformanceProjec 立即下载
LEARNINGS USING SPARK STREAMING & DATAFRAMES FOR WALMART SEARCH 立即下载