如何用整数替换Null条件Pyspark Dataframe-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何用整数替换Null条件Pyspark Dataframe

社区小助手 2018-12-05 13:23:47 1504

我想(在pyspark / spark内)。具体来说,数据框如下所示:

ID response_variable id_name
id_1 NULL "randomidDKHFD"
id_2 NULL NULL
id_3 NULL "randomid86438"
我希望能够转换数据帧,以便每当id_name具有非NULL条目时,response_variable变为1.因此,在此示例中:

ID response_variable in_data
id_1 1 "randomidDKHFD"
id_2 NULL NULL
id_3 1 "randomid86438"
有谁知道如何做到这一点?

分布式计算 Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:18:20

    您可以使用withColumn和when执行此操作
    Python:

    yourDf.withColumn("response_variable", when(col("id_name").isNotNull(), lit(1)).otherwise(col("response_variable")))
    Scala:

    yourDf.withColumn("response_variable", when(col("id_name").isNotNull, lit(1)).otherwise(col("response_variable")))

    0 0
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题