我想(在pyspark / spark内)。具体来说,数据框如下所示:
ID response_variable id_name
id_1 NULL "randomidDKHFD"
id_2 NULL NULL
id_3 NULL "randomid86438"
我希望能够转换数据帧,以便每当id_name具有非NULL条目时,response_variable变为1.因此,在此示例中:
ID response_variable in_data
id_1 1 "randomidDKHFD"
id_2 NULL NULL
id_3 1 "randomid86438"
有谁知道如何做到这一点?
您可以使用withColumn和when执行此操作
Python:
yourDf.withColumn("response_variable", when(col("id_name").isNotNull(), lit(1)).otherwise(col("response_variable")))
Scala:
yourDf.withColumn("response_variable", when(col("id_name").isNotNull, lit(1)).otherwise(col("response_variable")))
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。