我知道我可以编写一个udf来将空字符串映射为null,但是我的数据有很多列(100+),因此由于涉及许多转换,因此似乎会降低性能。json解析器上是否有任何标志/选项只是从一开始就将null写入?
尝试这个:
df = spark.read.load('file:///home/zht/PycharmProjects/test/json_file.json', format='json')
myfunc = f.UserDefinedFunction(lambda *args: map(lambda x: None if x == '' else x, args),
returnType=ArrayType(StringType()))
cols = df.columns
df = df.select(myfunc(*cols)).rdd.flatMap(lambda x: x)
df = spark.createDataFrame(df, schema=cols)
df.show()
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。