我想要做的是整合s3上文件夹中的一些数据,并将数据(统一)保存在同一目录中。可能吗 ?
我已经尝试过:
DF1.write.mode("overwrite").format("parquet").partitionBy("month").save("s3://path/db/table/")
但它似乎在可以读取和合并之前清除目录。
您可以使用各种不同的模式来保存数据,例如追加:附加数据,覆盖:覆盖数据等等。
你可以在这里找到有关pyspark模式的更多信息:
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter.save
但是,如果上面的信息没有用,那么如果您还可以详细说明“统一”数据的含义是什么,可能会有所帮助。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。