开发者社区> 问答> 正文

在rdd中分区数据并保存分区块

rdd的内容

1|b|12-10-2015|David|20
2|c|12-10-2015|Moses|40
3|b|18-12-2016|Tom|30
4|c|18-12-2016|Bill|60
我想按类别和日期对数据进行分区,并按如下方式保存文件:

12102015_b

1|b|12-10-2015|David|20
12102015_c

2|c|12-10-2015|Moses|40
18122016_b

3|b|18-12-2016|Tom|30
18122016_c

4|c|18-12-2016|Bill|60

展开
收起
社区小助手 2018-12-12 13:30:41 2613 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    假设您在pyspark数据帧中拥有上述所有数据df。

    然后,您可以使用以下语句根据日期和类别对数据进行分区(但是,您可以根据业务逻辑确定顺序。)然后以各种不同的格式保存dataFrame。但是,我在下面的例子中使用csv。

    df.write.partitionBy("date", "category").csv("location_of_path")

    2019-07-17 23:20:07
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
HBase2.0重新定义小对象实时存取 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载