开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

请教一个问题. 使用PAI, df.persist(table)写数据到maxcompute表的时候

请教一个问题. 使用PAI, df.persist(table)写数据到maxcompute表的时候, 数据会加倍, 1-6倍甚至12倍, 这种情况有人遇到过吗

展开
收起
雪哥哥 2022-11-27 12:04:42 410 0
1 条回答
写回答
取消 提交回答
  • 可能是由于您的程序中存在重复写入的情况,您可以尝试使用df.distinct()方法去除重复的数据,然后再次写入MaxCompute表中。

    另外,您也可以尝试使用df.write.mode('overwrite')方法覆盖原有的数据。

    2023-01-18 12:11:19
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载