开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

问下大数据计算MaxCompute odpssql 抽取样本数据会有重复数据是怎么回事啊?

问下大数据计算MaxCompute odpssql ORDER BY RAND() LIMIT 499472 抽取样本数据会有重复数据是怎么回事啊?

展开
收起
夹心789 2024-05-19 17:42:56 82 0
3 条回答
写回答
取消 提交回答
  • MaxCompute SQL的ORDER BY RAND()在执行时可能会导致重复数据,因为这不是真正的随机抽样。要无重复地抽取样本数据,可以使用SAMPLE关键字,如SAMPLE 0.01来获取1%的无偏样本。若需要特定数量的样本,可能需要多次采样并去重。如果需要确保无重复,您可以在外部应用中处理,例如通过UDF去重。
    image.png

    2024-07-05 16:37:26
    赞同 展开评论 打赏
  • 需要在odpscmd,截图中的这里 lQLPKGeeijz7WB3NBJbNB5awWHFVlSVzrCgGLeiWYpegAA_1942_1174.png
    ,此回答整理自钉群“MaxCompute开发者社区2群”

    2024-05-20 09:09:09
    赞同 展开评论 打赏
  • 有可能RAND() 是个假随机,所以可能出现若干重复值

    2024-05-19 17:48:00
    赞同 6 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载