开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute有没有可能pk的desc extend的数据是包括各个版本的数据,?

大数据计算MaxCompute有没有可能pk的desc extend的数据是包括各个版本的数据,所以filenum数量比较多?但其实最新版本snaphot的file_num已经很小了

展开
收起
真的很搞笑 2023-07-25 17:39:30 65 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在阿里云的大数据计算 MaxCompute 产品中,PK(Primary Key)是用于标识表中唯一记录的一列或多列。当您在使用 PK 进行数据查询和操作时,MaxCompute 会根据 PK 的值对数据进行排序和分组,以提高查询和计算的效率。

    对于包含版本信息的表或分区,如果使用 PK 进行数据查询和操作,MaxCompute 会默认按照版本号进行排序和分组。因此,如果您的查询语句中没有指定版本号的范围或者条件,MaxCompute 可能会返回包含各个版本的数据。

    如果您希望查询特定版本的数据,可以在查询语句中加入版本号的限制条件,例如:

    Copy
    SELECT * FROM my_table WHERE version = '20210701';
    这样可以确保查询结果只包含特定版本的数据

    2023-07-29 09:05:53
    赞同 展开评论 打赏
  • 在大数据计算MaxCompute中,DESC EXTENDED命令返回的结果可能包含了各个版本(Snapshot)的数据,导致file_num数量比较多。每个版本的数据文件都有一个独立的file_num

    当使用DESC EXTENDED命令查看表的扩展信息时,会显示表的详细结构,包括每个分区的元数据和对应的数据文件。如果表存在多个版本(例如通过Snapshot或者其他操作引起的版本变更),那么会显示每个版本的file_num

    需要注意的是,最新版本(通常是当前版本)的file_num可能会更小,因为它只统计了该版本下的数据文件数目。而旧版本的数据文件数量可能会较多,导致总体的file_num数量较大。

    如果您只关心最新版本的数据文件数量,可以考虑从DESC EXTENDED的结果中筛选出最新版本的信息,并统计该版本的file_num。这样就可以获得最新版本下的数据文件数量。

    2023-07-28 18:43:50
    赞同 展开评论 打赏
  • 我昨天也在跟pd确认是不是对于transaction 2.0表的小文件,不应该从filenum来看,还没有结果。,此回答整理自钉群“MaxCompute开发者社区2群”

    2023-07-25 17:51:17
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载