开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute的外部表,是整个外部表全部读取出来然后筛选实际需要的吗?

大数据计算MaxCompute的外部表,是整个外部表全部读取出来然后筛选实际需要的吗?4731ff272b172cfaa110ac42cc40c09c.png

展开
收起
真的很搞笑 2023-12-03 19:24:42 49 0
2 条回答
写回答
取消 提交回答
  • MaxCompute的外部表并不需要把整个表的数据全部读取出来再进行筛选,而是支持仅读取用户实际需要的数据。当您创建外部表并映射OSS中的数据时,您可以只指定所需的数据路径和文件,而无需全量复制数据。然而,需要注意的是,对于外部表的搜索操作,由于其机制限制,目前仅支持全量搜索,所以可能相对较慢。此外,通过外部表,还可以实现对其他数据源(如Hologres或Tablestore)的数据进行处理。

    2023-12-04 16:58:48
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    MaxCompute的外部表,是一种可以关联到外部数据源的特殊类型表。创建外部表后,可以利用简单的DDL语句读取、写入以及管理这些外部数据源。例如,您可以在MaxCompute项目中创建与OSS目录映射的OSS外部表,从而提供对存储在OSS中的数据或需要将MaxCompute项目中的数据写入OSS目录时的接入和输出能力。

    当您需要使用MaxCompute读取存储在OSS目录中的数据时,必须首先创建好对应的OSS外部表,然后才能通过这个外部表读取OSS数据。值得注意的是,创建外部表的类型(分区表或非分区表)主要取决于OSS中数据文件的存储路径格式。

    关于筛选实际需要的数据,MaxCompute在处理大规模数据时,通常采用基于分区的并行处理方式。这种方式可以在读取数据时只读取需要的分区,从而减少不必要的数据传输和处理开销。因此,对于大型数据集的处理,通常会更高效。

    2023-12-03 21:23:00
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 热门讨论

    热门文章

    相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载