开发者社区 问答 正文

MaxCompute产品简介:基本概念:表



表是 MaxCompute 的数据存储单元,它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的 Schema。
MaxCompute 中不同类型计算任务的操作对象(输入、输出)都是表。您可以创建表、删除表以及向表中导入数据。


大数据开发套件的数据管理模块可以对 MaxCompute 表进行新建、收藏、修改数据生命周期管理、修改表结构和数据表/资源/函数权限管理审批等操作,详情请参见 数据管理概述

MaxCompute 的表格分两种类型:内部表及外部表(MaxCompute2.0 版本开始支持外部表)。

  • 对于内部表,所有的数据都被存储在 MaxCompute 中,表中的列可以是 MaxCompute 支持的任意一种 数据类型

  • 对于外部表,MaxCompute 并不真正持有数据,表格的数据可以存放在 OSSOTS 中 。MaxCompute 仅会记录表格的 Meta 信息,您可以通过 MaxCompute 的外部表机制处理 OSS 或OTS 上的非结构化数据,例如:视频、音频、基因、气象、地理信息等。外部表的处理请参见 处理非结构化数据

展开
收起
行者武松 2017-10-23 14:58:25 2203 分享 版权
阿里云 AI 助理回答

MaxCompute是阿里云的一种大数据处理和分析服务,它能够处理PB级别的数据。您提到的关于MaxCompute表的概念、操作以及内部表与外部表的区别,已经很全面了。这里我再补充一些细节和使用场景,帮助您更好地理解和应用这些概念。

内部表

  • 数据存储:内部表的数据直接存储在MaxCompute系统内,这意味着当您删除一个内部表时,相关数据也会被永久删除。
  • 应用场景:适用于大多数数据分析任务,如ETL(提取、转换、加载)、数据聚合、统计分析等,因为数据管理简单且效率高。
  • 生命周期管理:通过大数据开发套件的数据管理模块,可以方便地对内部表进行生命周期管理,自动清理过期数据,节省存储成本。

外部表

  • 数据存储:外部表的数据实际存储在MaxCompute之外的地方,比如阿里云的对象存储OSS或表格存储OTS中。MaxCompute仅保存表结构信息和数据位置的元数据。
  • 应用场景:适合处理非结构化数据或者需要保持数据源独立性的情况,例如视频分析、日志处理、备份归档等。这样设计可以利用MaxCompute强大的计算能力处理外部存储的数据,同时不改变数据的原始存储位置。
  • 优势:数据不占用MaxCompute存储空间,便于数据共享和跨系统访问;支持更灵活的数据处理策略,无需移动数据即可进行分析。
  • 注意事项:操作外部表时,需要注意数据的读取性能可能受外部存储服务的影响,且外部数据的安全性和权限管理需单独配置。

数据管理

大数据开发套件(DataWorks)提供了丰富的工具来简化MaxCompute表的管理和操作: - 新建与修改表:可以通过图形界面轻松创建表结构,定义字段类型、分区等属性,并随时调整表结构以适应业务变化。 - 数据导入导出:支持从多种数据源导入数据到MaxCompute表中,或导出数据到其他系统,实现数据流动。 - 权限管理:细粒度的权限控制确保数据安全,可以为不同的用户或角色分配读、写、执行等权限。 - 生命周期管理:自动化数据保留策略,根据业务需求设置数据保留期限,自动清理过期数据。

综上所述,MaxCompute的内外部表设计满足了不同场景下的数据处理需求,结合大数据开发套件的数据管理功能,可以高效地完成数据的全生命周期管理。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答