大数据和机器学习 > 大数据计算 MaxCompute > 正文

MaxCompute的分区配置和使用

简介: 详细介绍MaxCompute里的分区的用法
+关注继续查看

创建表的时候,可以设置普通列和分区列。在绝大多数情况下,可以把普通列理解成数据文件的数据,而分区列可以理解成文件系统的目录。所以表的存储空间的占用,讲的是普通列的空间占用。分区列虽然不直接存储数据,但是如同文件系统里的目录,可以起到方便数据管理,并在计算只指定具体的分区的时候,只查询对应分区减少计算量的作用。

分区列的设置

创建分区表的语法可以参考这里。这里分别举2个例子方便理解:
screenshot

从这里可以看到分区表的创建方式。目前分区列只支持STRING类型。BIGINT目前是还在测试中,并无法保证其计算准确性,暂时还不建议大家使用。

目前分区表的分区列的个数不能超过6级,也可以理解成底层存储数据的目录层数不能超过6层。

分区的创建

关于分区和分区键的区别,可以先参考这个说明。对应到前面的说明,分区键的设置只是设置了一个规范,定义了表下的文件存储的目录规则需要是ds='xxx'。然后分区ds='20150101'对应一个目录,分区ds='20150102'对应到另外一个目录。

分区的作用

分区的作用主要有2部分。其一是能方便数据的管理。使用了分区后,一张表的数据被分到多个不同的分区里。比如日志表如果我们根据日期(天)进行分区,那么每个分区里都是单独一天的数据。如果有一天我们希望能归档历史数据到某个地方,或者删除过旧的数据,就只需要处理对应的分区即可。在这里还需要提一下Lifecycle设置生命周期的功能,可以设置数据的过期时间,单位为天。MaxCompute 会根据每张表的LastDataModifiedTime以及Lifecycle的设置来判断是否要回收此表。如果这张表是分区表,则根据各分区的LastDataModifiedTime判断该分区是否该被回收。所以假如设置了过期时间是100天,然后数据是每天同步到一个分区里,历史分区的数据写入后不再修改追加(LastDataModifiedTime不变),那么100天之前的历史数据会被自动删除,减少运维成本。

但是更加有意义的是,如果计算中使用方法得当,分区表参与计算的时候能只从指定的分区里读取数据作为输入,从而能减少计算量,缩短计算时间,还能减少费用。以下是一个典型的例子:ods_oplog表里有我模拟的2天(20161113、20161114)的日志(一共5条),ds作为分区。假如我的这次计算只需要20161113的数据,我们可以用SQL:
screenshot
从这个SQL的执行计划和最后的结果来看,虽然表里有2个分区,但是因为使用了where ds='20161113',所以查询的时候只用到了ds='20161113'一个分区的数据,剩下的数据没有做为input参与计算。

使用限制

分区虽然好,但是也不能滥用。目前对分区主要有2个限制。首先是单个表的分区个数上限目前是6万个。其次是单次查询做执行计划解析的时候,查的分区数不能大于1万,否则会报这个。对于这个问题,需要在设计表结构的时候,不要使用诸如用户ID一类的字段做分区列,否则一旦需要做全表查询的时候就可能报错了。

目前还有一个问题,如果查询只根据二级分区进行过滤,因为没有指定一级分区所以会扫描所有一级分区,也一样可能会出现这个错误。

SQL

关于SQL里查询条件怎么使用到分区带来的好处,前面的分区的例子其实已经提到了。只是需要注意的是,目前分区列需要是STRING类型,所以SQL里要写成ds='20161113'不要写成ds=20161113以避免自动类型转换后得到预期外的结果。
对于分区表,数据写入的时候需要指定数据写入的分区,用文档里的例子:

    insert overwrite table sale_detail_insert partition (sale_date='2013', region='china')
        select customer_id, shop_name, total_price from sale_detail;

再对应到前面提到的文件和目录的说法,因为数据的目录不存放具体的数据,只需要指定数据具体写到哪个目录后,把普通列的数据select出来后写入到表里就可以了。

但是确实有一些场景,需要把查询结果,根据某个字段的值,智能得写入到对应的分区里,那就需要用到动态分区,具体的语法可以参考

    create table total_revenues (revenue bigint) partitioned by (region string);
    insert overwrite table total_revenues partition(region)
        select total_price as revenue, region
            from sale_detail;

以上两功能的详细说明都可以参考文档

JAVA

在JAVA里,分区的对应的就是com.aliyun.odps.PartitionSpec了。这个类有2个构造,除了无参构造,还有一个传入字符串的。

public PartitionSpec(String spec)
通过字符串构造此类对象
参数:
spec - 分区定义字符串,比如: pt='1',ds='2'

这是一个实际使用,需要传入PartitionSpec 的例子(使用SDK创建一个新的分区)

        Account account = new AliyunAccount(accessId, accessKey);
        Odps odps = new Odps(account);
        odps.setEndpoint(endpoint);
        odps.setDefaultProject(project);

        Tables ts = odps.tables();
        Table t = ts.get("p2");
        String partition = "area='CN',pdate='20160101'";
        PartitionSpec partitionSpec = new PartitionSpec(partition);
        t.createPartition(partitionSpec);

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
MaxCompute查看分区表某个分区生成时间
MaxCompute查看分区表某个分区生成时间
124 0
MaxCompute 费用暴涨之新增SQL分区裁剪失败
现象:因业务需求新增了SQL任务,这SQL扫描的表为分区表,且SQL条件里表只指定了一个分区,按指定的分区来看数据量并不大,但是SQL的费用非常高。费用比预想的结果相差几倍甚至10倍以上。 若只知道总体费用暴涨,但是没明确是什么任务暴涨,可以可以参考查看账单详情-使用记录文档,找出费用异常的记录。
3427 0
在MaxCompute中配置Policy策略遇到结果不一致的问题
通过policy配置权限后,在DataWorks和console上验证出现结果不一致问题
2056 0
MaxCompute UDF配置汇总
MaxCompute UDF为数据开发人员提供了较SQL更加灵活的数据处理方式,使得在数据处理过程中,不再只是局限在SQL提供的能力,可以根据自己的需求对功能进行定制,也可以引入其他优秀的程序包简化开发的难度和工作量。
2029 0
阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区
当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务(Maxcompute,原ODPS)(https://www.aliyun.com/product/odps?spm=5176.doc27800.765261.309.dcjpg2),利用其强大的存储和计算能力进行各种查询计算,结果再回流到RDS。
9081 0
阿里云大数据利器之-RDS迁移到Maxcompute实现自动分区
当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务(Maxcompute,原ODPS)(https://www.aliyun.com/product/odps?spm=5176.doc27800.765261.309.dcjpg2),利用其强大的存储和计算能力进行各种查询计算,结果再回流到RDS。
5954 0
《阿里云产品手册2022-2023 版》——云原生大数据计算服务 MaxCompute
《阿里云产品手册2022-2023 版》——云原生大数据计算服务 MaxCompute
15 0
《阿里云产品手册2022-2023 版》——云原生大数据计算服务 MaxCompute
《阿里云产品手册2022-2023 版》——云原生大数据计算服务 MaxCompute
7 0
阿里云 MaxCompute 2023-1~4 月刊
MaxCompute 发布新人特惠免费试用规格,5000CU*H计算资源和100GB存储,3个月免费用,让您0元体验MaxCompute 强劲的产品力。
391 0
《阿里云MaxCompute百问百答》电子版地址
为了更好地帮助广大MaxCompute用户解决可能遇到的问题,阿里云 MaxCompute团队基于MaxCompute开发者社区和其它渠道反馈的问题,总结归纳 出MaxCompute各个功能点的常见问题,希望可以给正在学习和使用MaxCompute 的用户提供一些帮助。
44 0
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+关注
传学
传学,专注于大数据领域的解决方案
文章
问答
视频
相关电子书
更多
云端大规模视频分析:MaxCompute在视觉计算中的应用
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载