【10月新功能发布】
1、MaxCompute 支持 sort by 不带 distribute by
MaxCompute 支持 sort by 不带 distribute by,提供数据重排的解决方案,提高SQL执行的过滤性能。
适用客户
开发者
发布功能
MaxCompute 支持不带 distribute by 的sort by,提供数据重排的解决方案,提高谓词下推的过滤性能。当 sort by 语句前没有 distribute by 时能够增加存储压缩率,同时读取的时候如果有过滤,能够利用这个信息减少真正从磁盘读取的数据量,提高后面进行的全局排序的效率。
查看文档 >>
2、SEMI JOIN 支持 MAPJOIN Hint
SEMI JOIN 支持 MAPJOIN Hint,提高 LEFT SEMI/ANTI JOIN的性能,为数据倾斜问题提供解决方案。
适用客户
开发者,分析师
发布功能
当一个大表和一个或多个小表JOIN时,用户可以在 SELECT 语句中显式指定 MAPJOIN Hint 以提升查询性能。目前 MAPJOIN Hint 进一步支持 LEFT SEMI JOIN 和 LEFT ANTI JOIN, 可以提高 SEMI JOIN 的性能,同时也为数据倾斜问题提供解决方案。
查看文档 >>
3、OSS 外部表 CSV/TSV 文件支持 GBK 编码格式
OSS 外部表 CSV/TSV 文件支持 GBK 编码格式。
适用客户
开发者
发布功能
OSS 外部表 odps.text.option.encoding 原先支持三种格式:UTF-8/UTF-16/US-ASCII,在新版本中增加了对GBK编码格式的支持。
查看文档 >>
4、批量 Drop Partition 支持条件筛选
使用条件表达式匹配选中的分区进行批量删除,满足用户希望一次删除符合某个规则的一个或多个分区的需求。
适用客户
开发者、数据仓库管理员
发布功能
支持条件筛选方式删除分区。如果用户希望一次性删除符合某个规则条件的一个或多个分区,可以使条件表达式匹配选中的分区进行批量删除。
查看文档 >>
5、MaxCompute 新增支持更多内置函数
新增 WIDTH_BUCKET 函数,时间函数 year/quarter/month 等对 DateTime 输入数据类型的支持。
适用客户
开发者、数据分析师
发布功能
WIDTH_BUCKET函数:获取某个字段值落入的分组编号,设定分组范围的最小值和最大值,以及分组个数,构建指定个数的大小相同的分组,返回字段值落入的分组编号。
时间函数 year/quarter/month/day/hour/minute/second 增加对DateTime输入数据类型的支持 - 增加如下内建函数接口:
• INT year(datetime date)
• INT quarter(datetime date)
• INT month(datetime date)
• INT day(datetime date)
• INT hour(datetime date)
• INT minute(datetime date)
• INT second(datetime date)
查看文档 >> 查看文档 >>
6、MaxCompute 写表支持Zorder by语句
增加 SQL DML的 zorder by 语句,支持把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。
适用客户
开发者、数据分析师
发布功能
增加 SQL DML 的 zorder by 语句,支持DML语句的方式把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。
查看文档 >>
阅读往期月刊 >>
MaxCompute 产品官网 >>
免费下载《SaaS模式云数据仓库手册》>>
更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群