阿里云 MaxCompute 2020-10 月刊

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute10月新发布功能在sql的产品能力、易用性、性能以及存储优化方面持续增强,欢迎阅读月刊了解最新feature及用法。

【10月新功能发布】

1、MaxCompute 支持 sort by 不带 distribute by

MaxCompute 支持 sort by 不带 distribute by,提供数据重排的解决方案,提高SQL执行的过滤性能。

适用客户
开发者

发布功能
MaxCompute 支持不带 distribute by 的sort by,提供数据重排的解决方案,提高谓词下推的过滤性能。当 sort by 语句前没有 distribute by 时能够增加存储压缩率,同时读取的时候如果有过滤,能够利用这个信息减少真正从磁盘读取的数据量,提高后面进行的全局排序的效率。

查看文档 >>


2、SEMI JOIN 支持 MAPJOIN Hint

SEMI JOIN 支持 MAPJOIN Hint,提高 LEFT SEMI/ANTI JOIN的性能,为数据倾斜问题提供解决方案。

适用客户
开发者,分析师

发布功能
当一个大表和一个或多个小表JOIN时,用户可以在 SELECT 语句中显式指定 MAPJOIN Hint 以提升查询性能。目前 MAPJOIN Hint 进一步支持 LEFT SEMI JOIN 和 LEFT ANTI JOIN, 可以提高 SEMI JOIN 的性能,同时也为数据倾斜问题提供解决方案。

查看文档 >>


3、OSS 外部表 CSV/TSV 文件支持 GBK 编码格式

OSS 外部表 CSV/TSV 文件支持 GBK 编码格式。

适用客户
开发者

发布功能
OSS 外部表 odps.text.option.encoding 原先支持三种格式:UTF-8/UTF-16/US-ASCII,在新版本中增加了对GBK编码格式的支持。

查看文档 >>


4、批量 Drop Partition 支持条件筛选

使用条件表达式匹配选中的分区进行批量删除,满足用户希望一次删除符合某个规则的一个或多个分区的需求。

适用客户
开发者、数据仓库管理员

发布功能
支持条件筛选方式删除分区。如果用户希望一次性删除符合某个规则条件的一个或多个分区,可以使条件表达式匹配选中的分区进行批量删除。

查看文档 >>


5、MaxCompute 新增支持更多内置函数

新增 WIDTH_BUCKET 函数,时间函数 year/quarter/month 等对 DateTime 输入数据类型的支持。

适用客户
开发者、数据分析师

发布功能
WIDTH_BUCKET函数:获取某个字段值落入的分组编号,设定分组范围的最小值和最大值,以及分组个数,构建指定个数的大小相同的分组,返回字段值落入的分组编号。
时间函数 year/quarter/month/day/hour/minute/second 增加对DateTime输入数据类型的支持 - 增加如下内建函数接口:
• INT year(datetime date)
• INT quarter(datetime date)
• INT month(datetime date)
• INT day(datetime date)
• INT hour(datetime date)
• INT minute(datetime date)
• INT second(datetime date)

查看文档 >> 查看文档 >>


6、MaxCompute 写表支持Zorder by语句

增加 SQL DML的 zorder by 语句,支持把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。

适用客户
开发者、数据分析师

发布功能
增加 SQL DML 的 zorder by 语句,支持DML语句的方式把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。

查看文档 >>


阅读往期月刊 >>
MaxCompute 产品官网 >>
免费下载《SaaS模式云数据仓库手册》>>

更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
123.jpg

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
分布式计算 自然语言处理 DataWorks
高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。
18356 3
高效使用 PyODPS 最佳实践
|
弹性计算 人工智能 虚拟化
阿里云gpu云服务器产品知识、常见问题及官方解答资料
作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。下面是阿里云GPU云服务器的一些产品知识和常见问题及官方解答资料,以供大家参考和了解阿里云GPU云服务器。
1472 1
阿里云gpu云服务器产品知识、常见问题及官方解答资料
|
10月前
|
分布式计算 数据处理 MaxCompute
云产品评测|分布式Python计算服务MaxFrame
云产品评测|分布式Python计算服务MaxFrame
195 2
|
12月前
|
数据库 数据库管理 索引
索引在提高查询性能方面的优势体现在哪些方面?
索引在提高查询性能方面具有多方面的显著优势
301 65
|
4月前
|
自然语言处理 DataWorks 数据挖掘
DataWorks接入Qwen3-Coder!数据开发再提速!
阿里云DataWorks平台正式接入Qwen3-Coder模型,用户通过DataWorks Copilot智能助手,可实现自然语言交互完成代码生成、续写、优化等操作,显著提升数据开发与分析效率。同时支持Qwen-Code和Claude Code命令行Agent安装,助力Notebook智能高效落地。
|
SQL 分布式计算 MaxCompute
ODPS SQL问题之为什么使用odps.sql.groupby.skewindata = true优化后,逻辑执行计划会发生改变如何解决
ODPS SQL问题之为什么使用odps.sql.groupby.skewindata = true优化后,逻辑执行计划会发生改变如何解决
344 0
|
SQL 分布式计算 DataWorks
MaxCompute元数据使用实践--作业统计
通过MaxCompute租户级别Information Schema的“TASKS_HISTORY”视图可以统计查看MaxCompute计算作业的元数据信息,方便您进行作业审计以及各类统计,指导作业性能、成本优化。
2178 0
|
存储 监控 关系型数据库
DataX 概述、部署、数据同步运用示例
DataX是阿里巴巴开源的离线数据同步工具,支持多种数据源之间的高效传输。其特点是多数据源支持、可扩展性、灵活配置、高效传输、任务调度监控和活跃的开源社区支持。DataX通过Reader和Writer插件实现数据源的读取和写入,采用Framework+plugin架构。部署简单,解压即可用。示例展示了如何配置DataX同步MySQL到HDFS,并提供了速度和内存优化建议。此外,还解决了NULL值同步问题及配置文件变量传参的方法。
8988 5
|
DataWorks
DataWorks售前咨询
DataWorks售前咨询
14097 8
DataWorks售前咨询
|
SQL 资源调度 分布式计算
MaxCompute Logview2.0 参数详解与常见问题
Logview 2.0 原理与功能简介,Logview 2.0 分析问题作业讲解
4849 1

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute