阿里云 MaxCompute 2020-10 月刊

简介: MaxCompute10月新发布功能在sql的产品能力、易用性、性能以及存储优化方面持续增强,欢迎阅读本刊了解最新feature及用法。

【10月新功能发布】

1、MaxCompute 支持 sort by 不带 distribute by

MaxCompute 支持 sort by 不带 distribute by,提供数据重排的解决方案,提高SQL执行的过滤性能。

适用客户
开发者

发布功能
MaxCompute 支持不带 distribute by 的sort by,提供数据重排的解决方案,提高谓词下推的过滤性能。当 sort by 语句前没有 distribute by 时能够增加

存储压缩率,同时读取的时候如果有过滤,能够利用这个信息减少真正从磁盘读取的数据量,提高后面进行的全局排序的效率。

查看文档 >>


2、SEMI JOIN 支持 MAPJOIN Hint

SEMI JOIN支持MAPJOIN Hint,提高 LEFT SEMI/ANTI JOIN的性能,为数据倾斜问题提供解决方案。

适用客户
开发者,分析师

发布功能
当一个大表和一个或多个小表JOIN时,用户可以在SELECT语句中显式指定MAPJOIN Hint以提升查询性能。目前MAPJOIN Hint进一步支持 LEFT SEMI JOIN和LEFT ANTI JOIN, 可以提高SEMI JOIN的性能,同时也为数据倾斜问题提供解决方案。

查看文档 >>


3、OSS外部表CSV/TSV文件支持GBK编码格式

OSS外部表CSV/TSV文件支持GBK编码格式。

适用客户
开发者

发布功能
OSS 外部表 odps.text.option.encoding 原先支持三种格式:UTF-8/UTF-16/US-ASCII,在新版本中增加了对GBK编码格式的支持。

查看文档 >>


4、批量 Drop Partition 支持条件筛选

使用条件表达式匹配选中的分区进行批量删除,满足用户希望一次删除符合某个规则的一个或多个分区的需求。

适用客户
开发者、数据仓库管理员

发布功能
支持条件筛选方式删除分区。如果用户希望一次性删除符合某个规则条件的一个或多个分区,可以使条件表达式匹配选中的分区进行批量删除。

查看文档 >>


5、MaxCompute 新增支持更多内置函数

新增 WIDTH_BUCKET 函数,时间函数 year/quarter/month 等对 DateTime 输入数据类型的支持。

适用客户
开发者、数据分析师

发布功能
WIDTH_BUCKET函数:获取某个字段值落入的分组编号,设定分组范围的最小值和最大值,以及分组个数,构建指定个数的大小相同的分组,返回字段值落

入的分组编号。
时间函数 year/quarter/month/day/hour/minute/second 增加对DateTime输入数据类型的支持 - 增加如下内建函数接口:
• INT year(datetime date)
• INT quarter(datetime date)
• INT month(datetime date)
• INT day(datetime date)
• INT hour(datetime date)
• INT minute(datetime date)
• INT second(datetime date)

查看文档 >> 查看文档 >>


6、MaxCompute 写表支持Zorder by语句

增加 SQL DML的 zorder by 语句,支持把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。

适用客户
开发者、数据分析师

发布功能
增加 SQL DML 的 zorder by 语句,支持DML语句的方式把数据相近的行排列在一起,提升查询时的过滤性能,一定程度上降低存储成本。

查看文档 >>


阅读往期月刊 >>
MaxCompute 产品官网 >>
免费下载《SaaS模式云数据仓库手册》>>

更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
123.jpg

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
5月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
277 0
|
5月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
595 0
|
3月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
336 2
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
321 1
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
204 0
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
288 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
191 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
177 0