odps之sql性能优化
前一段时间做了一些作业成本优化的工作,这里做下总结。
首先说明本篇中谈及的优化主要的目标是在不大幅度增加作业运行时长的条件下对作业运行成本的优化。
## 1. odps的优化引擎并没有那么智能
odps自带的优化引擎会对sql作业做一定的优化处理,如列裁剪、分区裁剪和谓词下推。
从未停止进化的MaxCompute
2017云栖大会·杭州峰会将于10月10日-14日在杭州云栖小镇隆重举行,据相关数据显示大会多场主题分论坛门票都已经售罄。在这110余场主题分论坛中,可能备受大家最为感兴趣是人工智能、大数据的专场。大数据的热度在深圳峰会、成都峰会、上海峰会都逐一印证。
阿里云大数据利器之-RDS迁移到Maxcompute实现自动分区
当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理平台-大数据计算服务(Maxcompute,原ODPS)(https://www.aliyun.com/product/odps?spm=5176.doc27800.765261.309.dcjpg2),利用其强大的存储和计算能力进行各种查询计算,结果再回流到RDS。
MaxCompute优化系列-如何使用`MAPJOIN` ?
MAPJOIN
当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。
MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。
中国唯一,阿里云进入Forrester大数据服务榜单
日前,全球权威调研机构Forrester发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。
从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL
SQL基础有这些操作(按照执行顺序来排列):
from
join(left join, right join, inner join, outer join ,semi join)
where
group by
select
sum
distinct
count
order by
如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。