MaxCompute优化系列-如何使用`MAPJOIN` ?
MAPJOIN
当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。
MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。
基于MaxCompute的图计算实践分享-图加载过程
一、前言
MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口。MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段:
加载,将存储在表中的数据载入到内存中,以点和边的形式存在;
从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL
SQL基础有这些操作(按照执行顺序来排列):
from
join(left join, right join, inner join, outer join ,semi join)
where
group by
select
sum
distinct
count
order by
如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。
唱吧基于 MaxCompute 的大数据之路
在使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。
手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎
最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch,所以花了点时间好好研究了下,用过之后发现效果不错,自带分词、云数据库同步功能,在研究过程中也发现了一些问题,分享给大家。
你了解的技术宅是这样吗?
闷骚!邋遢! 黑白灰!加班是唯一爱好?他们不用睡觉的吧?请不要再给我们加这些标签了!!!
我们也主动撩妹子!我们也天天洗澡的!我们也有洋气的衣服!谁tm爱加班!你才不用睡觉!我们一摸键盘就开挂,我们钱多事儿少活儿还好。