三天100元从零开始搭建Hadoop集群
三天时间高效搭建Hadoop集群:第一天启动集群并编译Word Count;第二天建立集群的远程自动控制系统;第三天,学习中文分词。高效的经验:和阿里团队互动,多要工程而不是代码,对阿里有关产品清楚认识
MaxCompute优化系列-如何使用`MAPJOIN` ?
MAPJOIN
当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。 另外,MAPJOIN 还能解决数据倾斜的问题。
MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内存中,从而加快JOIN的执行速度。
唱吧基于 MaxCompute 的大数据之路
在使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。
MaxCompute 存储优化技巧
文章转自duzhuan本文主要介绍一些ODPS表操作的优化技巧,通过这些技巧,可以有效节省ODPS存储空间和计算量。
合理设置分区表
ODPS支持分区表的概念,分区表指的是在创建表时指定的partition的分区空间,即指定表内的某几个字段作为分区列。在大多数情况下,用户可以将分区类比为文件系统
应用MaxCompute实现变压器局部放电相位分析
应用MaxCompute实现变压器局部放电相位分析
1 引言
随着智能电网建设的不断推进,智能化电力一次设备和常规电力设备的在线监测都得到了较大发展并成为趋势,监测数据日益庞大,电力设备在线监测系统在数据存储和处理方面面临巨大的技术挑战。