E-MapReduce集群搭建HAWQ实践
HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。
SparkSQL自适应执行
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。
实时 OLAP 系统 Druid
整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。
阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎
11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。