开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1845内容
E-MapReduce集群搭建HAWQ实践
HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。
YARN ResourceManager重启作业保留机制
YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束
SparkSQL自适应执行
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制
本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。
实时 OLAP 系统 Druid
整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。
阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎
11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
免费试用