开源大数据平台 E-MapReduce
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。
使用E-MapReduce服务处理阿里云文件存储(NAS)的数据
给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力
使用E-MapReduce服务将Kafka数据导入OSS
kafka是一个开源社区常用的消息队列,虽然kafka官方(Confluent公司)提供插件从Kafka直接导入数据到HDFS的connector,但对阿里云对文件存储系统OSS却没有官方的支持。本文会举一个简单的例子,实现kafka的数据写入阿里云OSS。因为阿里云E-MapReduce服...
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。
E-MapReduce集群脚本-包年包月集群修改软件环境的利器
集群,特别是包年报月集群,在使用过程中,可能会有新的安装第三方软件,修改集群运行环境的需求。 E-MapReduce控制台1.5.0版本提供了集群脚本的功能,可以在集群创建好后批量选择节点,运行您指定的脚本,以实现个性化的需求。
E-MapReduce的Presto组件默认支持访问oss数据
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。
开源大数据周刊-第22期
本周关注:大数据部门、数据科学家、机器学习发展与机遇、spark2.0 Structured Streaming、Hbase运维、Sqoop、Flink的第一本书籍。
E-MapReduce集群搭建HAWQ实践
HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。
开源大数据周刊-第19期
本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss
E-MapReduce 集群环境小记
大家在使用E-MapReduce的时候,都想对E-MapReduce的集群环境细节有些了解。这里根据实践,总结一下E-MapReduce集群环境与应用启动与停止,供大家在实际使用中进行参考。
如何在E-MapReduce上使用storm
Storm 使用指南 集群创建 目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点
5W1H(六何分析法)全景洞察大数据
我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。
Presto实现原理(转)
Presto架构 Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生
E-MapReduce集群使用Oozie工作流简单示例
本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。
E-MapReduce 2.0.0 版本发布
本次发布包括: 修改了界面的版本选择,新增了2.0.0版本,隐去了1.x版本(用SDK仍然可以继续创建,但我们强烈建议升级到最新版本),合并了Hadoop和HBase的版本选择。 Hadoop版本进行了升级,2.6.0 -> 2.7.2 集群JDK版本升级,1.7.0 -> 1.8.0 新增
E-MapReduce集群支持预装Phoenix
Apache Phoenix是构建在HBase上的SQL中间层,它可以让开发者使用SQL语言对HBase进行相关操作,E-MapReduce在emr-2.0.0版本开始支持集群预装Phoenix,本文对此进行了介绍。
E-MapReduce集群如何使用Phoenix on HBase
E-MapReduce的emr-2.0.0以下(emr-2.0.0已默认集成Phoenix)的HBase集群中并不包含Phoenix,也没有启动yarn,下面介绍一种通过创建集群时设置的引导操作来完成集群上Phoenix的部署。
E-MapReduce解决hive comment中文乱码问题
在最新版本的EMR-1.3.0已经解决了hive comment中文乱码问题。如果已经申请了包年包月的集群,用的是老版本,那么可以过下面介绍的步骤解决这个问题。
通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据
最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。
通过可视化更好的了解你的Spark应用
图的最大价值是它会推动我们去注意到那些我们从未预料到的东西。 – John Tukey Spark 1.4中对Spark UI进行改进,更加突出可视化的效果。我们来看一下他的主要的改动,主要包含三个方面: Spark事件的时间线视图 执行的DAG图 Spark Streaming 的可视化
如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue
目前Aliyun E-MapReduce支持了zeppelin和hue,在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue!
在Aliyun E-MapReduce集群上 使用sqoop高级特性
sqoop简介 sqoop是什么 Sqoop是一款开源的软件工具,提供了Hadoop和关系型数据库中的数据相互转移的功能。可以将一个关系型数据库(例如 : MySQL)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 在E-MapReduce集群中使用sqo
开源大数据周刊-第2期
第二期准备了一些本周好的大数据技术的文章;列了近期一些大数据会议;业务方面还是大数据+各种各样的点,没有过多的列出;大数据融资领域还是融资不断;E-Mapreduce团队计划下周发布VPC方案,敬请期待;Aliyun-emapreduce-demo发布在github上,敬请关注。
2015年上海hadoop in china见闻
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和