开发者社区> 大数据与机器学习> 开源大数据平台 E-MapReduce

开源大数据平台 E-MapReduce

关注

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

0
今日
1617
内容
12
活动
5396
关注
|
SQL 分布式计算 算法
|

开源大数据周刊-第19期

本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss

3926 0
|
SQL 分布式计算 Hadoop
|

E-MapReduce 集群环境小记

大家在使用E-MapReduce的时候,都想对E-MapReduce的集群环境细节有些了解。这里根据实践,总结一下E-MapReduce集群环境与应用启动与停止,供大家在实际使用中进行参考。

2912 0
|
分布式计算 NoSQL 大数据
|

开源大数据周刊-第16期

spark2.0已经发布,本期整理了一些spark的好文(包括最佳实践、原理等)推荐给大家。

4782 0
|
SQL 分布式计算 大数据
|

开源大数据周刊-第14期

大数据人才状况;大数据平台相关:数据采集、数据指标的量化、大数据平台建设的选型;性能优化相关:hive、hbase、jvm gc的优化;

3443 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第12期

本周包括 全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。

4953 0
|
监控 网络安全 流计算
|

如何在E-MapReduce上使用storm

Storm 使用指南 集群创建 目前E-MapReduce已经支持了apache社区的1.0.1版本的storm。用户可以通过选择E-MapReduce 最新的镜像版本EMR-2.0.0(以及后续的以上版本),通过在控制台软件列表中勾选storm软件进行安装,选择完毕后即可登录到master节点

3580 0
|
存储 分布式计算 大数据
|

5W1H(六何分析法)全景洞察大数据

我们从大数据的特征说起,谈到了大数据的价值,再聊什么时候做,谁去做,选择什么平台,最后聊到了怎么做的问题。通过对一些真实的场景分析,了解了大数据的全貌。

11119 1
|
分布式数据库 Hbase
|

E-MapReduce的HBase集群使用Hue

E-MapReduce的HBase集群中使用Hue,方便用户访问查询数据

7170 0
|
SQL 缓存 大数据
|

Presto实现原理(转)

Presto架构 Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生

7176 0

E-MapReduce集群使用Oozie工作流简单示例

本文简单介绍了,如何在E-MapReduce上提交Oozie workflow job。提供了可以直接下载运行的示例代码,欢迎使用。

3004 0
|
分布式数据库 Python Hbase
|

E-MapReduce 2.0.0 版本发布

本次发布包括: 修改了界面的版本选择,新增了2.0.0版本,隐去了1.x版本(用SDK仍然可以继续创建,但我们强烈建议升级到最新版本),合并了Hadoop和HBase的版本选择。 Hadoop版本进行了升级,2.6.0 -> 2.7.2 集群JDK版本升级,1.7.0 -> 1.8.0 新增

3672 0
|
分布式计算 Hadoop Java
|

E-MapReduce集群支持预装Phoenix

Apache Phoenix是构建在HBase上的SQL中间层,它可以让开发者使用SQL语言对HBase进行相关操作,E-MapReduce在emr-2.0.0版本开始支持集群预装Phoenix,本文对此进行了介绍。

2959 0
|
机器学习/深度学习 SQL 分布式计算
|

开源大数据周刊-第10期

云上Hadoop之最佳实践

2258 0
|
分布式计算 资源调度 Hadoop
|

E-MapReduce集群如何使用Phoenix on HBase

E-MapReduce的emr-2.0.0以下(emr-2.0.0已默认集成Phoenix)的HBase集群中并不包含Phoenix,也没有启动yarn,下面介绍一种通过创建集群时设置的引导操作来完成集群上Phoenix的部署。

4640 0
|
SQL 分布式计算 大数据
|

E-MapReduce解决hive comment中文乱码问题

在最新版本的EMR-1.3.0已经解决了hive comment中文乱码问题。如果已经申请了包年包月的集群,用的是老版本,那么可以过下面介绍的步骤解决这个问题。

4472 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第8期

阿里云李津谈布局专有云的深层用意,2016年杭州第四次spark meetup见闻

2709 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第7期

运行于云端的Hadoop——数据即服务的论证,预先知晓Hadoop3.0新特性。

3031 0
|
SQL 数据可视化 关系型数据库
|

E-MapReduce结合DataV进行数据展现

6479 0
|
JSON 安全 BI
|

通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据

最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。

7025 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第6期

大数据的未来就像在沙子里淘金

2033 0
|
存储 监控 Java
|

Flume NG 简介及配置实战

最近在做日志采集相关的开发,了解了flume原理和实现,转载一篇文章,一起学习。

9648 0
|
分布式计算 大数据 Hadoop
|

2016年北京中国云计算技术大会见闻

广告有,技术也有。云化是方向,新技术需要很强的把控力;spark还是最火的。

4193 1
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第5期

浅谈大数据在传统行业的落地之痛,Spark如何简化大数据工作

2457 0
|
分布式计算 大数据 分布式数据库
|

HBase写性能优化

本文介绍了三种HBase数据写入的方法(1种多线程,2种mapreduce),并介绍了各类性能调优的方法

8311 0
|
SQL 缓存 分布式计算
|

通过可视化更好的了解你的Spark应用

图的最大价值是它会推动我们去注意到那些我们从未预料到的东西。 – John Tukey Spark 1.4中对Spark UI进行改进,更加突出可视化的效果。我们来看一下他的主要的改动,主要包含三个方面: Spark事件的时间线视图 执行的DAG图 Spark Streaming 的可视化

5881 0
|
SQL 分布式计算 网络安全
|

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

目前Aliyun E-MapReduce支持了zeppelin和hue,在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue!

12902 0
|
SQL 关系型数据库
|

在Aliyun E-MapReduce集群上 使用sqoop高级特性

sqoop简介 sqoop是什么 Sqoop是一款开源的软件工具,提供了Hadoop和关系型数据库中的数据相互转移的功能。可以将一个关系型数据库(例如 : MySQL)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 在E-MapReduce集群中使用sqo

3528 0
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第2期

第二期准备了一些本周好的大数据技术的文章;列了近期一些大数据会议;业务方面还是大数据+各种各样的点,没有过多的列出;大数据融资领域还是融资不断;E-Mapreduce团队计划下周发布VPC方案,敬请期待;Aliyun-emapreduce-demo发布在github上,敬请关注。

3518 0
|
分布式计算 Hadoop 云计算
|

2015年上海hadoop in china见闻

市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!

1959 0
|
SQL 分布式计算 Hadoop
|

2015年上海hadoop in china见闻

今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。

1895 0
|
分布式计算 资源调度 Hadoop
|

2013年北京hadoop in china见闻

谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和

1697 0
|
分布式计算 Hadoop 分布式数据库
|

阿里封神谈hadoop生态学习之路

在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。

49556 9
|
资源调度 分布式计算 Java
|

YARN(hadoop2)框架的一些软件设计模式

yarn版本的hadoop无论是从架构上面还是软件设计的层面上面都比原始的hadoop版本有较大的改进。在架构方面,我们认为yarn模式是新一代的框架,这个在官方等丛多的资料中说明得很详细了。在软件设计方面,我认为主要有以下的一些大的方面的改进:服务生命周期管理模式、事件驱动模式、状态驱动模式

3428 0
|
分布式计算 关系型数据库 MySQL
|

E-Mapreduce如何处理RDS的数据

目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。

4971 0
|
存储 分布式计算 大数据
|

阿里封神-大数据处理技术漫谈

以前一篇博客,从宏观描述了云梯1当时整体生态,年底了,笔者再梳理下软件栈,主要以开源软件为主,闭源不谈。大数据发展至今,开源软件层出不穷,也去解决了不同的问题,笔者试图去弄清楚这些,分门别类,后面也可以参照下。由于笔者知识面有限,难免会出现一些偏颇,不全,不正确,还请指正。后面也会有很多新的软件出现

11866 0
|
存储 分布式计算 大数据
|

如何在E-MapReduce中玩转OSS

在E-MapReduce中,用户可以将OSS作为Hadoop/Spark的可选数据源之一。但是在实际使用时,我们发现Hadoop读写OSS的性能不令人满意。为了解决这个问题,E-MapReduce团队对Hadoop的底层实现进行了优化,使得OSS数据源能够更好地适配Hadoop/Spark。

7582 0
|
运维 大数据
|

一键扩容E-MapReduce集群,运维SO EASY

一键扩容E-MapReduce集群,运维SO EASY 谈到集群运维,我们不得不说说集群的扩容。随着业务量的增长,数据也会跟着增长,这样我们的集群规模也不得不跟着进行扩容。那么集群如何进行扩容呢,我们分下面的两个场景跟大家介绍一下 1. IDC机房集群扩容。当我们集群需要扩容的时候,一般会经过下

3434 0
|
弹性计算 分布式计算 大数据
|

为什么选择ali-E-MapReduce

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括但不限于Hadoop、Spark、Hbase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。我们提供的软件基本都是开源的软件,会有一些性能的优化,但是绝对不引入任何不兼容的改动。

4612 0
我要发布