阿里云EMR产品介绍及常见问题解答-阿里云开发者社区

阿里云EMR产品介绍及常见问题解答

2018-03-29 8040

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 原作者：阿里云解决方案架构师，韩虎。本文主要介绍阿里云EMR产品相对于传统大数据产品的优势，以及平时运维过程中遇到的问题解法。

一、大数据概述

0ebfcaf38d5754e624f65c219dcf5b3680420085

二、视频大客户对于数据中心的需求

0b1c9ba962480512a299a4b5a87e888e037ab459

ce5a577ee72c39067a47ad8fbd40393adfa93a16

三、传统大数据技术演进

64fb8f5959e676ee8320b44f871a5ccbc165d253

四、EMR介绍

43b46417fab6d4157a9f186ed956a38aefee869c

五、为什么选择EMR

弹性动态伸缩

基于ECS之上，快捷的扩容、缩容EMR Hadoop集群。

灵活软件栈选择

灵活、快速部署开源大数据服务(HBase、Kafka、Impala、Flink等)。

数据存储成本低

D1机型使用本地盘，价格远低于云盘；OSS低成本存储冷数据。

运维机制

钉钉群支持，快速解决集群使用问题。减少运维工作，更专注于业务。

六、典型问题及解决方案

数据迁移问题

Hive，HBase数据库结构同步，HDFS数据PB级历史数据同步。如何保证线上实时任务不受影响？

元数据库同步：Hadoop distcp filter (Hadoop 2.8之后支持)。Flume配置双写，多个sink。

数据倾斜问题

现象：MapReduce任务卡在最后一个或几个Reduce。

原因：数据分布不均匀，导致大量的数据分配到了一个节点。

问题：

执行Hive任务时，Flume刚好rename文件，会提示文件不存在的错误。

解决办法：hdfs.inUsePrefix=.生成的文件名增加前缀。

问题：

多台服务器同时写入，默认的文件名重复。

解决办法：修改HDFS sink源码，生成的文件默认增加当前服务器的hostname。

问题：

实时性与小文件过多。

解决办法：离线insert overwrite table，重新生成文件。通过MapReduce 在map之后生成新文件的特性，合并小文件。

阿里云EMR产品介绍及常见问题解答

一、大数据概述

二、视频大客户对于数据中心的需求

三、传统大数据技术演进

四、EMR介绍

五、为什么选择EMR

六、典型问题及解决方案

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云EMR产品介绍及常见问题解答

一、大数据概述

二、视频大客户对于数据中心的需求

三、传统大数据技术演进

四、EMR介绍

五、为什么选择EMR

六、典型问题及解决方案

热门文章

最新文章

相关课程

相关电子书

相关实验场景