阿里云EMR产品介绍及常见问题解答

简介: 原作者:阿里云解决方案架构师,韩虎。本文主要介绍阿里云EMR产品相对于传统大数据产品的优势,以及平时运维过程中遇到的问题解法。

一、大数据概述

0ebfcaf38d5754e624f65c219dcf5b3680420085

二、视频大客户对于数据中心的需求

0b1c9ba962480512a299a4b5a87e888e037ab459

ce5a577ee72c39067a47ad8fbd40393adfa93a16

三、传统大数据技术演进

64fb8f5959e676ee8320b44f871a5ccbc165d253

四、EMR介绍

43b46417fab6d4157a9f186ed956a38aefee869c

五、为什么选择EMR

弹性动态伸缩

    基于ECS之上,快捷的扩容、缩容EMR Hadoop集群。

灵活软件栈选择

灵活、快速部署开源大数据服务(HBase、Kafka、Impala、Flink等)。

数据存储成本低

D1机型使用本地盘,价格远低于云盘;OSS低成本存储冷数据。

运维机制

钉钉群支持,快速解决集群使用问题。减少运维工作,更专注于业务。

六、典型问题及解决方案

数据迁移问题

Hive,HBase数据库结构同步,HDFS数据PB级历史数据同步。如何保证线上实时任务不受影响?

元数据库同步:Hadoop distcp filter (Hadoop 2.8之后支持)。Flume配置双写,多个sink。

数据倾斜问题

现象:MapReduce任务卡在最后一个或几个Reduce。

原因:数据分布不均匀,导致大量的数据分配到了一个节点。

问题:

执行Hive任务时,Flume刚好rename文件,会提示文件不存在的错误。

解决办法:hdfs.inUsePrefix=.生成的文件名增加前缀。

问题:

多台服务器同时写入,默认的文件名重复。

解决办法:修改HDFS sink源码,生成的文件默认增加当前服务器的hostname。

问题:

实时性与小文件过多。

解决办法:离线insert overwrite table,重新生成文件。通过MapReduce 在map之后生成新文件的特性,合并小文件。



目录
相关文章
|
8天前
|
关系型数据库 MySQL BI
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
869 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
|
9月前
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
SQL 存储 监控
水滴筹基于阿里云 EMR StarRocks 实战分享
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
5862 3
水滴筹基于阿里云 EMR StarRocks 实战分享
|
SQL 存储 弹性计算
阿里云EMR 2.0:重新定义新一代开源大数据平台
本次分享主要介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。
2212 0
阿里云EMR 2.0:重新定义新一代开源大数据平台
|
1天前
|
存储 分布式计算 Serverless
阿里云 EMR Serverless Spark 版开启免费公测
EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。
28 4
|
8天前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
72010 2
|
8天前
|
分布式计算 运维 大数据
阿里云 EMR Serverless Spark 版免费邀测中
阿里云 EMR Serverless Spark 版,以 Spark Native Engine 为基础,旨在提供一个全托管、一站式的数据开发平台。诚邀您参与 EMR Serverless Spark 版免费测试,体验 100% 兼容 Spark 的 Serverless 服务:https://survey.aliyun.com/apps/zhiliao/iscizrF54
778 0
阿里云 EMR Serverless Spark 版免费邀测中
|
8天前
|
存储 分布式计算 Apache
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
64932 1
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
|
9月前
|
存储 分布式计算 大数据
CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享
阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。
576 0
|
存储 人工智能 运维
免费公测|阿里云EMR Serverless StarRocks 公测正式开启!
阿里云EMR Serverless StarRocks 免费公测已开启,向所有用户开放!您可通过EMR控制台直接创建实例,轻松体验全托管、免运维的服务。
4187 1
免费公测|阿里云EMR Serverless StarRocks 公测正式开启!