文档备案控制台

开发者社区阿里云文娱文章正文

阿里云EMR产品介绍及常见问题解答

2018-10-15 5087

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 原作者：阿里云解决方案架构师，韩虎。本文主要介绍阿里云EMR产品相对于传统大数据产品的优势，以及平时运维过程中遇到的问题解法。

一、大数据概述

二、视频大客户对于数据中心的需求

三、传统大数据技术演进

四、EMR介绍

五、为什么选择EMR
弹性动态伸缩

基于ECS之上，快捷的扩容、缩容EMR Hadoop集群。

灵活软件栈选择

灵活、快速部署开源大数据服务(HBase、Kafka、Impala、Flink等)。

数据存储成本低

D1机型使用本地盘，价格远低于云盘；OSS低成本存储冷数据。

运维机制

钉钉群支持，快速解决集群使用问题。减少运维工作，更专注于业务。

六、典型问题及解决方案
数据迁移问题

Hive，HBase数据库结构同步，HDFS数据PB级历史数据同步。如何保证线上实时任务不受影响？

元数据库同步：Hadoop distcp filter (Hadoop 2.8之后支持)。Flume配置双写，多个sink。

数据倾斜问题

现象：MapReduce任务卡在最后一个或几个Reduce。

原因：数据分布不均匀，导致大量的数据分配到了一个节点。

问题：

执行Hive任务时，Flume刚好rename文件，会提示文件不存在的错误。

解决办法：hdfs.inUsePrefix=.生成的文件名增加前缀。

问题：

多台服务器同时写入，默认的文件名重复。

解决办法：修改HDFS sink源码，生成的文件默认增加当前服务器的hostname。

问题：

实时性与小文件过多。

解决办法：离线insert overwrite table，重新生成文件。通过MapReduce 在map之后生成新文件的特性，合并小文件。

文章标签：

数据中心

数据库

分布式计算

Hadoop

大数据

关键词：

阿里云emr

emr阿里云

emr产品

阿里云emr产品

emr常见问题

杨重

目录

相关文章

墨祤

|

DataWorks 数据挖掘 Serverless

阿里云EMR Serverless StarRocks 内容合集

阿里云 EMR StarRocks 提供存算分离架构，支持实时湖仓分析，适用于多种 OLAP 场景。结合 Paimon 与 Flink，助力企业高效处理海量数据，广泛应用于游戏、教育、生活服务等领域，显著提升数据分析效率与业务响应速度。

墨祤

518 0 0

阿里云大数据

|

存储分布式计算 OLAP

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

阿里云大数据

744 59 59

探索云世界

|

10月前

|

人工智能分布式计算 DataWorks

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

探索云世界

335 4 4

技术小达人

|

SQL 存储 OLAP

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

技术小达人

706 0 0

阿里云大数据

|

存储分布式计算物联网

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台，实现了数据与 AI 技术的有效融合，解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台，最终实现不同场景下整体性能提升50%以上，同时综合成本下降30%。

阿里云大数据

988 58 58

格格的阿里云

|

分布式计算大数据 MaxCompute

EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决

EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决

格格的阿里云

233 0 0

格格的阿里云

|

分布式计算测试技术调度

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决

格格的阿里云

224 0 0

阿里云大数据

|

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

644 15 15

扬流

|

SQL 存储缓存

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

扬流

1441 62 62

阿里云文娱

热门文章

最新文章

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

一文带你认识医院信息化必备系统HIS、CIS、LIS、EMR、PACS、RIS等

免费公测｜阿里云EMR Serverless StarRocks 公测正式开启！

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

自建hadoop集群迁移到EMR之数据迁移篇

自建Hive数据仓库迁移到阿里云EMR

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

Alibaba Cloud E-MapReduce vs AWS EMR vs. Azure HDInsight

EMR 打造高效云原生数据分析引擎

阿里云EMR 2.0：重新定义新一代开源大数据平台

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

阿里云 EMR Serverless StarRocks3.x，极速统一的湖仓新范式

阿里云 EMR Serverless Spark 版开启免费公测

EMR Notebook 开启公测，提供交互式数据分析平台

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)

一文带你认识医院信息化必备系统HIS、CIS、LIS、EMR、PACS、RIS等

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

云HIS系统+LIS检验系统+EMR电子病历系统源码

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

相关课程

更多

EMR Serverless StarRocks 3.1 存算分离介绍

EMR Serverless StarRocks 介绍

企业运维训练营之大数据EMR原理与实践

EMR Studio 大数据处理最佳实践课程

阿里云 EMR on ACK 实战

相关电子书

更多

生命密码－基因数据的EMR实践

超大规模机器学习在EMR的实践

EMR弹性低成本离线大数据分析最佳实践

相关实验场景

更多

基于EMR StarRocks实现游戏玩家画像和行为分析

下一篇

阿里云 AI安全护栏2.0发布Agent运行时防护，抓住“自主执行任务”的“虾”