备案控制台

开发者社区问答正文

Hadoop存储与计算分离实践

在云栖大会期间，阿里云E-MapReduce团队余根茂分享了传统集群部署实践、云上集群部署实践等方面的内容。"

https://yq.aliyun.com/download/1654?spm=a2c4e.11154804.0.0.c9fd6a79q40neU

展开

收起

福利达人 2018-07-16 21:39:46 1061 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在云栖大会的分享中，阿里云E-MapReduce团队的余根茂探讨了传统集群与云上集群部署的实践。虽然直接的分享内容细节未在提供的知识库资料中展示，我们可以根据E-MapReduce相关的技术文档和指南，概述从这些资源中可以推断出的关键实践点，帮助理解云上集群部署的优势和步骤。

1. 云上集群部署优势

弹性伸缩：与传统集群相比，云上E-MapReduce集群能快速按需扩展资源，应对突发的数据处理需求。
成本效益：仅需为实际使用的计算和存储资源付费，避免了传统集群中固定投资和运维成本。
集成服务：无缝集成阿里云其他服务如OSS、RDS等，简化数据迁移和处理流程。
高可用性：云平台自动保障服务的高可用性和容灾能力，减少业务中断风险。

2. 部署实践步骤概览

2.1 准备工作

账号与服务开通：确保拥有阿里云账号并开通E-MapReduce服务。
网络规划：设计VPC网络布局，确保EMR集群与相关数据库或存储服务（如RDS、OSS）位于同一VPC内，或配置正确的网络连接方式。

2.2 创建与配置ECS实例

创建ECS实例：选择匹配地域、可用区及ESSD云盘，以优化性能。
RAM角色配置：创建ECSForEMRGatewayRole角色，并授权访问EMR、OSS、DLF等服务的权限。
安装EMR-CLI与部署Gateway客户端：通过SSH登录ECS，安装EMR命令行工具并部署EMR Gateway客户端，以便于管理集群。

2.3 数据迁移与处理

元数据同步：备份并导入Hive元数据，确保新旧集群间数据一致性。
Flume双写配置：设置Flume以实现新旧集群数据同步，控制分区表写入时机。
实时流处理：使用PyFlink或Spark Streaming处理Kafka实时数据，进行高效的数据分析。

2.4 网络与安全

VPC与安全组：确保EMR集群与数据库在同一安全组内，对于云下资源，采用高速通道或EIP保证安全传输。
访问控制：配置必要的RAM策略和安全组规则，保护集群免受未授权访问。

3. 优化与监控

性能调优：根据作业类型调整资源配置，利用OSS参数优化文件操作效率。
监控与维护：利用阿里云监控服务跟踪集群健康状况，实施定期备份和日志管理策略。

通过上述步骤，用户可以基于阿里云E-MapReduce构建起高度可扩展、成本效益且易于管理的云上大数据处理平台，充分体现了云上集群部署的灵活性与效率。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

存储分布式计算 Hadoop 云栖大会开源大数据平台 E-MapReduce

问答标签：

hadoop存储 hadoop计算 hadoop实践 hadoop分离 hadoop存储计算分离

问答地址：

开发者社区 > 大数据 > 问答

相关问答

可以将MaxCompute的存储数据迁移到Hadoop集群吗？

81

0

0

hadoop是用来替换数据库或者其它已经存在的系统吗？将来会成为替换数据库存储的系统吗？

103

1

0

hadoop号线不适合这种小文件的存储，还是将数据提取存储到nosql数据库中比较好？

72

1

0

hadoop02的机器上怎么读hadoop01上的存储路径呢？

246

2

0

Hadoop中是怎样去存储大文件的呢？

715

1

0

Hadoop适合存储小文件吗，为什么？

2703

1

0

Hadoop中常用的共享存储系统是什么？

363

1

0

hadoop的HDFS的存储机制是什么？

487

1

0

hadoop中怎么查看HDFS在磁盘存储文件内容呢？

405

1

0

hadoop集群当中的配置文件感知时间是怎么计算的？

628

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

相关文章

五、Hive表类型、分区及数据加载

阿里云服务器Arm计算架构解析：主要实例规格、性能特点、适用场景与价格参考

三、Hive DDL数据库操作

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

【服务器数据恢复】RAID阵列SSD固态硬盘故障导致互联网企业用户数据丢失数据恢复案例

还有其他疑问?