Hadoop存储与计算分离实践

简介: 本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。

本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的《Hadoop存储于计算分离实践》。

Hadoop部署一般可大致分为传统集群部署和云上集群部署。具体而言,对于传统集群部署,存储和计算是重点,计算能力加上存储能力大致等同于这个集群的能力。传统集群往往包含很多数据“中心”,并以集群混部的方式部署。在理想情况下,一个集群系统往往希望产生更少的数据迁移,并且达到更高的资源利用率。然而在现实中,当带宽逐渐不再是稀缺资源,磁盘不在是承载计算的主战场时,计算和存储这两者之间便会随之产生木桶效应,造成集群的资源浪费。同时,随着人们对于本地数据和远程数据对比逐渐深入,混部的劣势开始逐渐暴露出来。这些劣势包括更大的集群资源浪费、更差的集群扩展性以及不再万能的数据本地化,并且引发了人们对于混合部署的合理性的探讨。

另外一种更新颖的方式是云上集群部署方式。它利用了现有的完备的云计算基础设施在云上集群部署,并且可以达到“一键部署,即开即用”的程度。当然,云上部署也面临储存成本高、储存质量下降等新的挑战。所以,一种新的替代方案--Hadoop+OSS出现了,这种方案基于OSS的分离部署,利用Hadoop对OSS的支持,进行了针对性的优化,未来系统将主要针对小文件预取和缓存和元数据视图系统进行优化。目前,这一方案经过测试,性能达到预期要求,并且还能节省不少的计算成本和存储成本。

01947e6c6129ae0c91d78e33a17c9ef799d60921

89168bd80cda084edc01b31d697101c05db6f1e5

45317c8c2868d89aa582af60f4de39d2c1303acf

decc320464c26f5333dc96517a300b0b59812d35

0a877abdf6122ceb84449829e29f17c9c60981af

112fff5c8a809a7ff5c9db0a7cfee4aa48dded32

925d03073e6693c629104398209cd469126be656

4f1bc8e0247e9853d217140da6c3faae8bbb9db8

6150c47b8493d5882fab3ae078efad33534027c7

c75c2df084e8dd6754c06e6dc422a47f5021af0f

9e9b99fc87707d2787e5dc425a7809ae5edecf2c

182a1ef2bb78140f7c61e81a0909e580dda67515


a2d8bf0f90179afa815e2a09a362fbaf9a6e61f9

d2a88367837d81d127d2d9db98b847f55f5a6e5c

ae72eb05f289760dffb17fcdf9e9acf1d71e5bf3


相关文章
|
6月前
|
存储 分布式计算 Hadoop
Hadoop数据块分散存储NameNode管理
【4月更文挑战第17天】Hadoop是一个开源的分布式计算框架,依赖HDFS进行分布式存储。文件被分割成数据块分散在DataNode上,NameNode负责元数据管理和协调,确保数据可靠性。NameNode的高可用性配置能防止单点故障,保证系统稳定性。这套机制支持高效、可靠和可扩展的大数据存储与访问。
80 3
|
5月前
|
存储 分布式计算 算法
Hadoop性能优化存储空间需求
【6月更文挑战第7天】
51 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
89 3
|
1月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
58 2
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
47 1
|
3月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
92 1
|
4月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
5月前
|
存储 分布式计算 Hadoop
Hadoop性能优化存储效率
【6月更文挑战第5天】
93 7
|
5月前
|
存储 分布式计算 NoSQL
|
6月前
|
存储 分布式计算 Hadoop
Hadoop节点存储方式
【5月更文挑战第20天】
49 2