Hadoop 架构已凋谢 ?!

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

Hadoop架构的人气在下滑,这可能归咎于几个不同的因素,尤其是机器学习的兴起。

过去这几年,HDFS的使用量一直在下降,这种基于Java的文件系统已几乎成为所谓的大数据革命的代名词。这主要归因于市场对Hadoop普遍缺乏兴趣。但是导致Hadoop被大规模抛弃的Hadoop架构方面又如何呢?要知道,就在不久前Hadoop还大有希望。

坦率地说,Hadoop走下坡路似乎找不到一个最根本的理由。相反,Hadoop架构人气下滑可能归咎于几个不同的因素。

一些IT专业人员对于自己无法在Hadoop集群上执行任何有意义的数据分析颇为沮丧。一种常见的观点是,Hadoop非常适合存储大量数据,但是对于需要最终用户可以直接处理这些数据的那些企业来说,它又往往不是最佳解决方案。

几家供应商已经开发了SQL on Hadoop解决方案,让客户可以针对驻留在Hadoop上的数据运行SQL查询。即便如此,这些工具也不是天生一模一样,每家SQL on Hadoop供应商都似乎为特定的使用场合设计其工具。不难想象众多企业组织痛苦地发现:它们购买的SQL on Hadoop引擎其实并不是很适合自己的大数据项目。

不仅仅是很难让Hadoop完成企业组织需要它完成的任务这个因素导致Hadoop的使用量减少。导致Hadoop日渐式微的偶尔提到的另一个原因是,Hadoop与目前的IT趋势不相合拍。

大数据革命似乎在一夜之间就立稳了脚跟;大数据蔚然成风时,Hadoop完全准备好了响应号召。毕竟,据Hortonworks声称,HDFS文件系统“已表明了它具有在生产环境下支持200 PB存储的可扩展性”,而4500台服务器组成的单单一个集群就能支持“近10亿个文件和块”。很显然,HDFS处理得了大数据。

可问题是,大数据潮流似乎已翻篇了。尽管IT部门仍然在搞可能归属大数据这个大类的项目,但这个术语用得越来越少。相反,当下的IT潮流似乎是机器学习;当然,Hadoop并不直接支持机器学习。市面上有一些第三方工具(比如Apache Mahout)能够做到让Hadoop支持机器学习,但可能数量太少、动作太晚。

然而,Hadoop使用量下降的最大原因可能是亚马逊AWS和微软Azure等IaaS云日渐成熟。公共云对于企业组织远离Hadoop起到了重要的作用,这出于几个不同的原因。

第一个原因是纯粹的感知或看法。我们生活在一个云优先的世界。公共云提供商在说服人们相信在云端运行工作负载比在本地运行同样那些工作负载要省钱得多这方面做得很到位。

另外,外头往往认为继续在本地环境部署新工作负载的企业多少落后于时代。

公共云提供商慢慢促使Hadoop衰落的第二个原因是,云提供商实际上构建了一个更管用的捕鼠器。虽然值得一提的是,亚马逊确实通过亚马逊EMR支持Hadoop和Spark,但对于需要大数据分析功能的企业组织而言,EMR并非亚马逊的唯一解决方案。亚马逊还提供Athena和Elasticsearch,前者可用于分析存储在亚马逊S3中PB级的数据,后者支持PB级的日志分析、文本搜索和应用程序监控功能。

我料想,Hadoop和HDFS文件系统根本不会完全消失,至少在短期内不会消失。我认为,将来可能总是需要使用商用硬件的大容量存储。此外,将大量数据上传到公共云可能成本过高,还可能带来购置、维护和运输等保障方面的问题。

话虽如此,新的大数据项目诞生于云端显得越来越常见,IT专业人员日益发现云原生大数据工具比Hadoop来得更易于使用、更有效。


原文发布时间为:2018-11-19

本文来自云栖社区合作伙伴“互联网架构师”,了解相关信息可以关注“互联网架构师”。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
197 2
|
13天前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
78 6
|
13天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
42 2
|
14天前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
37 3
|
14天前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
35 2
|
1月前
|
资源调度 分布式计算 Hadoop
YARN(Hadoop操作系统)的架构
本文详细解释了YARN(Hadoop操作系统)的架构,包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。
65 3
YARN(Hadoop操作系统)的架构
|
14天前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
35 0
|
1月前
|
存储 分布式计算 Hadoop
探讨Hadoop的基础架构及其核心特点
总之,Hadoop的设计目标是解决大数据存储和分析问题,提供一个可靠、可扩展、高效且成本低廉的解决方案。随着数据量的日益增长,Hadoop及其生态系统在业界的重要性也日益凸显。
31 0
|
4月前
|
存储 分布式计算 Hadoop
Hadoop是一个强大的分布式系统基础架构
【6月更文挑战第17天】Hadoop是一个强大的分布式系统基础架构
153 53
|
2月前
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
70 0