Hadoop可能已经达到预期的成熟度

简介:

五年前,Hadoop用可以解决所有大数据[注]难题的身份杀入主流市场。如今尘埃已经落定,现在是时候对Hadoop展开更切合实际的评估了。

我们现在正处于21世纪第二个十年的正中间。当大数据潮流从五年前开始兴起时,Hadoop将引领未来这一看法得到了普遍认可。Hadoop市场从那时开始的增长显示,这一共识并没有被削弱。持续不懈的宣传至少为Hadoop的部署与创新打下了良好的基础。

如果所有人都非常清楚Hadoop的重要性,那么我们是否还有必要在大数据领域中继续宣传Hadoop将是“下一个大事件”呢?Hadoop是否早已过了其发展的拐点,其成熟的时间点是否正在快速到来?当所有的成熟标志在细分市场中出现后,我们应该降低它们的市场营销力度。在大数据分析市场的份额方面,Hadoop目前可能已经达到了之前的预期(尽管整个市场可能还会持续增长)。

为了确定Hadoop是否已经到达了这一拐点,让我们来评估一下Hadoop目前已经发展到了什么程度,以及未来可能会如何发展。

创业活动是成长型市场的明显标志。创业活动的下降也是成熟的强烈信号。在经历了初期的创业活动井喷后,Hadoop平台、工具和应用厂商已经被人们所熟悉。例如,在近期《InformationWeek》的市场概述中被提及的每一家厂商都是在三、四年前加入这一领域的,当时我还是市场研究机构Forrester的Hadoop分析师。这是成熟市场的一个显著标志。

Hadoop的另一个成熟标志是,其主要的需求推动因素实际上一直保持着稳定,这反映出其市场一直没有变化。市场调查的结果也反映出,用户部署Hadoop主要是用于非结构化数据分析、预测性客户分析、情感分析等工作。这与我在2011年对Hadoop市场所做的初步研究没有什么明显的不同。

细分市场成熟的另一个标志还在于,整个行业在年复一年地重复相同的主题,并将其视为最有效的解决方案。例如,大数据博客仍然在讨论“SQL是否在Hadoop生态圈中拥有未来?”等早有定论的问题。答案是肯定的,证据是上述调查中所罗列的每家主要厂商都提供了一系列供备选的SQL访问/分析选项。

关于“重复相同的旧主题”这一趋势,这也是Hadoop市场范围不清晰的毛病。我在2014年4月份曾在一篇专栏文章中指出,Hadoop技术仍然没有明确的界限(相较于NoSQL,以及其他的大数据方案),而这一点我在三年前供职于Forrester时就已经多次提到过了。时至今日,Hadoop业界的“身份危机”在很大程度上源自其没有实现标准化,而且没有统一Hadoop是什么,以及未来的发展前景。

如果认真审视目前Apache软件基金会给Hadoop作出的定义,我们就会发现,该项目仍然像一个大杂烩,而非一个明确的架构。例如,最近加入到Hadoop中的Spark看起来仍然太过随意,且其中仍然存在着与Cassandra千丝万缕的联系。业界还没有人真正将Spark作为Hadoop的竞争对手,而非其组成部分。与之形成鲜明对比的是,Cassandra并不是最热门的开源实时大数据社区,其持续增长的势头似乎也已经开始显著衰退。

当讨论越来越多地集中在主流用户中微不足道的部署率时(+本站微信networkworldweixin),那么就意味着,这一技术的目标市场已经开始饱和。以下才是这份调查报告的核心内容:

《InformationWeek》的数据表明,目前列车尚没有真正驶离车站:只有4%的企业在广泛使用Hadoop,而18%的企业表示,仅在有限的范围内使用了Hadoop……与2014年3%的企业开始广泛使用和12%的企业仅在有限的范围内使用Hadoop相比,2015年这两项数据均有所提升。另有20%企业客户有使用Hadoop的计划,不过仍有58%的受访企业表示,尚未计划使用Hadoop。

如果大家拥有分析行业的从业经历,就会发现这样的状况有些似曾相识的感觉。二十多年前,BI(商业智能)市场曾经作为独立业务拥有自己的一片天地,但其在主流知识型员工中的采用率却一直表现低迷。

也许BI或Hadoop,以及其他大数据技术项目,都注定无法像智能手机那样被市场所广泛接受。但这并不意味着Hadoop无法在被明确定义的特定市场之内,发展成为一个极为重要、且盈利可观的细分市场。毕竟没有什么东西能够阻碍一个成年人在步入老年的过程中,逐渐积累到财富与名望。


本文作者:佚名

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9月前
|
存储 XML 分布式计算
hadoop的系统认知
我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题Hadoop适合海量数据 分布式存储 和 分布式计算Hadoop的作者是Doug Cutting,Hadoop这个名字是作者的孩子给他的毛绒象玩具起的名字
81 0
|
9月前
|
数据采集 分布式计算 监控
Hadoop生态系统中的数据质量与数据治理:Apache Atlas和Apache Falcon的作用
Hadoop生态系统中的数据质量与数据治理:Apache Atlas和Apache Falcon的作用
|
机器学习/深度学习 存储 分布式计算
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
359 0
从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
120 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
|
分布式计算 大数据 Hadoop
好程序员大数据教程Hadoop全分布安装(非HA)
   机器名称 启动服务  linux11 namenode secondrynamenode datanode  linux12 datanode  linux13 datanode  第一步:更改主机名,临时修改+永久修改  临时修改:hostname linux11  永久修改: vi /e.
1186 0
|
分布式计算 搜索推荐 Hadoop

相关实验场景

更多