Hadoop可能已经达到预期的成熟度

简介:

五年前,Hadoop用可以解决所有大数据[注]难题的身份杀入主流市场。如今尘埃已经落定,现在是时候对Hadoop展开更切合实际的评估了。

我们现在正处于21世纪第二个十年的正中间。当大数据潮流从五年前开始兴起时,Hadoop将引领未来这一看法得到了普遍认可。Hadoop市场从那时开始的增长显示,这一共识并没有被削弱。持续不懈的宣传至少为Hadoop的部署与创新打下了良好的基础。

如果所有人都非常清楚Hadoop的重要性,那么我们是否还有必要在大数据领域中继续宣传Hadoop将是“下一个大事件”呢?Hadoop是否早已过了其发展的拐点,其成熟的时间点是否正在快速到来?当所有的成熟标志在细分市场中出现后,我们应该降低它们的市场营销力度。在大数据分析市场的份额方面,Hadoop目前可能已经达到了之前的预期(尽管整个市场可能还会持续增长)。

为了确定Hadoop是否已经到达了这一拐点,让我们来评估一下Hadoop目前已经发展到了什么程度,以及未来可能会如何发展。

创业活动是成长型市场的明显标志。创业活动的下降也是成熟的强烈信号。在经历了初期的创业活动井喷后,Hadoop平台、工具和应用厂商已经被人们所熟悉。例如,在近期《InformationWeek》的市场概述中被提及的每一家厂商都是在三、四年前加入这一领域的,当时我还是市场研究机构Forrester的Hadoop分析师。这是成熟市场的一个显著标志。

Hadoop的另一个成熟标志是,其主要的需求推动因素实际上一直保持着稳定,这反映出其市场一直没有变化。市场调查的结果也反映出,用户部署Hadoop主要是用于非结构化数据分析、预测性客户分析、情感分析等工作。这与我在2011年对Hadoop市场所做的初步研究没有什么明显的不同。

细分市场成熟的另一个标志还在于,整个行业在年复一年地重复相同的主题,并将其视为最有效的解决方案。例如,大数据博客仍然在讨论“SQL是否在Hadoop生态圈中拥有未来?”等早有定论的问题。答案是肯定的,证据是上述调查中所罗列的每家主要厂商都提供了一系列供备选的SQL访问/分析选项。

关于“重复相同的旧主题”这一趋势,这也是Hadoop市场范围不清晰的毛病。我在2014年4月份曾在一篇专栏文章中指出,Hadoop技术仍然没有明确的界限(相较于NoSQL,以及其他的大数据方案),而这一点我在三年前供职于Forrester时就已经多次提到过了。时至今日,Hadoop业界的“身份危机”在很大程度上源自其没有实现标准化,而且没有统一Hadoop是什么,以及未来的发展前景。

如果认真审视目前Apache软件基金会给Hadoop作出的定义,我们就会发现,该项目仍然像一个大杂烩,而非一个明确的架构。例如,最近加入到Hadoop中的Spark看起来仍然太过随意,且其中仍然存在着与Cassandra千丝万缕的联系。业界还没有人真正将Spark作为Hadoop的竞争对手,而非其组成部分。与之形成鲜明对比的是,Cassandra并不是最热门的开源实时大数据社区,其持续增长的势头似乎也已经开始显著衰退。

当讨论越来越多地集中在主流用户中微不足道的部署率时(+本站微信networkworldweixin),那么就意味着,这一技术的目标市场已经开始饱和。以下才是这份调查报告的核心内容:

《InformationWeek》的数据表明,目前列车尚没有真正驶离车站:只有4%的企业在广泛使用Hadoop,而18%的企业表示,仅在有限的范围内使用了Hadoop……与2014年3%的企业开始广泛使用和12%的企业仅在有限的范围内使用Hadoop相比,2015年这两项数据均有所提升。另有20%企业客户有使用Hadoop的计划,不过仍有58%的受访企业表示,尚未计划使用Hadoop。

如果大家拥有分析行业的从业经历,就会发现这样的状况有些似曾相识的感觉。二十多年前,BI(商业智能)市场曾经作为独立业务拥有自己的一片天地,但其在主流知识型员工中的采用率却一直表现低迷。

也许BI或Hadoop,以及其他大数据技术项目,都注定无法像智能手机那样被市场所广泛接受。但这并不意味着Hadoop无法在被明确定义的特定市场之内,发展成为一个极为重要、且盈利可观的细分市场。毕竟没有什么东西能够阻碍一个成年人在步入老年的过程中,逐渐积累到财富与名望。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
弹性计算 NoSQL 关系型数据库
ECS迁移问题之ECS往本地迁移如何解决
ECS(Elastic Compute Service,弹性计算服务)是云计算服务提供商提供的一种基础云服务,允许用户在云端获取和配置虚拟服务器。以下是ECS服务使用中的一些常见问题及其解答的合集:
|
4月前
|
人工智能 运维 安全
2025年远程控制软件排行榜:安全性能哪家强?ToDesk/TeamViewer/向日葵等对比
2025年远程控制软件排行榜:安全性能哪家强?ToDesk/TeamViewer/向日葵等对比
636 11
2025年远程控制软件排行榜:安全性能哪家强?ToDesk/TeamViewer/向日葵等对比
|
数据采集 数据挖掘 Python
【Python DataFrame专栏】讲解DataFrame中缺失值的处理方法,包括填充、删除和插值技术。
【5月更文挑战第20天】在Python的Pandas库中处理DataFrame缺失值,包括查看缺失值(`isnull().sum()`)、填充(`fillna()`:固定值、前向填充、后向填充)、删除(`dropna()`:按行或列)和插值(`interpolate()`:线性、多项式、分段常数)。示例代码展示了这些方法的使用。
1361 3
【Python DataFrame专栏】讲解DataFrame中缺失值的处理方法,包括填充、删除和插值技术。
|
运维 监控 Linux
BPF及Linux性能调试探索初探
BPF技术从最初的网络数据包过滤发展为强大的系统性能优化工具,无需修改内核代码即可实现实时监控、动态调整和精确分析。本文深入探讨BPF在Linux性能调试中的应用,介绍bpftune和BPF-tools等工具,并通过具体案例展示其优化效果。
742 14
|
应用服务中间件 Linux 网络安全
CentOS 7 上安装 Nginx
在 CentOS 7 上安装 Nginx 的步骤包括:添加 EPEL 仓库,安装 Nginx,启动 Nginx,配置防火墙规则,最后通过访问服务器 IP 验证安装是否成功
759 0
|
存储 安全 前端开发
ssm656基于JAVA的校园失物招领平台的设计与实现
ssm656基于JAVA的校园失物招领平台的设计与实现
|
算法 Java 编译器
java判断数字是否是偶数
【2月更文挑战第3天】
720 0
|
存储 SQL 数据安全/隐私保护
Mybatis-Plus 拦截SQL语句实现加解密存储
Mybatis-Plus 拦截SQL语句实现加解密存储
550 0
|
11天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11278 116
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw