Hortonworks IPO背后:在Hadoop征途上奋力前行

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

Hadoop可谓风头又盛,这一点相信大家都不会有异议。不过真正的问题在于,这种强劲势头到底源自何方、又能否成功跨出硅谷的极客圈子迈入主流企业环境。随着Hortonworks公司递交首轮公开募股申请文件、加上有报道称Cloudera的产品销售额正式突破1亿美元大关,我们似乎已经可以认为Hadoop在主流市场上得到了肯定。

不过,现实我的朋友,现实远没有那么美好。

对于大多数企业而言,Hadoop仍然是一只拥有着极高复杂性与驾驭难度的猛兽,这也是Hortonworks公司的营收总额当中有43%源自利润极低的支持服务项目的原因之一。尽管很多人都清楚Hadoop的作用与意义,但却很少有人真正了解如何加以实现或者清楚为何应该如此实现。

有鉴于此,如果Hadoop想要真正迈入主流环境,那么第一要务就是由当前只适合少数硅谷精英的神秘科学转型成为“针对分布式数据的操作系统”,该项目创始人Doug Cutting给出了自己的观点。

“既然如此,我们该如何应对?”

当下几乎每一家企业都或多或少地会与Hadoop扯上点关系,而任务数据也证实了这一结论。Gartner公司每年都会向企业询问其当前以及未来的大数据发展规划,而所谓“大数据”往往被多数受访者视为“Hadoop”的直接代名词。在最近的一份调查当中,有73%的受访企业宣称他们已经着手或者有计划在未来两年之内对大数据项目进行投资。

更值得一提的是,在2012年到2013年期间、绝大多数大数据项目都属于实验性部署性质,而在2013年到2014年之间则有更多企业积极投身于大数据怀抱、并开始在生产环境中引入Hadoop以及其它各类大数据相关技术方案:

Hortonworks IPO背后:在Hadoop征途上奋力前行

 

尽管从表面上看大数据技术与Hadoop项目算是取得了可喜可贺的成绩,但调查当中也同时暴露出一些混乱状况。

举例来说,受访者们表示其计划将大量类型各异的数据源纳入到大数据项目当中,其中包括音频以及视频等不同来源。正如Gartner公司分析师Nick Heudecker所强调,这种“过度乐观且带有明显随机性的待分析数据源选择方式”代表着“企业根本不知道自身未来该朝着哪个方向发展前行”,因为很明显“随便找点什么添加进来根本算不上是战略指导方针。”确实如此,这可能仅仅意味着此类企业“害怕自己错过这一轮尚未得到明确定义的发展机遇。”

这种完全站不住脚的“战略”定义在Gartner就Hadoop采纳议题作出的一份独立调查报告中体现得淋漓尽致。

在这份报告中,Gartner方面向受访者询问阻碍其实施Hadoop方案的因素,并发现其中最为严重的负面影响源自其“价值定位尚不明确”:

Hortonworks IPO背后:在Hadoop征途上奋力前行

 

也许正是由于这种概念模糊、似有似无的价值定位(甚至有文章宣称Hadoop属于每个人都离不开的重要事物),多数相关供应商的营收都由专业服务所贡献(其比例达到整体利润的35%,Host Analytics公司首席执行官Dave Kellogg指出),这意味着除了Hadoop的具体实现工作之外、客户们就连弄清楚这项技术之必要性这类前提性问题的答案都需要假大数据供应商之手。

而这可能也正是除了Hadoop大红大紫之外、另一大让Hortonworks在公开募股道路上一路顺风的有利因素:虽然在几个月之前曾经曝出过市场估值高达10亿美元的豪言,但目前该公司的公开募股金额应该在6.59亿美元左右。

十亿美元俱乐部可不是那么好进的,Hortonworks用自身经历再次证明了这一点。

但需要再次强调的是,这在很大程度源自客户对于此类技术的困惑感受。前华尔街分析师、现任MongoDB企业战略高级主管Peter Goldmacher最近曾经与一家Hadoop初创企业的销售人员进行过交流,后者刚刚完成了一笔数额达100万美元的企业订单。在订单签署完毕之后,买家提出了这样一个问题:“我现在该做些什么?”

我认为,Hadoop需要更多受到微软方案风格的影响。

当然,让Hadoop迈入主流环境并不一定总要搞得这么复杂。尽管在Barclays进行的调查当中,有72%的受访CIO认为“目前断言Hadoop是否会在其企业当中成为一项重要技术方案还为时过早”,但随着时间的推移、投入Hadoop项目的资金与精力已经相当可观,这应该足以克服前面提到的诸多障碍。

在硅谷当中,大多数与Hadoop相关的岗位都拥有令人艳羡的薪酬标准,这也代表着拥有Hadoop以及其它大数据技术相关经验的人才能够更轻松地博得雇主的好感与关注。但求职者还称不上是Hadoop普及浪潮当中的真正赢家。根据Goldmacher的观点,他认为:

在这场浪潮当中获准最大的应该是那些大数据从业人员。这部分以业务为工作核心的群体有机会利用数据来创建新的发展机遇、或者借此颠覆传统商务模式。

但如果Hadoop仍然像目前这样极度复杂、难于使用,那么上述机遇将无法成为现实。或者说,也许我们会直接转向其它更容易上手的技术方案。

也许Hadoop的相关专业知识最终能够如涓滴细流般在全球范围内得到推广,但Cloudera与其它Hadoop发行版完全可以通过大规模在线培训的方式帮助使用者更轻松地发掘Hadoop这一宝藏——正如MongoDB对NoSQL数据库所做的那样(目前MongoDB社区已经拥有超过20万注册用户,而且就在不久之前我还在担任社区副总裁职务)。

他们也可以进一步加大投资力度,从而让Hadoop成为一种更容易消化的消费品。Hadoop供应商业界已经在这方面取得了一定进展,其中Apache Spark就是一大杰出代表——该项目成功取代了Hadoop的原配MapReduce,从而“极大鼓舞了那些被MapReduce弄得身心俱疲的开发人员,为他们带来一套主要面向Hadoop的更为简便且快捷的大数据应用程序构建途径。”

但摆在面前的难题还有很多。事实上,我认为Hadoop需要更多受到微软风格方案的影响,即需要一家能够为Hadoop带来易用性工具体系的公司来保证这项技术为更多普通数据分析师所使用、而非必须雇用薪酬极高的数据科学家来完成此类任务。

原文发布时间为:2014年12月04日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 Hadoop Apache
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
204 6
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
91 2
|
15天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
51 4
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
136 2
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
97 1
|
3月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
92 1