Hadoop可谓风头又盛,这一点相信大家都不会有异议。不过真正的问题在于,这种强劲势头到底源自何方、又能否成功跨出硅谷的极客圈子迈入主流企业环境。随着Hortonworks公司递交首轮公开募股申请文件、加上有报道称Cloudera的产品销售额正式突破1亿美元大关,我们似乎已经可以认为Hadoop在主流市场上得到了肯定。
不过,现实我的朋友,现实远没有那么美好。
对于大多数企业而言,Hadoop仍然是一只拥有着极高复杂性与驾驭难度的猛兽,这也是Hortonworks公司的营收总额当中有43%源自利润极低的支持服务项目的原因之一。尽管很多人都清楚Hadoop的作用与意义,但却很少有人真正了解如何加以实现或者清楚为何应该如此实现。
有鉴于此,如果Hadoop想要真正迈入主流环境,那么第一要务就是由当前只适合少数硅谷精英的神秘科学转型成为“针对分布式数据的操作系统”,该项目创始人Doug Cutting给出了自己的观点。
“既然如此,我们该如何应对?”
当下几乎每一家企业都或多或少地会与Hadoop扯上点关系,而任务数据也证实了这一结论。Gartner公司每年都会向企业询问其当前以及未来的大数据发展规划,而所谓“大数据”往往被多数受访者视为“Hadoop”的直接代名词。在最近的一份调查当中,有73%的受访企业宣称他们已经着手或者有计划在未来两年之内对大数据项目进行投资。
更值得一提的是,在2012年到2013年期间、绝大多数大数据项目都属于实验性部署性质,而在2013年到2014年之间则有更多企业积极投身于大数据怀抱、并开始在生产环境中引入Hadoop以及其它各类大数据相关技术方案:
尽管从表面上看大数据技术与Hadoop项目算是取得了可喜可贺的成绩,但调查当中也同时暴露出一些混乱状况。
举例来说,受访者们表示其计划将大量类型各异的数据源纳入到大数据项目当中,其中包括音频以及视频等不同来源。正如Gartner公司分析师Nick Heudecker所强调,这种“过度乐观且带有明显随机性的待分析数据源选择方式”代表着“企业根本不知道自身未来该朝着哪个方向发展前行”,因为很明显“随便找点什么添加进来根本算不上是战略指导方针。”确实如此,这可能仅仅意味着此类企业“害怕自己错过这一轮尚未得到明确定义的发展机遇。”
这种完全站不住脚的“战略”定义在Gartner就Hadoop采纳议题作出的一份独立调查报告中体现得淋漓尽致。
在这份报告中,Gartner方面向受访者询问阻碍其实施Hadoop方案的因素,并发现其中最为严重的负面影响源自其“价值定位尚不明确”:
也许正是由于这种概念模糊、似有似无的价值定位(甚至有文章宣称Hadoop属于每个人都离不开的重要事物),多数相关供应商的营收都由专业服务所贡献(其比例达到整体利润的35%,Host Analytics公司首席执行官Dave Kellogg指出),这意味着除了Hadoop的具体实现工作之外、客户们就连弄清楚这项技术之必要性这类前提性问题的答案都需要假大数据供应商之手。
而这可能也正是除了Hadoop大红大紫之外、另一大让Hortonworks在公开募股道路上一路顺风的有利因素:虽然在几个月之前曾经曝出过市场估值高达10亿美元的豪言,但目前该公司的公开募股金额应该在6.59亿美元左右。
十亿美元俱乐部可不是那么好进的,Hortonworks用自身经历再次证明了这一点。
但需要再次强调的是,这在很大程度源自客户对于此类技术的困惑感受。前华尔街分析师、现任MongoDB企业战略高级主管Peter Goldmacher最近曾经与一家Hadoop初创企业的销售人员进行过交流,后者刚刚完成了一笔数额达100万美元的企业订单。在订单签署完毕之后,买家提出了这样一个问题:“我现在该做些什么?”
我认为,Hadoop需要更多受到微软方案风格的影响。
当然,让Hadoop迈入主流环境并不一定总要搞得这么复杂。尽管在Barclays进行的调查当中,有72%的受访CIO认为“目前断言Hadoop是否会在其企业当中成为一项重要技术方案还为时过早”,但随着时间的推移、投入Hadoop项目的资金与精力已经相当可观,这应该足以克服前面提到的诸多障碍。
在硅谷当中,大多数与Hadoop相关的岗位都拥有令人艳羡的薪酬标准,这也代表着拥有Hadoop以及其它大数据技术相关经验的人才能够更轻松地博得雇主的好感与关注。但求职者还称不上是Hadoop普及浪潮当中的真正赢家。根据Goldmacher的观点,他认为:
在这场浪潮当中获准最大的应该是那些大数据从业人员。这部分以业务为工作核心的群体有机会利用数据来创建新的发展机遇、或者借此颠覆传统商务模式。
但如果Hadoop仍然像目前这样极度复杂、难于使用,那么上述机遇将无法成为现实。或者说,也许我们会直接转向其它更容易上手的技术方案。
也许Hadoop的相关专业知识最终能够如涓滴细流般在全球范围内得到推广,但Cloudera与其它Hadoop发行版完全可以通过大规模在线培训的方式帮助使用者更轻松地发掘Hadoop这一宝藏——正如MongoDB对NoSQL数据库所做的那样(目前MongoDB社区已经拥有超过20万注册用户,而且就在不久之前我还在担任社区副总裁职务)。
他们也可以进一步加大投资力度,从而让Hadoop成为一种更容易消化的消费品。Hadoop供应商业界已经在这方面取得了一定进展,其中Apache Spark就是一大杰出代表——该项目成功取代了Hadoop的原配MapReduce,从而“极大鼓舞了那些被MapReduce弄得身心俱疲的开发人员,为他们带来一套主要面向Hadoop的更为简便且快捷的大数据应用程序构建途径。”
但摆在面前的难题还有很多。事实上,我认为Hadoop需要更多受到微软风格方案的影响,即需要一家能够为Hadoop带来易用性工具体系的公司来保证这项技术为更多普通数据分析师所使用、而非必须雇用薪酬极高的数据科学家来完成此类任务。