Hortonworks IPO背后:在Hadoop征途上奋力前行

简介:

Hadoop可谓风头又盛,这一点相信大家都不会有异议。不过真正的问题在于,这种强劲势头到底源自何方、又能否成功跨出硅谷的极客圈子迈入主流企业环境。随着Hortonworks公司递交首轮公开募股申请文件、加上有报道称Cloudera的产品销售额正式突破1亿美元大关,我们似乎已经可以认为Hadoop在主流市场上得到了肯定。

不过,现实我的朋友,现实远没有那么美好。

对于大多数企业而言,Hadoop仍然是一只拥有着极高复杂性与驾驭难度的猛兽,这也是Hortonworks公司的营收总额当中有43%源自利润极低的支持服务项目的原因之一。尽管很多人都清楚Hadoop的作用与意义,但却很少有人真正了解如何加以实现或者清楚为何应该如此实现。

有鉴于此,如果Hadoop想要真正迈入主流环境,那么第一要务就是由当前只适合少数硅谷精英的神秘科学转型成为“针对分布式数据的操作系统”,该项目创始人Doug Cutting给出了自己的观点。

“既然如此,我们该如何应对?”

当下几乎每一家企业都或多或少地会与Hadoop扯上点关系,而任务数据也证实了这一结论。Gartner公司每年都会向企业询问其当前以及未来的大数据发展规划,而所谓“大数据”往往被多数受访者视为“Hadoop”的直接代名词。在最近的一份调查当中,有73%的受访企业宣称他们已经着手或者有计划在未来两年之内对大数据项目进行投资。

更值得一提的是,在2012年到2013年期间、绝大多数大数据项目都属于实验性部署性质,而在2013年到2014年之间则有更多企业积极投身于大数据怀抱、并开始在生产环境中引入Hadoop以及其它各类大数据相关技术方案:

Hortonworks IPO背后:在Hadoop征途上奋力前行

 

尽管从表面上看大数据技术与Hadoop项目算是取得了可喜可贺的成绩,但调查当中也同时暴露出一些混乱状况。

举例来说,受访者们表示其计划将大量类型各异的数据源纳入到大数据项目当中,其中包括音频以及视频等不同来源。正如Gartner公司分析师Nick Heudecker所强调,这种“过度乐观且带有明显随机性的待分析数据源选择方式”代表着“企业根本不知道自身未来该朝着哪个方向发展前行”,因为很明显“随便找点什么添加进来根本算不上是战略指导方针。”确实如此,这可能仅仅意味着此类企业“害怕自己错过这一轮尚未得到明确定义的发展机遇。”

这种完全站不住脚的“战略”定义在Gartner就Hadoop采纳议题作出的一份独立调查报告中体现得淋漓尽致。

在这份报告中,Gartner方面向受访者询问阻碍其实施Hadoop方案的因素,并发现其中最为严重的负面影响源自其“价值定位尚不明确”:

Hortonworks IPO背后:在Hadoop征途上奋力前行

 

也许正是由于这种概念模糊、似有似无的价值定位(甚至有文章宣称Hadoop属于每个人都离不开的重要事物),多数相关供应商的营收都由专业服务所贡献(其比例达到整体利润的35%,Host Analytics公司首席执行官Dave Kellogg指出),这意味着除了Hadoop的具体实现工作之外、客户们就连弄清楚这项技术之必要性这类前提性问题的答案都需要假大数据供应商之手。

而这可能也正是除了Hadoop大红大紫之外、另一大让Hortonworks在公开募股道路上一路顺风的有利因素:虽然在几个月之前曾经曝出过市场估值高达10亿美元的豪言,但目前该公司的公开募股金额应该在6.59亿美元左右。

十亿美元俱乐部可不是那么好进的,Hortonworks用自身经历再次证明了这一点。

但需要再次强调的是,这在很大程度源自客户对于此类技术的困惑感受。前华尔街分析师、现任MongoDB企业战略高级主管Peter Goldmacher最近曾经与一家Hadoop初创企业的销售人员进行过交流,后者刚刚完成了一笔数额达100万美元的企业订单。在订单签署完毕之后,买家提出了这样一个问题:“我现在该做些什么?”

我认为,Hadoop需要更多受到微软方案风格的影响。

当然,让Hadoop迈入主流环境并不一定总要搞得这么复杂。尽管在Barclays进行的调查当中,有72%的受访CIO认为“目前断言Hadoop是否会在其企业当中成为一项重要技术方案还为时过早”,但随着时间的推移、投入Hadoop项目的资金与精力已经相当可观,这应该足以克服前面提到的诸多障碍。

在硅谷当中,大多数与Hadoop相关的岗位都拥有令人艳羡的薪酬标准,这也代表着拥有Hadoop以及其它大数据技术相关经验的人才能够更轻松地博得雇主的好感与关注。但求职者还称不上是Hadoop普及浪潮当中的真正赢家。根据Goldmacher的观点,他认为:

在这场浪潮当中获准最大的应该是那些大数据从业人员。这部分以业务为工作核心的群体有机会利用数据来创建新的发展机遇、或者借此颠覆传统商务模式。

但如果Hadoop仍然像目前这样极度复杂、难于使用,那么上述机遇将无法成为现实。或者说,也许我们会直接转向其它更容易上手的技术方案。

也许Hadoop的相关专业知识最终能够如涓滴细流般在全球范围内得到推广,但Cloudera与其它Hadoop发行版完全可以通过大规模在线培训的方式帮助使用者更轻松地发掘Hadoop这一宝藏——正如MongoDB对NoSQL数据库所做的那样(目前MongoDB社区已经拥有超过20万注册用户,而且就在不久之前我还在担任社区副总裁职务)。

他们也可以进一步加大投资力度,从而让Hadoop成为一种更容易消化的消费品。Hadoop供应商业界已经在这方面取得了一定进展,其中Apache Spark就是一大杰出代表——该项目成功取代了Hadoop的原配MapReduce,从而“极大鼓舞了那些被MapReduce弄得身心俱疲的开发人员,为他们带来一套主要面向Hadoop的更为简便且快捷的大数据应用程序构建途径。”

但摆在面前的难题还有很多。事实上,我认为Hadoop需要更多受到微软风格方案的影响,即需要一家能够为Hadoop带来易用性工具体系的公司来保证这项技术为更多普通数据分析师所使用、而非必须雇用薪酬极高的数据科学家来完成此类任务。

原文发布时间为:2014年12月04日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 Hadoop Apache
|
4天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
22 2
|
4天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
6天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
35 1
|
23天前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
18 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
44 0
《PySpark大数据分析实战》-02.了解Hadoop
|
4月前
|
存储 搜索推荐 算法
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
155 0