Hortonworks CEO:一半数据采用Hadoop

简介:
文章讲的是 Hortonworks CEO:一半数据采用Hadoop人物简介:在被任命为Hortonworks CEO之前,Eric Baldeschwieler在雅虎负责Apache Hadoop项目,将其从20个节点的原型系统发展为42000个节点的服务。Eric Baldeschwieler曾经是Inktomi公司Web服务引擎的技术领导者,该公司在2003年被雅虎收购。在采访中,Eric Baldeschwieler表示,未来五年内全世界一半的数据将采用Hadoop,以下是对Eric Baldeschwieler进行访谈的内容。

  问:多年以来,雅虎花费重金投资Apache Hadoop项目,现在将其剥离出来成立独立公司Hortonworks。您如何看待这个决定?

  大约五、六年以前Apache Hadoop只是一个包含20个节点的原型系统。从那时起雅虎开始致力于Apache Hadoop项目,组建了团队并在过去的时间里一直专注于Apache Hadoop项目的推动工作。雅虎构建了所有的发行版本,已经成为了Hadoop所有发行版本的主要的贡献者。作为一个团队,我们已经习惯于支持一个更为广泛的社区。当然,不同之处在于现在我们明确地将雅虎作为一个客户并为其提供支持。关键在于Hortonworks是一家独立的公司,而雅虎是Hortonworks的投资人,顾客以及开发合作伙伴。在雅虎仍将有大量人员继续为Hadoop做出贡献并在Hadoop之上构建应用。目前在雅虎有超过1000人的Hadoop活跃用户。

  问:雅虎现在是你们的用户了,你们为客户提供哪些服务呢?

  目前我们为雅虎提供3级支持,包括开发者培训,一般的问题甚至是解决Hadoop新开发者遇到的bug。同时我们将提供升级支持,而且如果他们发现了不能解决的有趣问题,我们将提供帮助。

  问:这么说来,客户只要关注自己的项目,你们所做的工作将能够抵消客户开发Hadoop的成本?

  没错,就是这样。选择以开源形式开发大数据平台的主要原因是我们相信随着时间的推移一个生态系统将由此发展起来—而雅虎将因广泛使用该平台的社区而受益。这是雅虎战略的成功之处。现在形势一片大好,新闻媒体对Hadoop很感兴趣,数以千计的公司或部门已经广泛采用了Hadoop。因此,现在是成立一家独立的公司承担特定的角色,继续推动Hadoop技术继续前进并围绕Hadoop实现新特性、新技术角色的时机了。

  问:你没推出企业版或者说付费软件的计划,那么Hortonworks的商业模式是怎样的呢?

  首先,Hadoop已经提交给Apache基金会而且是开源的,我们认为应该有一个能够从Apache下载的完整版本。我们短期的业务模式是培训与支持,并作为雅虎的战略伙伴。雅虎具有浓厚的兴趣看到Hadoop以某种方式持续演变,他们愿意支付费用让我们进行设计与开发。

  问:从风险投资的角度来看,这个模式可行吗?

  Hortonworks的两大投资人是雅虎和Benchmark Capital。Rob Bearden是Benchmark Capital的投资合伙人,他加入了Hortonworks任COO和公司总裁,因此他肯定相信这是企业软件的下一个巨大的机会。当我们说到我们相信在五年之内世界上一半的数据将采用Hadoop时,我们是抱着很严肃的态度的。我们认为这代表着我们具有巨大的机会。未来将是个庞大的生态系统而且我们认为我们的投入意义重大。培训与技术支持将成长为一个重大的健康产业,短期内我们将关注于培训与技术支持。因为我们合并了相关开源产品的生态系统并没有经历如Unix那样的分裂,这非常关键。

  问:在一段时间之后这个模型将会改变吗?

  当然,但是在一段时间之后,事情并不会改变因为我们相信Hadoop以及与之相关的项目应该是一个完整的、可部署并解决业务问题的水平分层。短期内我们仅关注企业更加容易安装并使用Hadoop,第三方更加容易构建业务(包括软件业务,OEM业务以及围绕Hadoop的集成业务),增加Hadoop的市场份额。我们认为,凭借丰富的技术经验,我们能够帮助跨越目前存在的障碍,而且在保持核心免费的同时我们所做的存在巨大的机会。我们做出承诺并不意味着今后我们不会在Hadoop之上构建产品或者做其他事以获取收益。机会总是巨大的,我们具有充足的资金,能够对Hadoop进行验证,这就是我们的使命所在。

  问:目前有一些有资金支持的Hadoop的项目,比如DataMirror, Cloudera以及MapR。有些人使用Apache,有些人并不使用Apache。Hortonworks在其中发挥什么作用呢?

  这很难简单地说清楚,但是我们相信开源的伟大之处在于你的合作伙伴非常广泛。任何使用Apache Hadoop的公司将产品改进提交给Apache Hadoop,我们致力于与这些人合作。我们的工作就是让Apache Hadoop成长得更加强大。

  问:如果Apache是Hadoop最大的发行版,Apache Hadoop获得成功重要吗?Hadoop应该存在多种发行版吗?

  任何健康的生态系统都存在变体,我们只想确保所有人都知道他们能够到Apache网站下载一个不错的Hadoop版本。现在人们仍在存在某些困惑,目前只有真正的专家才能安装并使用Hadoop,因此你想让Hadoop的安装、使用更容易。

  问:你决定如何为业务配备员工?

  我们大概有25名核心员工是提交者和架构师,他们构建了Hadoop,pig,Zookeeper以及其他一些关键的Apache Hadoop项目。我们总有80名员工具有多年构建Hadoop的经验对外提供服务,这是我们强大的优势所在。首先我们招聘设计与构建Hadoop的员工。因为我们有专家,我们能够发挥纯开源的作用,由于我们的专业知识,与我们合作的所有人都将受益。

  问:你如何看待运行一个独立的业务的前景?

  得知我将全心投入到Hadoop,扩充市场并构建技术尽其所用,我异常兴奋。我们需要投资去建立协作关系。我们具有丰富的领域知识以及经验领先的社区,与雅虎良好的伙伴关系允许我们访问硬件以及数以千计的用户,而且能够获取大量的Hadoop用例。我们完全致力于Apache而且是开源的,我们的战略是基于培训,技术支持以及与第三方建立伙伴关系。因为我们是完全开放的并不做专业的服务,我们的关键之处是与众多不同的团体建立合作,这才是我们将要做的。


原文发布时间为:2011-9-09

本文作者:唐蓉

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。

相关文章
|
4月前
|
存储 分布式计算 Hadoop
Hadoop:驭服数据洪流的利器
在当今信息大爆炸的时代,海量数据成为企业决策的重要依据。本文将介绍大规模数据处理框架Hadoop的概念与实践,探讨其在解决大数据应用中的重要性和优势。从分布式计算、高可靠性、扩展性等方面深入剖析Hadoop的工作原理,并结合实例说明如何利用Hadoop来处理海量数据,为读者提供了解和运用Hadoop的基础知识。
|
6月前
|
存储 分布式计算 Hadoop
Hadoop怎么处理数据
Hadoop怎么处理数据
104 0
|
14天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
16天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
4月前
|
分布式计算 关系型数据库 Hadoop
使用Sqoop将数据从Hadoop导出到关系型数据库
使用Sqoop将数据从Hadoop导出到关系型数据库
|
9月前
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
|
5月前
|
存储 Linux
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
111 1
|
5月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
55 0
|
9月前
|
数据采集 缓存 分布式计算
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
|
10月前
|
数据采集 分布式计算 监控
Hadoop生态系统中的数据质量与数据治理:Apache Atlas和Apache Falcon的作用
Hadoop生态系统中的数据质量与数据治理:Apache Atlas和Apache Falcon的作用

相关实验场景

更多