不仅是开源,也是标准!访Cloudera Doug Cutting和凌琦

简介:

借英特尔& Cloudera数据分析媒体沟通会的机会,笔者对Cloudera这家在中国成立仅有18个月的公司进行了采访,Cloudera公司首席架构师,Hadoop之父Doug Cutting先生和Cloudera 大中华区总经理,公司副总裁凌琦先生接受了笔者的采访。

一、70%以上市场采用率

谈到这18个月以来Cloudera在中国的发展情况,凌琦先生表示,Cloudera中国公司于 2014年12月10日在上海成立,成立后的第三天就到北京参与了国内大数据大会,Cloudera公司首席架构师Doug Cutting在会上做了主题演讲,从那时开始到今天已经走过了18个月。在这18个月的时间里, Cloudera在中国目取得了非常好的进展,目前在北京、上海、广州已经建立了服务机构,另外由于业务发展的非常快,因此在北京的业务还将扩展。从机构的性质来说,除了和英特尔之间研发和项目合作之外, Cloudera在商业方面形成了比较完整的售前、营销、和专业服务体系,并且成立了负责整个亚太区的客户支持中心,客户支持中心已经在上海建立。

Cloudera公司首席架构师,Hadoop之父Doug Cutting先生

他表示,到目前为止,Cloudera的业务已经涵盖电信、金融、制造行业,另外基础设施相关、零售相关的业务也已经全面开展。我们非常高兴在国内主要的大企业都开始广泛采用基于Apache Hadoop的Cloudera商业发行版,并且免费版本的发行和采用率上在国内我们至少占有70%以上的市场采用率。当然,商业版本的用户主要是大型企业,在电信、金融、制造以及零售方面。

除了服务项目之外,Cloudera还与各大高校联手推出了培训的业务。谈到这块业务时,凌琦先生表示,Cloudera的大数据人才培训业务目前已经与5家主要的培训合作伙伴在国内签约,开始在各个地方做大规模的人才培训。Cloudera培训的13门课程,全部在中国开放。未来,Cloudera还将与清华大学等各大院校进行合作,进行人才培养。

二、以极低的价格对所有文件进行加密与解密

谈到与英特尔的合作,Doug Cutting先生表示,Cloudera和英特尔已经合作两年了,我们与英特尔的合作基于一个目的,那就是让大家的软件可以在英特尔的硬件上跑的更好。另外,Cloudera和英特尔也在共同寻求合作伙伴,以保证越来越多的大数据应用在数据中心部署,更好地发挥英特尔硬件的一些功能。

他表示,两年以来双方的合作非常成功,在许多领域双方的工程师共同合作,保证了Cloudera的软件能够非常好的运行在英特尔的硬件平台上。在一些领域,我们进行了进一步的优化,以便能够完全和英特尔的技术进行结合,例如现在可以以非常低的价格进行解密,这样可以让所有的文件都有加密,并且不会在解密和加密过程中影响到使用和运营效率,这样即保证了安全,又不影响整体的运行效率,是非常安全可靠的解决方案。另外,在编码方面通过Cloudera和英特尔的合作可以获得更多的数据集合性,让我们在英特尔硬件所有的功能进一步通过上面跑的软件做得更好。

此外,在堆栈的基础上,Impala到HDFS都是我们合作的领域,要保证他们在英特尔的硬件上实现最好的运行,这就要求大家使用同一个软件。当然,无论对Cloudera的客户或者英特尔的客户而言,他们都是非常满意的。同时,我们也在Spark和Impala上进行合作。

Cloudera 大中华区总经理,公司副总裁凌琦先生

凌琦先生则表示,我在英特尔工作了20年,英特尔本身在高校的合作其实是非常多、非常广泛的,我曾经经历过的包括在软件学院的合作、半导体学院的合作、863计划的合作等。Cloudera以创业公司的身份进入中国,在工作中我借鉴了很多以前在英特尔工作的经验,这在我们与英特尔的合作特别是在一些企业研究机构当中的合作起到了很好的作用。Cloudera和英特尔有很多共同的研究项目,比如与清华的合作,英特尔与清华有长期的合作,Cloudera作为一个新公司这一次在清华也有很广泛的合作。

三、不管名字是不是Hadoop,只看技术的发展

对于Hadoop技术发展,Doug Cutting表达了自己的观点,他表示,长期的Hadoop的成就是改变企业使用开源堆栈的行为,相信越来越多的Hadoop技术模块会为更新的技术所有替代,现在我们看到的是一个快速发展中的生态系统。Cloudera致力于推动支持整个生态系统,不管它的名字是不是Hadoop,我们会看这个技术的发展。

关于Hadoop的未来,Doug Cutting表示,其实我们发现了很多新技术,比如说Spark已经成为一个非常好的技术,给人们带来了很多价值。最近,我还看到了Kudu,这也是我们觉得很兴奋的技术,它也是把关系型模型实现快速的更新,这是一种分布式的技术,也是开源堆栈的一部分。其实开源领域有很多新的发展,但是到底大数据下一步是什么,主流的新技术是什么,由于这个系统还在演进中,现在很多人在做试验,在做新的开源项目,有些大家觉得有用,那么它们就会变成标准化的平台,像Cloudera和英特尔这样的厂商就可以用它。Spark不是我们这两家公司发明的,而是在伯克利大学诞生的,当然很多人做出更新更好的平台我们都会拥抱和接受。真正技术的未来就是这种演进,由整个用户社区启发的技术。

四、不仅仅是开源,也是标准

谈到国内Hadoop生态环境和生态成长,凌琦先生表示,Hadoop这个名字和这个项目是Apache软件基金会的项目,即使是Cloudera也叫Cloudera Distribution of Apache Hadoop,是Cloudera Apache Hadoop的发行版。除了Cloudera之外,市场上有很多厂商也在发行一个版本。作为开源的产品,大家对它的源代码都可以拿到,发行并非非常难。但关键在于两个,第一,你在Apache软件项目里面有多少贡献?你对代码有多少贡献?有多少创新,这是非常关键的。原创和拿过来发行还是有很大区别的。这个区别在于第一你的贡献率,第二你对未来前瞻性技术的看法。任何对于现在版本的更新或者补丁,未来能不能进入主流是另一个问题。

第二,关于开源和闭源以及开源和标准问题,Cloudera是非常在意而且对开源有非常强的承诺,这就是为什么现在看到市场上绝大多数开源版本,免费下载的版本,保守说70%甚至更多的比例是CDH的版本。在过去18个月工作中,我们访问了很多客户,我们在访问新客户时通常会问你是否用过Hadoop,如果用过会问用过什么版本。通常两个答案,要么是CDH版本,要么就是不知道什么版本。除了高校和学术单位有Apache原生版本,绝大多数都是CDH版本,也就是Cloudera的免费下载版本。这代表了市场上对我们的认可。你可以发行你的版本,但是是否有在上面有创新是非常重要的。

还有一些厂商为了区隔已有的开源版本,它改了一些东西,之后不再开源。这个是完全违反了开源的精神。Cloudera希望开源是大家都能够贡献你的聪明才智,把新的东西能够在整个开源社区中贡献出来。如果拿了开源社区的东西,做了改进又不开源。这就违背了开源的精神,未来是没有办法进入到主流升级的,会对不开源的用户带来很大影响,对于以后的改进、以后的补丁都会造成不兼容。所以我们建议开源,同时参与到开源社区的工作当中。

最后,涉及到开源和标准的问题,Cloudera所有主要模块都是开源的,同时也保证这些工具会有超过一个以上的厂商去提供支持和开发。有些产品的开源说只有他一家能做,即使他开源了,也没有第二家,一旦客户用了它就绑定了。但是,Cloudera保证现在做的每个模块都是得到了业界认可,同时有很多的厂商帮助一起开发,帮助一起支持的。所以能够成为一个标准,标准就意味着多家厂商同时对这个模块进行支持,所以不仅仅是开源,也是标准。


本文作者:ZC

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 资源调度
膜拜!华为内部都在强推的783页大数据处理系统:Hadoop源代码pdf
大数据处理系统:Hadoop源代码情景分析,采用的是Hadoop2.6。如果你有点野心,想对大数据处理系统有比较深入透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本文,以及 Hadoop的源代码,看看人家是怎么设计怎么实现的。
|
自然语言处理 Dubbo 搜索推荐
又一国产开源项目走向世界,百度RPC框架Apache bRPC正式成为ASF顶级项目
Apache bRPC的前身是百度内部的一个RPC框架,采用C++语言编写,号称工业级别,在百度内部众多基础和业务系统中得到大规模的应用,是属于实战出来的,有很好的落地效果和"底子"。
357 0
|
分布式计算 Apache 调度
谈谈Apache Mesos和Mesosphere DCOS:历史、架构、发展和应用
本文讲的是谈谈Apache Mesos和Mesosphere DCOS:历史、架构、发展和应用,【编者的话】Mesos 是一个很年轻的开源项目,它的理念是怎样的? 它的整体架构以及服务对象又是什么? 基于此的 Mesosphere DCOS 又是如何定位的? 本文作者就这些话题展开了探讨。
2045 0