大数据应用还处于早期——专访Hadoop之父Doug Cutting-阿里云开发者社区

大数据应用还处于早期——专访Hadoop之父Doug Cutting

2017-09-01 1532

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

谈到大数据，对技术有点了解的人很容易想到Hadoop。的确，尽管Hadoop只是一个对数据进行存储和分析处理的平台，但仍有不少人把Hadoop和大数据对等起来。实际上，Hadoop的确在很大程度上扮演着大数据代言人的角色，它应用的广度和深度也基本反映了大数据市场的繁荣程度。

从有Hadoop之父之称的Doug Cutting推出Hadoop算起，这个分布式大规模数据处理平台面市已经超过10年历史。这些年来，Hadoop自身在不断进步，市场上也诞生了一批像Cloudera、MapR、Hortonworks这样专门提供Hadoop相关服务的厂商，对大数据市场的繁荣起到了重要作用。不过，在日前接受至顶网记者采访时，Doug Cutting表示，无论是Hadoop的使用还是大数据的应用目前仍处于早期，这个市场还大有潜力。

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

今天的Hadoop可谓大名鼎鼎，但和众多开源软件开发人员一样，Doug Cutting开发Hadoop的目的非常简单，只是为了完成当时的一个项目。今天的“火”是Hadoop的创始人、Cloudera首席架构师Doug Cutting当初未曾预料到的。

“当时，我正在做一个名为Nutch的项目。希望采用开源的方式去创建出一种网络搜索的引擎，要求具有可扩展性、可收缩性的数据存储和处理能力。由于之前，我们看到了来自于Google的几篇论文，其中的想法和我的想法是完全一致的，所以我就把Google论文中的想法放到了Nutch项目当中来实施了，这就是今天的Hadoop。”Doug Cutting在接受记者采访时表示。

Doug Cutting说，他根本没有想到Hadoop今天会有如此之广的用途，当初想到的也仅仅就是用于搜索引擎和网站的创建上，看到Hadoop有今天如此广泛应用，他感觉到非常惊喜。

当然，其中最让Doug Cutting兴奋的还是Hadoop的生态。严格说来，今天的Hadoop已经不是一个开源项目，而是一个围绕着Hadoop形成的一组项目以及基于各个项目之上的大生态系统。比如，Hadoop项目就从最初的HDFS、HBase、MapReduce等不多的项目扩展到包括Spark在内的众多开源项目的集合，展示出强大的包容能力。而在生态上，围绕Hadoop已经形成了由Cloudera等Hadoop服务商、各种相关工具提供商、IaaS云平台供应商等众多合作伙伴组成的大生态。

毫无疑问，繁荣的Hadoop生态也正是Hadoop能走进今天的并且继续发展的主要原因。以Spark为例，曾经不少人认为Spark可能替换Hadoop，而实际上我们看到Hadoop的大生态让Spark很快融入起来，相互成为补充而不是对手。除了Spark之外，还有一些开源软件也与Hadoop社区有互动。比如kudu和Kafka。前者是一个非常强大的存储引擎，它既具备了类似Hbase的随机访问能力，同时又有HDFS快速查询能力；而Kafka有很强的实时应用支持能力和流处理能力。目前，Cloudera已经把这两个技术集成到Hadoop平台当中了。

Doug Cutting特别强调，在开源世界竞争的逻辑是不一样的，开源软件之间不是完全的竞争关系。因为没有哪个公司完全拥有开源技术，每当开源技术有了新的进展，开源群体的每一分子都会受益于其中。

“如果在有一些领域出现了新的技术，在某些方面会优于Hadoop，那Cloudera也会毫无犹豫地去接纳这样的技术，把它放到我们的解决方案当中去交付给客户。”他说。

云和AI对Hadoop是利好

AI是当今市场的一个热门话题，其今天的热度甚至超过了大数据。对此，Doug Cutting认为，AI对Hadoop是非常有利的，AI市场的繁荣也有利于Hadoop的普及。

“我觉得Hadoop和AI之间是非常适合、非常匹配的。因为AI本身就是一种大数据的应用。特别是在对于AI系统进行训练的时候，使用的数据越多，AI系统就越可能成功。”Doug Cutting介绍说，Google不久前发表了一篇关于应用AI进行图象识别的论文，最终结论也是对数十亿级的图片的人工智能系统还是进行训练使用的数据量越大，人工智能系统的质量就越高。

当然，Doug Cutting认为，推动Hadoop普及的不仅是AI，包括IoT、云等都对Hadoop的未来发展具有非常重要的作用，特别是云计算，将很大程度上影响Hadoop的交付。

目前，受限于网络条件和数据保密、合规等方面的原因，私有的、基于物理机的Hadoop模式依然是主流，云模式还是小众。比如，Cloudera的客户中云交付的不超过15%，但是Doug Cutting认为，这个数据肯定还会增长，预计会到40%-60%。

“本地安装运行Hadoop的形式来使用，往往要建一个很大的集群来支持各种不同的应用，并且拥有一个统一的数据拷贝，数据集中可控，但成本高；而云模式使得客户在使用Hadoop的方式上具有了更大的灵活性和可伸缩性，而且云供应商已经帮助他们管理了数据的拷贝。”Doug Cutting说。

Doug Cutting表示，从整个IT长远的发展趋势来看，IT的控制正在从在企业的某个部门扩散到各个不同的部门，因为非IT部门具有越来越大的能力，在IT方面进行自我管理、自我服务，也有越来越多的工具能够帮助他们做到这一点。而云计算是促进和推动了这一趋势的发展，也推动了数据的分散化、自助化。这是一个大趋势，也是云模式Hadoop增长的原因。

针对目前大数据应用的现状，这个Hadoop的创始人认为，大数据应用的普及是一个长期的过程，让每一家公司、每一个组织机构都能够用正确的方式来用好数据，这需要花很长的时间。因为这其中，需要组织结构本身发生很大的变化，还需要很多的教育工作和人才的培养工作，好在这一切都是在稳步推进当中。

原文发布时间为：2017年7月25日

本文作者：邹大斌

本文来自云栖社区合作伙伴至顶网，了解相关信息可以关注至顶网。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据应用还处于早期——专访Hadoop之父Doug Cutting

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

云和AI对Hadoop是利好

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据应用还处于早期——专访Hadoop之父Doug Cutting

Hadoop的创始人、Cloudera首席架构师Doug Cutting

没有想到Hadoop会这么火

云和AI对Hadoop是利好

热门文章

最新文章

相关课程

相关电子书

相关实验场景