Hadoop创始人Doug Cutting谈未来大数据的技术

简介:

0?wx_fmt=jpeg
图为Hadoop创始人Doug Cutting


Cloudera首席架构师就内存及云计算相关技术发表讨论,Hadoop将如何在大数据方面发挥更大价值。


在Doug Cutting十年前创建Hadoop架构的时候,他从未想过这会为企业界带来如此超大规模的计算。“毫无疑问,我当初预想的情况比我们现在所看到的要稍微保守一些。“他在近期伦敦的Strata+Hadoop World大会上说。


在今天,Hadoop被很多家喻户晓的名字使用,它帮助Facebook分析其每月超过16亿的用户流量,帮助VISA发现了数十亿美元的金融欺诈。


Hadoop的吸引力在于,它使大数据处理更便宜,从某些方面来说,更加简单。这个平台提供了一系列技术,允许大型数据集分布在商业服务器的大型集群中,对数据进行并行处理。


然而该平台还有一定的局限性。如今,Hadoop集群能处理大型数据集的速度受到二级存储(SSD或更慢的旋转磁盘)与计算机内存及CPU之间的数据传递率的限制。这种输入/输出(I/O)瓶颈的发生,是因为处理器速度和效率的增长要快于存储读写速度。


 
 

 ◆ 

内存中的PB数据

但是现在的存储技术将经历一次重大变革,对此Doug Cutting表示这将有利于释放大数据处理的潜力。


今年,Intel计划发布其3D XPoint存储芯片,可以比通常用于SSD中的NAND闪存快1000倍的速度来检索数据,同时也能以超过现今常用的内存类型DRAM 十倍的密度存储数据。


Xpoint将在一开始以Optane品牌SSD的形式提供存储,而Intel也计划推出XPoint内存模块以便跟进。由于Xpoint以比传统DRAM有更高的密度来存储数据,这些模块将会使服务器具备远远大于现今标准的内存空间。Intel将在明年推出Intel Xeon服务器,含6TB内存,由DDR4 DRAM和Xpoint结合组成。也就是说,Xpoint在性能上并不会与DDR4 DRAM相匹配。预发行的Xpoint SSD有七微秒延迟以及78,000读/写IOPS,要慢于DRAM,并且据估计比高性能SSD快不到20倍。


Doug Cutting预测,尽管如此,Xpoint的使用以及Hadoop集群的其他非挥发性内存将会使Hadoop平台面向更多新的用例,允许用户在内存中处理更大的数据集,这样也可以分流从磁盘获取数据的过程中的延迟。


“如果内存中有1PB的数据,并且可以从循环中的任一节点访问这些数据,如果是用于各种算法的,这就会是跨越几个级别的性能提升。”Doug Cutting如此说道,他目前是Cloudera的首席架构师,Cloudera提供自有版本的Hadoop,即非常流行的CDH。


“图像运算等等各种五花八门的迭代机器学习算法、集群等这些在传统上意义上花费了很长时间、非常昂贵的事物,现在都能基于大量的数据快速实现。


“过大的数据集以及太慢的计算依然存在,但我认为现在已经有了很大的改变。“Doug Cutting补充说道,远程直接管理访问及千兆以太网交换也能减少与网络流量有关的延迟。


2014年,Intel对Cloudera进行了大约7.4亿美元的投资。作为双方合作的一部分,Intel会告知Cloudera其在研发安排中新的特性和硬件,确保Cloudera的Hadoop版本能够充分利用这些新技术。


“对于在内存中访问数据架构方面,我们非常努力的令CPU使用达到最小。”Doug Cutting说道,并指出Cloudera尽量防止不必要的操作,这些操作会引起CPU成为内存数据处理的瓶颈。


 
 

 ◆ 

Hadoop和云计算

Doug Cutting也希望简化Hadoop集群在云计算中的部署,让更广泛的人群能够使用Hadoop。在各种云平台上构建Hadoop集群已经成为可能。举例来说,运行CDH(Cloudera的Hadoop发行版),就可以使用Cloudera Director来部署AWS和Google云平台上的虚拟服务器集群。


然而,Doug Cutting也说到,如何使处理进程变的更为简单,仍然有很多限制需要解决,而Cloudera也在计划改进从AWS S3及其他云存储向Hadoop数据处理引擎中输入数据的支持。


“我们需要对Hadoop做一些调整,使其能够更好地适应云计算。我们需要重视像亚马逊S3这样的存储,配合HDFS(Hadoop分布式文件系统)来进行输入输出,这样人们就可以动态地部署集群。”他说。


在云计算环境中,集群更有可能被启动和关闭,Cloudera还要改进缩短启动时间。


另一个需要解决的问题,在于简化Hadoop在不同云平台之间的迁移,Doug Cutting对现阶段的云平台锁定表示失望。

“我们应该让人们在云供应商之间能够实现转移,这在我们看来是非常有价值的。现在,如果你开始是在某云平台上开发的应用,那么很快就被锁定在这个云平台上了。”


Doug Cutting表示,在CDH上,Cloudera正在构建“一个软件层,可以决定工作负载是运行在本地,还是放到亚马逊、谷歌、微软或其他云供应商上”。


今天,这一功能在某种程度上来说可通过Cloudera Director实现,他说,“这正是我们要继续推进并使其更加无缝”。


Doug Cutting相信,最终,Hadoop的传承将会扮演重要角色,让大数据成为常态、让开源成为软件的标准选择,让关系型数据库逐渐成为小众市场。


“我们将不会再讨论大数据,而是探讨数据系统。开源架构将不再是新鲜事物,它将成为主流。关系型系统将基本等同于Cobol语言,而成为历史。我们在十年原文发布时间为:2016-06-26

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号的时间中向前迈出了一大步。“


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
30 2
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
9天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
40 1
|
16天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
21天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
26天前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1