Hadoop掀起大数据革命 三巨头齐发力

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本文讲的是 Hadoop掀起大数据革命 三巨头齐发力, 开源的数据处理平台凭借其低成本、高扩展性和灵活性的优势已经赢得了多数网络巨头的认可。现在Hadoop将进入更多企业。IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。上个月Oracle和Microsoft也分别透露了将计划在明年发布基于Hadoop的产品。两家公司都计划提供协助部署服务和企业级支持。Oracle已经承诺将会在大数据设备中预装Hadoop软件。

  大数据革命正以Apache Hadoop为中心如火如荼的进行着。自从开源分布式数据处理平台在5年前发布时讨论之声就不绝于耳。但在过去的18个月中,Hadoop赢得了客户的认可,并得到众多商业化的支持以及众多数据库和数据集成软件商的整合。在众多厂商之中最著名的三个商业数据供应商当属Oracle、IBM和Microsoft。

  Hadoop会在未来成为大数据的重大技术吗?

  Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。Hadoop在很大程度上是受Google在2004年白皮书中阐述的MapReduce的技术启发。MapReduce工作原理是将任务分解为成百上千块的小任务,然后发送到计算机集群中。每台计算机再传送会自己那部分信息,MapReduce则迅速整合这些反馈并形成答案。

  Hadoop的扩展性非常优秀,Hadoop可处理分布在数以千计的低成本X86服务器计算节点中的大型数据。同时由于众所周知的摩尔定律,内存和磁盘的容量也在不断增长。Hadoop对硬件的支持也在加强,现在每个节点可部署16核的处理器,12TB甚至24TB磁盘。Cloudera透露其推出的产品每个节点的成本大约4000美元。这个价格对于关系数据库部署每TB 10000至12000美元来说极具竞争优势。

  这种高容量低成本的组合引人注目,但Hadoop最吸引人的是其处理混合数据类型的能力。

  Hadoop可以管理结构化数据,以及诸如服务器日志文件和Web点击流的数据。同时还可以管理以非结构化文本为中心的数据,如Facebook和Twitter。这种处理多类型数据的能力非常重要。它催生了NoSQL平台和产品。如Cassandra, CouchDB, MongoDB以及Oracle最新的NoSQL数据库。而传统关系型数据库如Oracle,IBM DB2,Microsoft SQL Server和MySQL则都不能处理混合数据类型和非结构化数据。 由于事务处理灵活性的需求,Hadoop获得大多数数据分析厂商的关注和支持。

  Hadoop已被广泛应用

  现今,Hadoop已被认为是非结构化数据的专用技术。低成本、高扩展性和灵活性等优势已成为处理大规模点击流量分析和广告定位等网络巨头(如AOL和comScore)的首选。

  AOL三年多时间一直使用Hadoop。AOL的研发团队在加利福尼亚州的Mountain View部署了300节点的系统,该系统可以存储每天数十亿事件和超过500TB的点击流数据。点击所带来流数据是高度结构化的,但数据量是非常庞大和多样的。所以几乎不可能处理所有的提取、转换和负载工作。AOL为了解决以上问题决定使用Hadoop MapReduce处理分布在数百个计算节点的数据过滤和关联任务。由于Hadoop为业务带来的优势,AOL的Hadoop研发团队在今年四月在其总部部署了700节点的系统。

  Hadoop适用于所有类型数据的特性注定将使Hadoop在更广泛的领域使用。例如提供托管服务和中小型企业应用服务提供商SunGrad。他们将计划推出基于云的托管服务,旨在帮助金融服务公司处理他们基于Hadoop MapReduce的数据处理。

  商用软件厂商Tidemark最近也推出一款SaaS软件,这种基于云的性能管理应用使用MapReduce将混合数据源转化为产品或金融规划方案。

  三巨头大数据领域齐发力

  在上月美国拉斯维加斯举行IOD年度大会上IBM院士、DB2总架构师Curt Cotner宣布IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。他还表示未来的数据库发展方向是非关系数据库NoSQL。目前Google的BigTable和Amazon的Dynamo都用NoSQL型数据库,而传统的关系数据库在应付超大规模、高并发的SNS、web2.0网站已经力不从心。同时IBM发布了一系列数据分析软件,包括云计算版本的InfoSphere BigInsights。BigInsights是一套建立在Hadoop上的数据分析软件,能够处理企业用户收集大量非结构化资料。

  微软也在10月12日在西雅图举行的SQL PASS 2011峰会宣布将与从雅虎分拆出来的Hortonworks合作开发Hadoop,并将在Apache Hadoop上实现搭建Windows Azure以及Windows Server平台。同时基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。

  Oracle作为全球最大的关系型数据库提供商也有所行动。其在2011 Oracle全球大会上推出了Big Data Appliance。Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。

  Hadoop的未来

  根据目前的状况来看,Hadoop作为企业级数据仓库体系结构核心技术,在未来的数年中将会保持持续增长的势头。包括MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop相关的新公司已经获得投资,为人们所熟知,为各种市场带来最新技术。

  与此同时下一代的MapReduce会完善很多之前不尽人如意的地方。首先节点数将从目前的4000增加到6000-10000,其次并发的任务数从目前的40000增加到100000。另外将继续加大对硬件支持,同时架构也会有所改变,包括更多编程模式的支持。


作者:王玉圆

来源: IT168

原文标题:Hadoop掀起大数据革命 三巨头齐发力

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
6月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
279 79
|
5月前
|
机器学习/深度学习 资源调度 供应链
大数据如何让供应链更丝滑?一场数据驱动的效率革命
大数据如何让供应链更丝滑?一场数据驱动的效率革命
96 11
|
11月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
428 6
|
9月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
393 4
|
10月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
439 2
|
10月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
389 1
|
11月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
314 1
|
11月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
443 0
|
机器学习/深度学习 分布式计算 大数据
|
11月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
218 2

热门文章

最新文章