大数据来袭 传统IT厂商紧握Hadoop机遇

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。

  在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为60分钟,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。

  社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每48小时产生的数据量相当于人类文明到2003年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。

  除此之外,传统企业同样面临大数据的挑战。据Gartner预测,企业数据将在五年内增加800%,其中80%是非结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop逐渐成为全球IT产业的宠儿。

  Hadoop是一个100%的分布式文件系统,被称为继Linux以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。

  传统数据库的Hadoop梦想

  与Hadoop不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据IDC统计,2011年全球数据总量已经达到了1.8ZB,2020年将达到35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词——Hadoop。

  Hadoop分布式系统基础架构,主要由HDFS、MapReduce和HBase组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而Hadoop擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。Hadoop对数据库厂商而言,既是威胁,也是机遇,如果能够让Hadoop为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持Hadoop的数据库进行盘点,并对其大数据策略简要分析。

  ·Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的Oracle数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和RDBMS平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到Hadoop在大数据处理方面的潜力,推出以Hadoop为基础的大数据机(Big Data Application),其中包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器以及开源R,并与Cloudera公司合作提供Apache Hadoop系列软件。

  ·IBM DB2:IBM是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM中国研究院院士、首席技术官王云曾在2012中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于OLTP功能,能够保证数据准确记录;而大数据是新的应用,是OLAP的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括Hadoop和Stream Computing两个组件,通过新的路径解决大数据分析处理。

  ·SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软SQL Server 2012引入Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在Windows Azure平台和Windows Server上提供 Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与Hadoop是一个强强组合,能够把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。

  ·SAP:SAP公司是全球知名的企业管理软件供应商,自2010年SAP收购Sybase以来,开始成为数据库界一颗冉冉升起的新星。SAP将数据库技术作为2012年重点发展领域之一,形成了以SAP HANA为核心,以SAP Sybase数据库为基础的大数据战略。在这一战略中,特别重要的一环就是Hadoop。通过SAP HANA和SAP Sybase IQ与Hadoop的集成,增强对Hadoop等大数据源的获取能力,并提供深度集成的预处理基础架构。

  ·EMC Greenplum:EMC是全球知名信息存储服务提供商,与SAP相似,在2010年收购了Greenplum,开始发展其数据库市场。目前Greenplum的数据库产品包括传统的Greenplum Database和Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入Greenplum中进行存储和分析。EMC在中国的市场战略,以“大数据推动业务转型”为核心,EMC数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC之所以会推出Greenplum Hadoop版本,是对Hadoop的未来发展前景充满信心。

  除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入Hadoop阵营,这其中还包括Teradata、Informatica、Pentaho、Talend等数据库、数据仓库及商业智能服务提供商。此外,Hadoop还是NoSQL数据库的主要架构之一。


  Hadoop从应用到系统架构

  从应用层面来看,不管是数据库还是商业智能厂商对Hadoop都相当重视。与此同时,传统硬件厂商也将Hadoop作为大数据战略至关重要的一环。近期,全球知名的半导体芯片制造商英特尔公司推出优化后的Hadoop发行版,希望通过英特尔的市场先机和技术优势,将Hadoop推广至全球市场,以应对大数据的挑战。

  英特尔的专长是做硬件,SAP、甲骨文等主流应用厂商的大数据产品都采用英特尔的至强处理器。但英特尔在软件行业也颇有建树,英特尔每年都有大量的开源技术专家参与开发开源项目,仅中国的上海研究院,做开源研究的就有200多人。比较知名的开源项目包括TIZEN项目和Yocto项目,其中TIZEN项目是以MeeGo为基础的开源项目;Yocto项目,以Linux为基础,但它不是Linux的分销,而是提供一个自定义项目。

  在这些开源项目中,英特尔的Hadoop发行版也是其中的代表。这是一套完整的解决方案,针对不同行业客户进行系统整合,根据不同用户的需求实现个性化解决方案。Hadoop China发起人查礼博士曾表示,开源Hadoop技术难度大,需要专业技术人员提供支持,且技术门槛高,一般企业没有技术实力使用开源版的Hadoop。

  英特尔Hadoop发行版的出现,从硬件和软件层面分别对Hadoop进行优化,为企业大数据处理提高了稳定性和易用性。中国联通研究院就针对互联网用户的上网记录查询系统部署了英特尔Hadoop发行版, 黄文良院长表示,该查询系统设计之初也曾尝试使用Hadoop的开源版本,但与英特尔Hadoop发行版的性能相比,认为无论在监控能力还是稳定性上都有很大区别。

Hadoop从应用到系统架构

  此外,英特尔在CPU、存储、内存等技术上不断创新,为Hadoop的发展提供硬件支持。英特尔基于Hadoop开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop的处理能力达到“接近于实时”的处理效果。并通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。

  英特尔这种软硬结合的策略能够比较彻底的解决大数据难题。英特尔作为硬件行业的领袖,已经率先发力大数据,相信未来会有更多的硬件厂商拥抱Hadoop,布局大数据市场。

  小结

  不管是从应用层面还是系统架构层面均可以看出,Hadoop对大数据的影响巨大。就像IDC预测的那样,在未来两三年当中,Hadoop会有一个很明显的商业化的过程,Hadoop商业化的打包产品会不断地向市场推出。Hadoop将同Linux一样,迎来发展的高潮期。对于传统IT厂商而言,这是利用Hadoop,真正实现大数据的商业价值的一个机遇。

作者: 王玉圆 

来源: IT168

原文标题:大数据来袭 传统IT厂商紧握Hadoop机遇

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 分布式计算 Hadoop
|
27天前
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
86 0
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
1月前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
1月前
|
资源调度 分布式计算 Hadoop
揭秘Hadoop Yarn背后的秘密!它是如何化身‘资源大师’,让大数据处理秒变高效大戏的?
【8月更文挑战第24天】在大数据领域,Hadoop Yarn(另一种资源协调者)作为Hadoop生态的核心组件,扮演着关键角色。Yarn通过其ResourceManager、NodeManager、ApplicationMaster及Container等组件,实现了集群资源的有效管理和作业调度。当MapReduce任务提交时,Yarn不仅高效分配所需资源,还能确保任务按序执行。无论是处理Map阶段还是Reduce阶段的数据,Yarn都能优化资源配置,保障任务流畅运行。此外,Yarn还在Spark等框架中展现出灵活性,支持不同模式下的作业执行。未来,Yarn将持续助力大数据技术的发展与创新。
30 2
|
1月前
|
SQL 分布式计算 数据可视化
基于Hadoop的大数据可视化方法
【8月更文第28天】在大数据时代,有效地处理和分析海量数据对于企业来说至关重要。Hadoop作为一个强大的分布式数据处理框架,能够处理PB级别的数据量。然而,仅仅完成数据处理还不够,还需要将这些数据转化为易于理解的信息,这就是数据可视化的重要性所在。本文将详细介绍如何使用Hadoop处理后的数据进行有效的可视化分析,并会涉及一些流行的可视化工具如Tableau、Qlik等。
64 0
|
1月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
39 0
|
23天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
72 11
|
28天前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
70 1
|
1月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段