2012年数据库与大数据领域回顾与展望

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本文讲的是2012年数据库与大数据领域回顾与展望,2012注定是不平凡的一年,玛雅人将世界末日定在这一年的12月21日,然而这一天也许并不意味着结束,而是重生。正如2012对于大数据的意义一样,经过一年的历练,IT业界将在2013年迎来大数据元年。

2012年数据库与大数据领域回顾与展望

  一、2012年度回顾:大数据蓄势待发迎接元年

  (一)2012年大数据呈现新特征

  大数据不是刚刚出现的概念,“大数据”最早可以追溯到Apache的开源项目Nutch,当时大数据用来描述更新网络搜索索引所需批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFile System(GFS)的发布,大数据不仅仅用来描述大量的数据,还涵盖了处理数据的速度。

  业界对大数据最普遍的认知是它的4V特征,即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。2012年作为大数据产业蓄势待发的一年,大数据呈现以下新特征:

  1.数据量增长更加迅速。随着社交网络和移动互联网的发展,数据呈现爆炸式增长,甚至过去三年里产生的数据量超越了以往四万年的数据量。国内最大的微博——新浪微博在今年第三季度宣布注册用户已超过4亿,用户平均每天发布超过10亿条微博内容,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。根据IDC今年一项研究显示,未来10年全球数据量将以40%的速度增长,到2020年将达到35ZB(Zettabyte),大数据将迎来ZB时代。然而这仅仅是个开始,未来数据量将达到什么级别,我们无法想象。

  2.数据在企业中的地位日益突出。数据是企业最宝贵的资源。当前,企业最迫切的就是希望能从大数据中挖掘商业价值,以保持其在市场中的竞争力。随着数据挖掘、数据分析和商业智能技术的不断深入,企业决策越来越依赖于数据。大数据将会创造一个新的经济领域,该领域的全部任务就是将信息或数据转化为经济利益。分析的数据越全面,分析结果就越接近于真实,才能更好的指导企业运营。.企业中的数据既包括结构化数据,也包括非结构化数据,且非结构化数据的比例越来越高。IDC在报告中指出,利用大数据的商业价值:领军企业与其他企业之间最大的显著差别在于新数据类型的引入,那些没有引入新的分析技术和新的数据类型的企业,不太可能成为其行业的领军者。

  3.大数据人才缺口巨大。大数据时代更需要复合型人才,能够帮助组织在大量信息中挖掘有价值的数据,并将数据转化为深入的认知和精准预测的模型。大数据人才须具备综合性素质:他们通常是统计学家并且精通数据建模,同时知道如何在可用数据中使用最佳的算法,这极具技术含量。据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。今年7月,阿里巴巴集团成为国内第一家任命首席数据官的企业,业内也普遍看好数据人才的未来。

  4.企业对大数据的投入增加。2012年大数据市场的增长速度明显快于整个IT市场,据Gartner的最新统计,大数据市场销售额将在2012年增长21.4%,达到340亿美元。在今年大数据总开支中,只有43亿美元或12.6%的资金是直接由新的大数据功能产生的,而大部分的开支仍流向比较传统的解决方案,以满足企业对速度、多样性和数据容量的需求。目前企业对大数据的投入还停留在基础设施建设阶段,想要真正将数据转化为价值,还需继续在数据分析和展现等环节加大投入。

  (二)IT巨头进军大数据 新兴企业不断涌现

  大数据带来的商业机遇被越来越多的厂商看重,传统IT厂商陆续推出大数据产品及解决方案,引入多年技术积累和客户资源;同时大数据新兴企业不断涌现,大有超越前者之势。

2012年度回顾:大数据蓄势待发迎接元年

  1.IT巨头进军大数据。以IBM、Oracle、SAP、Intel、微软为代表的老牌IT厂商将业务触角伸向大数据产业,推出软件、硬件及软硬件一体化的行业解决方案。这其中既包括对Hadoop等开源大数据技术的集成,也包括各大厂商独有的创新技术。

  收购也是IT巨头进入大数据市场的敲门砖。今年4月,虚拟化巨头VMware收购大数据分析的初创企业Cetas,提供Hadoop平台上的分析服务,从而开启VMware大数据之旅。另外,大数据收购案例还包括Teradata收购高级分析和管理各种非结构化数据领域的市场领导者和开拓者Aster Data,IBM收购商业分析公司Netezza等。

  这些老牌IT厂商技术实力不俗,产品线丰富,在各个领域发挥重要作用。进军大数据市场,既增加了雄厚的技术底蕴,也能够让客户更容易的接受他们的产品或解决方案,逐渐成为大数据产业发展的主力军。

  2.新兴企业不断涌现。与那些老牌IT厂商不同,大数据市场还吸引了许多新兴企业的加盟。面对大数据带来的无限商机,初创公司开始挖掘大数据的商业价值,推出别具一格的产品或解决方案。

  在这些新兴企业中,有业内比较熟悉的基于Apache Hadoop的大数据分析解决方案的提供商Datameer、大数据分析公司Connotate、大数据技术初创公司ClearStory Data等,其中大数据公司Splunk于今年4月在纳斯达克成功上市。

  新兴企业拥有独特的技术优势,是传统IT企业所不具有的。相对于IT巨头,新兴企业更能够从细化的角度服务企业,向企业提供更专业的大数据服务。因此,在充满机遇的大数据市场,新兴企业完全有可能超越IT巨头,在短时间内获得市场的认可。


  二、关键词盘点:回顾大数据走过的2012年

  2012年,大数据产业蓄势待发,涌现出大批新产品与解决方案,同时也有许多热点事件历历在目。接下来笔者将对2012年大数据领域的热点事件进行盘点,回顾与大数据共同走过的2012年。

  (一)关键词:一体机

  年初,随着Oracle大数据机的正式发布,一体机成为数据整体解决方案的代名词。这种软硬件结合的方式简化了企业管理和应用的难度,上线和部署也很简单。IDC预测,在未来几年里,数据仓库一体机、NoSQL一体机以及其它一些将多种技术结合的一体化设备将进一步快速发展。

关键词盘点:回顾大数据走过的2012年

  但业内对此存在一定争议,有研究机构指出,大数据一体机价格昂贵且架构不灵活,用户完全可以自己搭建大数据基础架构。放下争议不说,先来看看市面上的几款大数据一体机:

  •2012年1月,Oracle正式发布大数据机。Oracle大数据机是一个硬、软件集成系统,融合了Cloudera公司的Distribution Including Apache Hadoop和Cloudera Manager,以及一个开源R。该系统采用Oracle Linux操作系统,配备有Oracle NoSQL数据库社区版本和Oracle HotSpot Java虚拟机。

  值得一提的是Oracle大数据机中的Cloudera Manager软件,是业界首个针对Apache Hadoop(CDH)的端到端管理应用程序。Cloudera Manager能提供一些非常重要的Hadoop集群管理功能:自动化的Hadoop部署,通过一个用户界面进行集中式的管理,还可以对相关配置进行管理。有分析师指出,Hadoop对于企业用户来说的技术门槛稍微有些高,因此像Cloudera Enterprise或者Cloudera Manager这样的管理软件可以很好地帮助企业用户对Hadoop进行管理。

  •2012年10月IBM InterConnect 2012大会上,IBM携全新的PureData产品系列亮相大数据一体机市场。IBM PureData作为一款全新的数据服务交付平台,与它的前辈PureSystems一样,整合了基础架构、统一平台管理和专家知识体系。

  面向复杂数据处理任务,IBM开发出针对特定工作负载的三款产品,分别为PureData System for Transactions、PureData System for Analytics 和PureData System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。其中,PureData System for Analytics能够提供超越传统数据系统十倍、乃至百倍的速度,以及是上一代Netezza技术20倍的面向查询的并发与吞吐能力,值得关注。

  除此之外,微软并行数据仓库一体机、浪潮大数据一体机以及Etu Hadoop一体机等,都在今年陆续发布或推广,大数据迎来一体机的时代。

  (二)关键词:内存计算

  随着内存价格的下降,内存计算开始引领新的热潮,以SAP HANA为首的内存计算平台、内存数据库等内存相关技术使计算速度由量变转向质变,即将开启新的时代。

关键词盘点:回顾大数据走过的2012年

  今年7月份举行的SAP中国商业同略会和12月份举行的SAP TechEd这两次重要的大会上,SAP把重点都放在了HANA上。SAP HANA将数据放在内存中处理,与内存数据库的功能极为相似,但它又不完全是一个数据库。SAP HANA可以用来加速现有的解决方案,包括BI和OLAP等,但是它真正的强项是用SAP HANA开发全新的应用。

  目前全球已有150多家客户基于HANA创业,上海寰融就是这样一家初创企业,它以SAP HANA平台为基础搜集金融数据进行深入分析,为客户提供相关金融服务。借助HANA平台,这些初创企业将创新带给他们的客户,提升自身价值。

  在SAP HANA内存计算平台的带动下,SAP的其他产品也获得巨大飞跃,尤其是Sybase数据库产品。Oracle ACE总监盖国强在其微博中表示,Sybase凭借SAP HANA再燃生机。SAP收购了Sybase之后,整合产品优势使得Sybase重燃生机,在2011年的市场份额上Sybase获得了显著增长。SAP随后推出的HANA产品对Oracle展开竞争,相信SAP借产品优势必然能够让Sybase获得再一次的成长机遇。

  Oracle也有一款类似的产品,即商业智能机Oracle Exalytics。业界经常拿这两款产品进行比较,两家厂商也经常因为这种比较而相互抨击。据了解,Oracle Exalytics和SAP HANA有三个共同点:1、都使用内存数据库技术;2、都是软硬件集成化设备;3、都用来处理分析工作负载。除上述的几点之外,两个产品其实并没有可比性。

  那么两款产品如何选择呢?专业人士建议,如果企业正在使用Oracle的产品,并且想要对Oracle数据库中添加一个智能缓存的话,那么应该选择Exalytics。但如果想要一个新的数据库,并想要超过原有Oracle性能10倍或者100倍,那么SAP HANA绝对是首选。

  在内存计算领域,微软也开始行动了。在今年11月份举办的SQL PASS大会上,微软也透露了SQL Server内存数据库的内幕信息。这个名为“Hekaton”的新项目,是一个针对交易型应用系统的SQL Server内存数据库功能。据悉,Hekaton以及之前发布的xVelocity列存储功能将在下一版本的SQL Server数据库平台中正式亮相。


  三、2013年展望:大数据发展十大趋势分析

  2012年大数据发展如火如荼,大有赶超云计算之势。如果把今年比作大数据落地生根的一年,那么2013年将迎来其茁壮成长,甚至开花结果的一年。有预测称,大数据市场将以每年40%的速度增长,2012年大数据市场规模约为50亿美元,2013年将翻倍。2013年大数据发展有哪些新趋势呢?不管是IDC、Gartner还是国内大数据研究机构都给出了各自的答案,笔者在这里总结一下各方观点,并谈谈自己的想法。

  预测1:开源大数据商业化

  随着闭源软件在数据分析领域的地盘不断缩小,老牌IT厂商正在改变商业模式,向开源靠拢,并加大专业服务和系统集成方面的力度,帮助客户向开源的、面向云的分析产品迁移,主要是Hadoop和R两类技术。与人们的传统理解不同,大数据市场开源的盛行不会抑制市场的商业机会,相反开源将会给基础架构硬件、应用程序开发工具、应用、服务等各个方面的相关领域带来更多的机会。

  预测2:Hadoop将加速发展

  做为大数据领域的代表技术,许多企业都把明年的计划放在Hadoop上。预测称用户对Hadoop的优化将更注重硬件,同时,对企业友好的Hadoop技术市场将达到前所未有的高峰。从整体上说,不仅是Hadoop本身本会得到迅猛的发展,同时Hadoop在多个数据中心中的配置和无缝集成技术也将成为热门。Hadoop的专业知识正在飞速增长,但是这方面优秀的人才仍然很缺乏。

  预测3:大数据复杂度降低

  大数据技术的落地将会有两个特点:一个是对MapReduce依赖越来越少,另外一个是会把Hadoop技术深入的应用到企业的软件架构中。针对第一个特点,像Cloudera的Impala和微软的PolyBase这样的软件会得到充分发展,他们绕开了MapReduce,直接对存在HDFS中的数据进行处理。针对第二个特点,大规模的使用Hadoop是个必然趋势,渐渐的就会形成行业的标准,进而成为更有价值的软件基础,而不仅是自己内部使用。

  预测4:打包的大数据行业分析应用

  随着大数据逐渐走向各个行业,基于行业的大数据分析应用需求也日益增长。未来几年中针对特定行业和业务流程的分析应用将会以预打包的形式出现,这将为大数据技术供应商打开新的市场。这些分析应用内容还会覆盖很多行业的专业知识,也会吸引大量行业软件开发公司的投入。(IDC)

  预测5:大数据细分市场

  大数据相关技术的发展,将会创造出一些新的细分市场。例如,以数据分析和处理为主的高级数据服务,将出现以数据分析作为服务产品提交的分析即服务(Analyze as a Service)业务;将多种信息整合管理,创造对大数据统一的访问和分析的组件产品;基于社交网络的社交大数据分析;甚至会出现大数据技能的培训市场,教授数据分析课程等。(IDC)

  预测6:大数据推动公司间的并购

  大数据概念覆盖范围非常广,包括非结构化数据从存储、处理到应用的各个环节,与大数据相关的软件厂商也非常多,但是又没有哪一家厂商可以覆盖大数据的各个方面。因此,在未来几年中,大型IT厂商将为了完善自己的大数据产品线进行并购,首当其冲的将是信息管理分析软件厂商、预测分析和数据展现厂商等。

  预测7:大数据分析的革命性方法出现

  在大数据分析上,将出现革命性的新方法。就像计算机和互联网一样,大数据可能是新一波技术革命。从前的很多算法和基础理论可能会产生理论级别的突破。(CCF)

  预测8:大数据与云计算:深度融合

  大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必有更完美的结合。同样的,云计算、物联网、移动互联网等新兴计算形态,既是产生大数据的地方,也是需要大数据分析方法的领域。(CCF)

  预测9:大数据一体机陆续发布

  自云计算和大数据概念被提出后,针对该市场推出的软硬件一体化设备就层出不穷。在未来几年里,数据仓库一体机、NoSQL一体机以及其它一些将多种技术结合的一体化设备将进一步快速发展。

  预测10:大数据安全令人担忧

  大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制提出更高的要求。网络和数字化生活使得犯罪分子更容易获得关于人的信息,也有了更多不易被追踪和防范的犯罪手段,可能会出现更高明的骗局。(CCF)

  总结

  2012年的大数据领域,Hadoop成为绝对的主角。随着大数据基础设施的不断完善,数据分析和商业智能工具将逐渐成为大数据的主力军。无论是IT巨头还是新兴企业都觉察到了大数据带来的前所未有的机遇,让我们做好一切准备,迎接2013大数据元年的到来。

作者: 小野

来源: IT168

原文标题:2012年数据库与大数据领域回顾与展望


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
人工智能 搜索推荐 算法
数据平台演进问题之数据库技术面临挑战如何解决
数据平台演进问题之数据库技术面临挑战如何解决
120 0
|
2月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
44 3
|
2月前
|
SQL 缓存 大数据
C#高效处理大数据的批次处理,以及最好的数据库设计
C#高效处理大数据的批次处理,以及最好的数据库设计
70 0
|
2月前
|
大数据 关系型数据库 数据库
python 批量处理大数据写入数据库
python 批量处理大数据写入数据库
125 0
|
4月前
|
关系型数据库 MySQL 大数据
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
人工智能 自然语言处理 数据管理
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解
数据平台演进问题之数据的资产怎么被AI驱动的数据库理解
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
23天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
179 7