Big Data时代来临

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介:

前段时间一直在搞Hadoop,把自己的学习心得分享给大家。个人水平有限,欢迎大家指出不足之处。

Hadoop的介绍和安装部署很多,我这就不废话了。它包括HDFS分布式文件系统,HBase分布式数据库,MapReduce编程模型。它适合于大数据的处理,例如FaceBook,google,百度之类的大公司用于日志处理、数据挖掘,一般的公司不会用到,除非是那些用来做噱头的。

随着IT的发展,我们已经步入了Big Data时代,如何管理这些结构化+非结构化的数据成为了摆在管理员面前的难题,为此,存储界老大EMC甚至专门成立了Big Data的实验室。

  1、非结构化数据,例如视频、文档、Mp3等等,这些文件由于没有关系结构,所以存储起来相对来说是比较简单的,容量不够可以加存储,性能不够可以类似Scale-out搞多并发,或者类似Scale-up提高单个硬盘的性能,未来SSD变得更便宜之后,单个硬盘的性能也许不是问题。

  2、结构化数据,典型的就是数据库,各个表之间有复杂的关系,所以当数据发展到一定的规模时,传统的关系型数据库已经无法满足需求,不管是从存储容量还是从性能上。目前采取的比较多的就是分区or分表,前端加SSD做缓存,对价格敏感的客户采用Memcache充当cache的角色。而这种关系型数据库当初在设计时就埋下了缺陷,导致后面升级时很困难,代码重写等等。

  针对第一种非结构化数据,GOOGLE精英们发表了GFS论文,后来出现了很多类似的系统,HDFS、MooseFs、IBM的GPFS等等,即所谓的分布式文件系统。将meta data和data分开,减轻meta的压力;另外通过并行读写,提高了并发性,即上面说的类似Scale-out。 
  
   针对第二种结构化数据,出现了类似GOOGLE提出的BigTable的NoSQL们,目前NoSQL家族成员已经很多了,有HBase等。它颠覆了传统数据库的面向“row”,采用面向“column”,减小了存储空间,加快了读取时间。不仅如此,由于是非关系型数据库,在最初的表设计时,采用Family(列族)的方式,所以后来如果想扩展表的结构,可以非常方便,直接增加一个字段即可,摆脱了传统关系型数据库的制约。另外,通过和MapReduce的结合,应用程序可以方便地将数据并行写入到NoSQL。 

   但是NoSQL由于也是最近几年才发展起来的,不像Oracle、SQL SERVER经过几十年的积累,但可以预见的是,在Big Data的时代,NoSQL们是必然的趋势。虽然如此,但传统的关系型数据库也不会淡出历史的舞台。关系型数据库+非关系型数据库会同时存在于数据库领域。

   上面提到的只是存储级别的,如果涉及到大规模的数据处理,那么计算能力该如何解决呢?GOOGLE又提出了MapReduce的编程模型。通过MapReduce模型,会JAVA的程序员们可以很简单地编写程序将大量数据经过MapReduce(以下简称MR)并行写到NoSQL中(如下图JobTracker分配任务将数据写到每个黄色的RegionServer*);或者将需要处理的任务经过MR分配到具体的tasktracker上(如下图JobTracker分配任务让TaskTracker*执行具体的运算任务)。
clip_image002

   计算机的世界说白了就是计算+存储,而GOOGLE的先驱们早已事先为Big Data的到来奠定了理论基础。





本文转自 taojin1240 51CTO博客,原文链接:http://blog.51cto.com/taotao1240/727528,如需转载请自行联系原作者

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之int类型是否可以为raw feature
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
存储 数据采集 分布式计算
实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案
实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案
|
存储 数据采集 人工智能
初始大数据(Big Data)开发
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。主要解决的是对海量数据的存储以及海量数据的计算分析问题
初始大数据(Big Data)开发
|
人工智能 安全
How AHI Fintech and DataVisor are Securing Data through AI and Big Data
With growing threat of cyber-attacks, organizations like AHI Fintech and DataVisor are using Big Data and AI to help customers in China to protect their data.
16002 0
How AHI Fintech and DataVisor are Securing Data through AI and Big Data
|
人工智能 分布式计算 MaxCompute
The Cloud and AI: A Marriage Made In Heaven For Big Data Analytics?
Cloud-based solutions are saving Big Data from itself with smart, secure and scalable offline data developments to realize impressive ROIs.
1733 0
The Cloud and AI: A Marriage Made In Heaven For Big Data Analytics?
|
存储 NoSQL 分布式数据库
带你玩转 Big Data
Big Data(大数据)技术简析 Big Data是近来的一个技术热点,但从名字就能判断它并不是什么新词。毕竟,大是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。
1777 0
|
机器学习/深度学习 存储 人工智能
被神话的大数据——从大数据(big data)到深度数据(deep data)思维转变
自从阿法狗战胜人类顶级棋手之后,深度学习、人工智能变得再一次火热起来,但有一个基本的误解是更大的数据会产生更好的机器学习结果。然而,更大的数据池/仓库并不一定有助于模型学习到更深刻的见解。正确的答案是?
2123 0
|
SQL 流计算 HIVE
big data 文章汇总
flink和spark的异同: https://www.zhihu.com/question/30151872 presto 还是hive? http://geek.
1172 0