【赵渝强老师】大数据技术的理论基础

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。

b112.png 大数据平台所要解决的问题是数据的存储和数据的计算,其核心思想采用的是分布式集群的思想。另一方面,分布式集群的思想在Google的技术系统中得到了很好的应用。因此Google将其核心技术的思想以论文的形式公开发表出来,这就是“Google的三驾马车”,即:Google的文件系统、MapReduce分布式计算模型和BigTable大表。这三篇论文奠定了大数据生态圈体系中的技术核心,从而有了基于Java的实现框架——Hadoop生态圈体系。进一步发展起来了后续的Spark生态圈体系和Flink生态圈体系。

   

因此,在学习大数据生态圈体系的具体内容之前,有必要对Google的这三篇论文有一个比较清楚的了解,这对于后续进一步掌握大数据平台的生态圈体系非常重要。本小节将为详细介绍这三篇论文的核心思想及其实现原理。

 

视频讲解如下:


一、Google的文件系统

   

Google文件系统GFS,即:Google File System是一个典型的分布式文件系统,也是一个分布式存储的具体实现方式。在日常的工作和生活中所使用的的网盘也是一个典型的分布式文件系统。下图展示了GFS的基本架构。


   

将数据存入一个分布式文件系统中,需要解决两方面的问题:如何存储海量的数据和如何保证数据的安全。如果有了解决的方案,就能够实现一个分布式文件系统来存储大数据,并且保证数据的安全。而解决的方案便是采用分布式集群的方式,即采用多个节点组成一个分布式环境来解决这两个问题,下面分别进行讨论实现的细节,从而引出Hadoop中的分布式文件系统HDFS(Hadoop Distributed File System)的基本架构和实现原理。


二、MapReduce分布式计算模型

   

大数据的存储可以采用分布式文件系统来存储,那么如何解决大数据的计算问题呢?跟大数据存储的思想一样,由于数据量庞大,无法采用单机环境来完成计算任务。既然单机环境无法完成任务,那么就可以采用多台服务器一起执行任务,从而组成一个分布式计算的集群完成大数据的计算任务。基于这样的思想,Google提出了MapReduce分布式计算模型的方式处理大数据。


提示:MapReduce是一种计算模型,它跟具体的编程语言没有关系。

   

Hadoop体系中实现了MapReduce的计算模型。由于Hadoop是采用Java实现的框架,因此开发的MapReduce程序也将是一个Java程序。众所周知,MongoDB也支持MapReduce的计算模式,而MongoDB中的编程语言是JavaScript,所以在MongoDB中开发MapReduce程序需要书写JavaScript代码。

   

MapReduce的核心思想其实就只有6个字,即:先拆分、再合并。通过这样的方式,不管得到的向量矩阵有多大都可以进行计算。拆分的过程叫做Map;而合并的过程叫做Reduce。如下图所示:


   

上图中的示例假设有一个庞大的矩阵要进行计算。由于无法在一台计算机上完成,因此将矩阵进行拆分,首先将其拆分为4个小矩阵,只要拆分到足够小让一台计算机能够完成计算即可。每台计算机计算其中的一个小矩阵得到部分的结果。这个过程就叫做Map,如图中的实线方框的部分。将Map输出的结果在进行聚合操作的二次计算,从而得到大矩阵的结果,这个过程叫做Reduce,如图中的虚线方框的部分。

   

下图展示了在Hadoop中执行MapReduce任务的输出日志信息。

提示:通过输出的日志可以看出任务被拆分成了两个阶段,即:Map阶段和Reduce阶段。当Map执行完成后,接着执行Reduce。


三、BigTable大表

   

BigTable大表的思想是Google的“第三驾马车”。正因为有了这样的思想就有了Hadoop生态圈体系中的NoSQL数据库HBase。

提示:NoSQL数据库泛指所有的非关系型数据库。NoSQL数据库有很多种,比如:Hadoop体系中的HBase;基于内存的Redis和基于文档的MongoDB。而NoSQL数据库从某种程度上说也是属于大数据体系中的组成部分。

   

那么什么是BigTable大表呢?简单来说就是把所有的数据存入一张表中,这样做的目的就是为了提高查询的性能。但是这也将违背关系型数据库范式的要求。在关系型数据库中需要遵循范式的要求来减少数据的冗余。减少数据冗余的好处是节约了存储的空间,但是会影响性能。例如:在关系型数据库中执行多表查询会产生笛卡尔积。因此,关系型数据库的出发点是通过牺牲性能,达到节约存储空间的目的。这样设计是有实际意义的,因为在早些年的时候,存储的介质是比较昂贵的,需要考虑成本的问题。而大表的思想正好与其相反,它是把所有的数据存入一张表中。大表的思想是通过牺牲存储空间来达到提高查询性能的目的。

   

HBase就是BigTable大表思想的一个具体实现,并且它是一个列式存储的NoSQL数据库适合执行数据的分析和处理。简单来说就是适合执行查询操作。下图展示了HBase的表结构。


   

HBase的表由列族组成,图中的“emp”和“dept”都是列族,列族中包含列。创建表的时候必须创建列族,不需要创建列。当执行插入语句插入数据到列族中的时候,需要指定rowkey和具体的列。如果列不存在,HBase会自动创建相应的列,再把数据插入到对应的单元格上。


提示:rowkey相当于关系型数据库的主键。但是与主键不同的是,rowkey与关系型数据库类似不允许为空,但是可以重复的。如果rowkey重复了,表示相同的rowkey是同一条记录。

   

例如,如果要得到上图所示的表结构和数据,可以在HBase中执行下面的语句。

#创建employee表,包含两个列族:emp和dept
create 'employee','emp','dept'
#插入数据
put 'employee','7839','emp:ename','KING'
put 'employee','7839','emp:job','PRESIDENT'
put 'employee','7839','emp:hiredate','17-11月-81'
put 'employee','7839','emp:sal','5000'
put 'employee','7839','dept:deptno','10'
put 'employee','7839','dept:dname','ACCOUNTING'
put 'employee','7839','dept:loc','NEW YORK'



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
18天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
69 2
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
125 4
|
20天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
2月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
20天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
14天前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
20天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
23天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
48 3
|
23天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
58 2

相关产品

  • 云原生大数据计算服务 MaxCompute