【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)

简介: 【云计算与大数据技术】文件存储格式行式、列式、GFS、HDFS的讲解(图文解释 超详细)

一、分布式文件系统

文件系统最后都需要以一定的格式存储数据文件,常见的文件存储布局有行式存储、列式存储以及混合式存储三种,不同的类别各有其优缺点和适用的场景,在目前的大数据分析系统中,列式存储和混合式存储方案因其特殊优点被广泛采用

1:行式存储

在传统关系型数据库中,行式存储被主流关系型数据库广泛采用,HDFS文件系统也采用行式存储,在行式存储中,每条记录的各个字段连续的存储在一起,而对于文件中的各个记录也是连续存储在数据块中。

行式存储对于大数据系统的需求已经不能很好的满足,主要体现在以下几个方面

快速访问海量数据的能力被束缚

行的值由响应列的值来定位,这种访问模型会影响快速访问的能力,因为在数据访问的过程中引入了耗时的输入与输出,在行式存储中,为了提高数据处理能力,一般通过分区技术来减少查询过程中数据输入与输出的次数,从而缩短响应时间,但是这种分区技术对海量数据规模下的性能改善效果并不明显

扩展性差

在海量规模下,扩展性差式传统数据存储的一个致命的弱点。一般通过向上扩展和向外扩展来解决数据库扩展的问题。向上扩展是通过升级硬件来提升速度,从而缓解压力,向外扩展则是按照一定的规则将海量数据进行划分,再将原来集中存储的数据分散到不同的数据服务器上,但由于数据被表示成关系模型,从而难以被划分到不同的分片中等原因,这种解决方案仍有有局限性

2:列式存储

列式存储 - 与行式存储布局对应,列式存储布局实际存储数据时按照列队所有记录进行垂直划分,将同一列的内容连续存放在一起

将经常联合使用的列存储在一个数据块中,避免通过不必要的网络传输来获取多列数据,采用列组方式存储布局可以在一定程度上缓解这个问题,也就是将记录的列进行分组,将经常使用的列分为一组,这样即使是按照列式来存储数据,也可以将经常联合使用的列存储在一个数据块中,避免通过不必要的网络传输来获取多列数据,对于某些场景而言会较大的提升系统性能

3:混合式存储

混合式存储- 融合了行式和列式存储布局的优点

首先将记录表按照行进行分组,若干行划分为一组

对于每组内的所有记录,在实际存储时按照列将同一列内容连续存储在一起

二、Google文件系统(GFS)

GFS(Google文件系统)是Google为了存储百亿计的海量网页信息而专门开发的文 件系统

数据冗余备份、故障自动检测、故障机器自动恢复等都列在GFS的设计目标里

GFS中存储的文件绝大多数是大文件

系统中存在大量的“追加”写操作,即在已有文件的末尾追加内容,已经写入的 内容不做更改

对于数据读取操作来说,绝大多数操作都是“顺序”读,少量的操作是“随机” 读  

三、HDFS

Hadoop 分布式文件系统 (HDFS)被设计成适合运行在通用硬件 (commodity hardware)上的分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能够提供高吞吐的数据访问,非常适合大规模数据集上的应用,HDFS在最开始是在Apache Nutch搜索引擎项目的基础架构开发的。HDFS是Apache Hadoop Core项目的一部分

HDFS 采用 master/slave 架构。一个 HDFS 集群由一个namenode 和一定数目的 datanode 组成

HDFS采用Java语言开发,因此任何支持Java的机器都可以部署NameNode或者DataNode,由于采用了可移植性极强的Java语言,使得HDFS可以部署到多种类型的机器上

创作不易 觉得有帮助请点赞关注收藏~~~

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
12月前
|
边缘计算 人工智能 自动驾驶
云计算的加速引擎——5G技术如何改变未来
云计算的加速引擎——5G技术如何改变未来
331 7
云计算的加速引擎——5G技术如何改变未来
|
6月前
|
Kubernetes Cloud Native 云计算
云计算与云原生技术探索
🌟蒋星熠Jaxonic,云原生探索者!以代码为舟,遨游技术星河。专注容器化、微服务、K8s与DevOps,践行GitOps理念,拥抱多云未来。用架构编织星辰,让创新照亮极客征途!
云计算与云原生技术探索
|
8月前
|
存储 分布式计算 调度
云计算核心技术
云计算作为IT领域的热门技术,融合网格计算与虚拟化,通过资源池和分布式存储提供高效计算与存储服务。其架构涵盖物理资源、资源池、管理中间件及SOA构建层,关键技术包括虚拟化、海量数据处理、资源调度、服务管理及云平台,旨在实现低成本、高可靠、可扩展的服务交付。
670 0
云计算核心技术
|
存储 弹性计算 分布式计算
云端智链:挖掘云计算中的大数据潜能
云端智链:挖掘云计算中的大数据潜能
286 21
|
监控 安全 网络安全
云计算与网络安全:技术挑战与解决方案
随着云计算技术的飞速发展,其在各行各业的应用越来越广泛。然而,随之而来的网络安全问题也日益凸显。本文将从云服务、网络安全和信息安全等技术领域出发,探讨云计算面临的安全挑战及相应的解决方案。通过实例分析和代码示例,旨在帮助读者更好地理解云计算与网络安全的关系,提高网络安全防护意识。
390 56
|
安全 大数据 虚拟化
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显。作为Windows Server的核心组件,Hyper-V具备卓越的技术性能,支持高可用性、动态迁移等功能,确保虚拟机稳定高效运行。它与Windows深度集成,管理便捷,支持远程管理和自动化部署,降低管理成本。内置防火墙、RBAC等安全功能,提供全方位安全保障。作为内置组件,Hyper-V无需额外购买软件,降低成本。其广泛的生态系统支持和持续增长的市场需求,使其成为企业虚拟化解决方案的首选。
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
存储 分布式计算 大数据
大数据与云计算:无缝结合,开启数据新纪元
大数据与云计算:无缝结合,开启数据新纪元
824 11
|
存储 监控 数据可视化
SaaS云计算技术的智慧工地源码,基于Java+Spring Cloud框架开发
智慧工地源码基于微服务+Java+Spring Cloud +UniApp +MySql架构,利用传感器、监控摄像头、AI、大数据等技术,实现施工现场的实时监测、数据分析与智能决策。平台涵盖人员、车辆、视频监控、施工质量、设备、环境和能耗管理七大维度,提供可视化管理、智能化报警、移动智能办公及分布计算存储等功能,全面提升工地的安全性、效率和质量。
328 0
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
在数字化浪潮中,云计算如同一股不可阻挡的力量,推动着企业和个人用户步入一个高效、便捷的新时代。然而,随之而来的网络安全问题也如影随形,成为制约云计算发展的阿喀琉斯之踵。本文将探讨云计算服务中的网络安全挑战,揭示信息保护的重要性,并提供实用的安全策略,旨在为读者呈现一场技术与安全的较量,同时指出如何在享受云服务带来的便利的同时,确保数据的安全和隐私。
303 6

热门文章

最新文章