《大数据管理概论》一第3章‖大数据存储3.1 引言-阿里云开发者社区

开发者社区> 华章计算机> 正文

《大数据管理概论》一第3章‖大数据存储3.1 引言

简介:
+关注继续查看

本节书摘来自华章出版社《大数据管理概论》一书中的第3章,第3.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第3章‖

大数据存储

3.1 引言

大数据存储与管理研究首先面临的是存储技术上的挑战。虽然目前有许多存储技术有望用于大数据存储,但它们都存在局限性[36]。例如:
目前以NoSQL数据库为代表的大规模分布式数据库系统设计了基于磁盘存储的读写方式、索引结构、查询执行、查询优化和恢复策略,但是磁盘固有的读写性能差等弊端限制了大数据存取尤其是大数据分析性能的提升。
以HDFS为代表的大规模分布式文件系统虽然提供了大数据的存储支持能力,但由于这些文件系统在设计时并没有考虑对实时、高性能的数据处理的支持,因此无法满足日益增长的大数据在线分析的需求。此外,随着数据量的急剧增加,元数据的大小也急剧增加,传统的元数据架构、元数据备份管理、元数据动态负载均衡等越来越难适应大数据应用需求。
基于动态随机存储器(Dynamic Random Access Memory,DRAM)的内存数据管理技术试图通过DRAM的高性能优势来克服大数据管理与分析中的瓶颈,但由于DRAM价格较高并且单节点DRAM容量已经很难扩充,限制了当前基于DRAM的主存结构在大规模数据处理中的运用。
鉴于磁盘存储、内存存储在面临大数据管理与分析时的困难,学术界和工业界开始将目光转向新型存储技术。国际上从2000年以来在闪存、相变存储器(Phase Change Memory,PCM)等新型存储器件的制造和产业化方面取得了重要突破,并已开始逐步在各类应用领域(如嵌入式系统、企业计算等)中使用。新型存储所具有的高读写速度、非易失、低能耗等特性给大数据技术的发展提供了新的机遇,因此,以新型存储为基础的大数据存储与管理技术也吸引了国内外学者的关注,包括闪存、PCM等[37,38,39]。闪存是一种可以被电子化擦除和重写的非易失性存储设备,闪存将二进制数据存储在双层MOS管组成的记忆单元阵列中,MOS管中包含“浮动栅”和“控制栅”,数据位是1还是0取决于浮动栅上是否有电子,写入0时,向栅电极和漏极施加高电压,增加在源极和漏极之间传导的电子能量,这样一来,电子就会突破氧化膜绝缘体,进入浮动栅,即成功写入0。读取数据时,向栅电极施加一定的电压,电流大定为1,电流小定为0。固态硬盘(Solid State Drive,SSD)是目前闪存存储的最主要形式,主要由闪存芯片、闪存转换层、地址映射表寄存器、控制器等部件构成。
与磁盘介质相比,闪存具有传输速率高、延迟低、能耗低、噪声低、抗震等优良特性。同时也有一些特殊性质:①写前擦除,对闪存的写操作不是简单地改变某个二进制位,而是需要将整个擦除块的所有二进制位置1,这带来了闪存的读写不对称性,一般采用异地更新的方式缓解写前擦除带来的延迟,减少读写不对称带来的影响;②寿命限制,目前企业级闪存能耐受3万次写循环,消费级闪存仅为3000次;③读写与擦除的单位不一致,一个擦除块中包含若干个闪存页,擦除的单位是一个闪存擦除块(erase block),读写的单位是闪存页。
PCM是一种非易失类型的存储器,主要存储部件由硫系玻璃材质制成。这种材质具有一种特殊的性质,那就是通过施以电脉冲,它可以在非晶态和多晶态这两种状态之间进行转换。PCM兼具速度快、耐用、非挥发性和高密度性等多种优势,其读写数据和恢复数据的速度是现在应用最广泛的非挥发性存储技术闪存的100倍。近年来,PCM的芯片工艺和存储容量有了快速发展。
IBM公司把PCM这一类具有DRAM的存取性能同时又具有持久存储能力的存储介质称为存储级主存(Storage Class Memory,SCM)[39,40,41]。PCM等存储级主存技术具有非易失、存储速度快、易实现高密度等技术特点,在高速与海量存储方面具有巨大的潜能,已被认为是下一代非易失存储技术的最佳解决方案之一。另外,因该技术兼有DRAM的高速随机访问和闪存的非易失特性,模糊了主存和外存的界限,有望突破原有的存储体系架构,实现更高性能的存取。因此,我们可以利用PCM等新型存储器件设计出适合大数据存储与管理的新型存储架构(如图3-1所示)。该架构一方面利用DRAM和PCM等SCM,可让CPU直接控制主存控制器,通过硬件管理的方式实现CPU存取和字节存取;另一方面利用传统的I/O控制器控制SSD和HDD等外存设备,通过软件管理的方式实现进程存取和页式存取。与此同时,可进一步设计新的分布式多节点存储技术,将大数据存取集中在DRAM和PCM上,充分发挥DRAM和PCM的高性能以及PCM的随机存取和非易失优点,而且可以利用分布式多节点存储的优势建立具有高扩展性的大数据存储系统。


c04805962592007a0ffd00a51ac1635b92c40370

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《大数据存储:MongoDB实战指南》一导读
多年来,我一直在和数据库存储技术打交道,深知数据存储技术在整个IT系统中起着至关重要的作用,尤其是随着云计算时代的到来,所有企业都面临着海量的数据信息,如何处理这些数据成为当前研究的热点。在过去二十几年中,数据的存储是关系数据库的天下,它以高效、稳定、支持事务的优势几乎统治了整个行业的存储业务;但是随着互联网的发展,许多新兴产业如社交网络、微博、数据挖掘等业务快速增长,数据规模变得越来越庞大,高效存储、检索、分析这些海量的数据,关系数据库变得不再适用。
1772 0
Flask的上下文管理
庭院深深深几许,杨柳堆烟,帘幕无重数。玉勒雕鞍游冶处,楼高不见章台路。 雨横风狂三月暮,门掩黄昏,无计留春住。泪眼问花花不语,乱红飞过秋千去。 一、 通过Threading的local实现的本地存储隔离 当我们开启多线程来执行func函数,通过自定义...
1455 0
[喵咪大数据]HUE大数据管理工具
日常的大数据使用中经常是在服务器命名行中进行操作,可视化功能仅仅依靠着各个组件自带的网页进行,那么有没有一个可以结合大家能在一个网页上的管理工具呢?答案是肯定的,今天就和大家一起来探索大数据管理工具HUE的庐山真面目.
264 0
云上成本管理最优化实践
随着业务发展,客户在云上管理了大规模的机器,如何做好云资源成本管理,合理利用云资源支持好业务发展,成为企业重点关注的领域,需要数字化管理云上资源成本。
142 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载