数据存储技术取得突破,存储数据需“开源”更需“节流”

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

日前,IBM研究团队成功地通过“孤立原子”(solitary atom)的方式创造出了全世界最小的磁体。具体的思路是,现有的数据存储技术及硬盘在存储数据时,大多需通过磁头磁化磁层上的介质,每存储1bit数据大约需要10万粒原子,而IBM通过“孤立原子”的方式,使数据存储的硬盘体积缩小了1000倍。

对此,该团队在《自然》(Nature)杂志上发文称,这一突破将为人类带来令人兴奋的全新数据存储系统。

如今,移动计算和云计算飞速发展,全球数据量随之猛增。数据存储自然也成为重要的技术。那么,如此庞大的数据量都被储存在何处?其中蕴含怎样的原理?目前数据存储技术多有突破,但我们真的需要将所有的数据都永久保存吗?或许对于数据存储,人类要做的不只是技术上的“开源”。

一、数据存储方式多样,全球数据量逐年递增

在数据量快速增长的背景下,容易生出一个疑问:这么多的数据,究竟都被存放在何处?其实回归本质看这个问题,答案非常简单,那就是“硬盘”。依此类推可知,庞大的数据的存储自然需要非常多的硬盘。

比如谷歌,其早些年的数据中心就已经拥有上万块硬盘,如果按1TB(terabajt,太)的标准计量,能够达到10PB(petabajt,拍)的数量级,用于一般存储可以说绰绰有余。

而在国内,像百度云等数据存储服务则开创了10Gb TOR交换机、SSD(自制固态硬盘)等用于大规模数据存储的技术。但当数据量开始变得庞大,就需要以服务器作为主要存储方式。

服务器能够存储数据、处理数据。通过网络协议,使人们在客户端快速获取存储其中的数据,用户也可以上传文件。在上传和下载的过程中,形成了互联网频繁的数据交换,其外在体现是我们经常在一些科幻影视剧中看到的信号灯疯狂闪烁的画面。

当需要存储的数据越来越庞大时,增加硬盘、服务器和带宽都需要非常高的成本。因而对于更庞大数据的存储和处理,需要数据中心作为辅助。

在上图中,每个柜子中的每一排都插入了大约20~40台机器,整个数据中心就由成千上万台这样联网在一起的机器构成。不一定有硬盘,但一定有处理器和内存。

  插入其中的机器

其中的硬盘每天都会有人工进行置换,由于硬盘时常损坏,所以每份数据大概会在不同的机器中至少备份三份。数据中心的地点通常在地皮、水电、制冷价格较低的郊区。

这样的技术投资自然更大,但也视情况而定。像BAT这样的巨头用户基数和数据体量极为庞大,相关产品众多,投资自然也随之增加。而一些小厂商没有庞大的数据,对数据存储方面的投入自然也少一些。

然而,全球数据量庞大已成趋势。据IDC公布的调查数据显示,未来全球数据将维持50%左右的增长率,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国将达到8.6ZB,占全球的21%。

随之而来的是大数据市场的繁盛,根据中国信息产业研究院的数据显示,去年中国大数据市场规模约为116亿元,同比增长38%,未来将以40%左右的规模高速增长。

数据量的飞速增长及市场的繁盛,需要存储技术的支撑。

二、存储技术取得突破,但短期内不能实现商用

目前常用的数据存储方式有DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,局域网络存储)等。然而面对数据量的一再庞大,缩小存储介质的体积以减少占地及投入成为了重中之重。

在IBM此次研发的“孤立原子”存储方式中,运用了曾获诺贝尔奖的STM(scanning tunneling microscopes,扫描穿隧式显微镜),并与Holmium(钬原子)技术相配合,用以创造并监控这一磁体,而之后的数据读写操作则借助电流完成。此技术能极大缩减存储介质体积,意味着人们能将3500万首歌曲大小的文件存储在一个信用卡大小的硬盘中。

其实,IBM可以算得上是数据存储技术的先驱企业之一。早在1956年就研制出了世界上第一台计算机硬盘驱动器“IBM305RAMAC”。1991年,IBM推出首款采用感应式薄胶片磁阻磁头的磁盘“0663Corsair”。

不过,IBM于2003年将其数据存储部门出售给日立,结束了在磁盘领域的历程,如今IBM或许会借助新的数据存储技术重回这一领域。但该项目的研究员Chris Lutz表示,这项研究离商用的距离还有数十年。

除了运用了新技术的“孤立原子”方式,近期另一项大热的数据存储技术是利用DNA存储数据。此种技术的优势在于DNA排列极为紧凑,并且不会随时间的推移损坏或发生降解。据统计,4克DNA就能保存人类每年产生的所有数据,并且存储时长大于100年,与传统存储介质相比高出了一个数量级。

然而,与IBM新的数据存储技术一样,DNA存储技术离商用同样有着多年的距离。

面对这种状况,除了努力研发和深耕技术之外,或许更应该想想:我们真的需要保存全部的数据吗?显然不是。因此,在不断研发和提升存储技术的同时,对于数据的存储量也应该适当地采取一些控制措施。

三、数据存储不能只顾“开源”,“节流”同样重要

Intel的创始人Gordon Moore曾说:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。此定律揭示了信息技术进步的速度,即著名的“摩尔定律”。

这一定律在数据存储领域同样可被借鉴。信息技术不断进步,闪存、磁盘、数据中心、DNA等各种新的存储技术不断出现。可即便如此,仍难以满足日渐庞大的数据体量的存储需求,加之IoT(物联网)行业的发展,致使数据的体量更为惊人。

不可否认,这些数据中许多都蕴含着价值,但也不能忽视数据的惊人体量。难道到2020年我们要将44ZB的数据全部记录并存储下来吗?显然是天方夜谭。物联网的发展使机器能够自行收集并保存数据,但在这些数据中,真正有价值的其实并不是全部。

比如智能设备所记载的用户数据,交通工具行驶过程中产生的数据,这类数据在当下可用性强,但当个体消失或工具报废之后,余下的数据是总结抑或是弃之不用?这些数据要存储到何时?其中需要多少费用?这些数据的价值与存储它们投入的成本是否可以成正比呢?

事实上,在这类数据中,人们只看一次的比例超过90%。因此在这个每天产生大量数据的时代,要学会优先提炼重要数据,对于边缘化的数据应适当摒弃。在数据的存储和摒弃之间找到一个平衡点,能够使数据产生更高的价值。

在信息高速发展的时代,大数据的作用愈发重要。一方面,人类在努力“开源”,研发新的数据存储技术,以便适应大数据时代的发展。但另一方面,“节流”同样重要。分清主次,找到数据存储价值的最高点,有助于提升效率,节省投入,更好地推动大数据时代的进一步发展。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
存储 关系型数据库 OLAP
TiDB适用场景解析:海量数据存储与高并发读写的利器
【2月更文挑战第25天】随着大数据时代的到来,海量数据存储和高并发读写成为众多企业面临的挑战。TiDB作为一种高性能、分布式的关系型数据库,以其独特的架构和强大的功能,在多个场景中展现出了卓越的性能。本文将详细探讨TiDB在海量数据存储、高并发读写等场景下的适用情况,分析其在不同业务场景中的优势与应用价值。
|
4月前
|
存储 小程序 编译器
【数据存储:揭开内存中数据存储的神秘面纱】(上)
【数据存储:揭开内存中数据存储的神秘面纱】
|
4月前
|
存储
【数据存储:揭开内存中数据存储的神秘面纱】(下)
【数据存储:揭开内存中数据存储的神秘面纱】
|
存储 缓存 前端开发
详解前端数据存储
详解Cookie, Session, SessionStorage, LocalStorage 引言 在Web开发中,数据的存储和管理是非常重要的。Cookie、Session、SessionStorage和LocalStorage是常见的Web存储解决方案。本文将详细介绍这些概念,比较它们的特点和用法,并提供相关的代码示例。
172 0
|
3月前
|
弹性计算 负载均衡 NoSQL
NoSQL数据库如何支持动态数据结构?
【6月更文挑战第11天】NoSQL数据库如何支持动态数据结构?
34 2
|
3月前
|
存储 NoSQL 大数据
【大数据】LSM树,专为海量数据读写而生的数据结构
【大数据】LSM树,专为海量数据读写而生的数据结构
42 0
|
4月前
|
存储 数据库 对象存储
探索 IndexedDB 的世界:大规模数据存储的解决方案
探索 IndexedDB 的世界:大规模数据存储的解决方案
|
4月前
|
存储 对象存储 块存储
高性能数据存储有哪些方式
高性能数据存储有哪些方式
119 0
|
存储 SQL NoSQL
市面常见数据存储方式的简单介绍
下面是市面上一些存储方式概念的简单介绍,包含关系型数据库,非关系型数据库,内存数据库,数据仓库,对象存储,图数据库,时序数据库和多维数据库
1592 0
|
存储 缓存 固态存储
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现