全球变暖的数据

简介:

西雅图的气温已经达到华氏90度。这不是抱怨,但人们绝对相信全球变暖正在发生,需要做出一些改变来解决它。但本文并不讨论关于气候变化问题,而是关于数据的问题。具体而言,这是关于非结构化数据的增长问题,如果我们继续否认这个问题,并忽略警告的话,将会面临悲观的命运。这听起来是不是很熟悉?

人们很难对非结构化数据增长的证据进行争论,估计会与研究机构所公布的有所不同,但普遍的共识是,直到2020年将会产生40-50泽字节,其中非结构化数据将占80%-90%。

是什么推动了非结构化数据的增长?

数据增长来自于很多地方。当然也有像4K高清电影、电视节目、电影、图片,以及我们每天都在使用的智能手机的图像,但是非结构化数据的增长源要这些广泛得多。还有在各种不同行业的大量机器和传感器,例如,工程和设计,金融服务,地理空间探索,医疗保健,以及更多的数据驱动的行业日常产生的大量数据。随着摄像头分辨率和保存时间的增长,单是视频监控每天产生的非结构化数据几乎达到艾字节。

这些不同的数据集具有一些共同的特点。通常情况下,它们分别是:

·大文件的组成;

·即不可压缩的数据,如重复数据删除技术无法有效降低数据;

·对创造数据的公司、部门或用户有一定的价值;

·保存多年。

与全球变暖的相似之处

那么,非结构化数据的增长如何像全球变暖一样?

人们所表现的就像是不存在这样的问题:公司每天产生的数据都在喷涌而出,越来越多的非结构化数据进入到他们的IT环境,但是当它涉及到管理这种增长时,一切照常。尽管所有证据与之相反,许多企业仍在尝试使用数据存储,他们一直使用相同的方法来管理和存储非结构化数据集,他们把数据都存储在磁盘上。这种方法开始分解在数据的规模和比例。超出生长成本以外,随着时间的推移,将内容摄取到存储系统的速度不够快,随着时间的失衡,其能力下降,而传统的备份方法不再足以保护数据。

对于这些庞大机器和传感器生成的数据集,明确了不同的方式来存储和管理这个数据是必需的。

这样的例子不胜枚举,但问题是,对于这些类型的数据集,冷数据变得更有价值或变得更“热”,需要改变数据的存储方式。即使需要保持用户访问的归档数据。

·有关电影或电视演播室生成的视频内容,可以重新利用并重新分配,想想“幕后”你最喜欢的电视真人秀节目。

·零售企业分析视频监控录像,跟踪购物模式,并使用洞察力,以增加销售。

·科学家们能够在几年前的数据集上进行分析,以获得新的见解,并在他们的领域推进新的创新。

·自主轿车开发者使用在早期试驾生成的视频和传感器数据,使自动驾驶汽车更加安全高效。

对于这些类型的数据集,因为冷数据变得更有价值或“升温”,该数据的存储方法需要改变。即使存档的数据需要保持用户的访问。

现在有必要行动。在你下一个大订单的磁盘存储之前,现在是停止和考虑其他的替代品。坚持现状是最简单的方法,也是一个导致多余的存储成本和效率低下的问题。

这个解决方案是什么?

为了解决这个问题,我们首先介绍一下可能是一个新的术语:数据工作流。在某些行业中,这是一个共同的术语,但对于许多行业来说,它可能是一个新概念,尽管是一个直观的概念。所有这些非结构化的数据集,这是迄今为止与之相关的一个工作流。它看起来像这样的东西:数据被产生或捕获,摄入到存储系统,并进行存储和处理,以达到一定的结果(通常需要许多用户之间的协作),然后数据归档长期保存和重新使用。这个过程对使用存储系统更加有效,该存储系统从一开始就为特定的数据集的工作流程所定制。

当需要时,工作流存储必须处理高性能摄取。在网络上共享也同样关键,以获得协作的能力,以及降低存储的成本,例如采用磁带,同时保持在网络上的用户和应用程序需要访问的数据。这是最后一块真正能走出来的存档数据的方式,不会破坏其价值和能力。

这个以工作流程为基础的存储方法,与将所有数据保存在闪存或机械磁盘相比,其结果显著降低了成本,并使其他组织可以存储更多的自己的数据。

而且兼顾环保节能

通过使用分层存储,可以将这些数据保存在低成本、低功耗的存储介质中,例如磁带,你实际上是在做一部分有益于环境的事,以应对全球变暖。
本文转自d1net(转载)

相关文章
|
SQL Oracle 关系型数据库
OceanBase数据库常见问题之慢SQL不显示如何解决
OceanBase 是一款由阿里巴巴集团研发的企业级分布式关系型数据库,它具有高可用、高性能、可水平扩展等特点。以下是OceanBase 数据库使用过程中可能遇到的一些常见问题及其解答的汇总,以帮助用户更好地理解和使用这款数据库产品。
请问单位机房自建服务器,如何备案?
事业单位,领导要求自建web服务器,服务器放在单位机房,请问如何备案?如何域名在阿里云购买,如何备案。
|
8月前
|
SQL 人工智能 运维
Quick BI体验反馈与改进建议
本文基于羚羊港平台运维用户视角,反馈Quick BI使用体验及优化建议。主要包括:1)平台入口整合问题,如入口割裂、导航缺失,建议增加显眼按钮与快捷通道;2)用户体系繁琐,提出单点登录与批量导入需求;3)数据连接体验不足,包括Schema分离、SQL编辑器无字段补全等问题;4)可视化美学门槛高、智能问数功能鸡肋,建议升级AI洞察摘要等。作为深度用户,肯定Quick BI在数据加工和美学上的表现,期待持续改进与优化。
|
9月前
|
弹性计算 人工智能 资源调度
DeepSeek大解读系列公开课上新!阿里云专家主讲云上智能算力、Kubernetes容器服务、DeepSeek私有化部署
智猩猩「DeepSeek大解读」系列公开课第三期即将开讲,聚焦阿里云弹性计算助力大模型训练与部署。三位专家将分别讲解智能算力支撑、Kubernetes容器服务在AI场景的应用实践、以及DeepSeek一键部署和多渠道应用集成,分享云计算如何赋能大模型发展。欲观看直播,可关注【智猩猩GenAI视频号】预约。 (239字符)
基于EKF扩展卡尔曼滤波的一阶环形倒立摆控制系统simulink建模与仿真
本课题基于扩展卡尔曼滤波(EKF)对一阶环形倒立摆控制系统进行Simulink建模与仿真,结合现代控制理论与估计理论,提升系统状态实时估计精度,实现更稳健的控制性能。通过MATLAB2022a版本的核心程序与模型,展示了系统的非线性动力学模型实时估计和先进控制策略的应用。EKF通过预测和更新步骤,有效应对倒立摆系统的动态变化,确保系统平衡与控制目标的实现,具有重要的理论研究意义和广泛的应用前景。 ![1.jpeg](图示链接) ![2.jpeg](图示链接) ![3.jpeg](图示链接) 注:图示链接仅为示意,具体图片请参见原资料。
|
SQL 存储 安全
第4章 数据库安全性——4.2 数据库安全性控制
第4章 数据库安全性——4.2 数据库安全性控制
|
监控 小程序 前端开发
小程序全栈开发中的WebSocket实时通信实践
【4月更文挑战第12天】本文探讨了小程序全栈开发中WebSocket实时通信的实践,WebSocket作为实现双向实时通信的协议,其长连接特性和双向通信能力在实时聊天、推送、游戏和监控等场景中发挥关键作用。开发者需注意安全性、性能和兼容性问题,以优化用户体验并确保小程序稳定运行。通过掌握WebSocket,开发者能提升小程序的功能性和用户体验。
365 0
|
机器学习/深度学习 数据可视化 算法
Python利用线性回归、随机森林等对红酒数据进行分析与可视化实战(附源码和数据集 超详细)
Python利用线性回归、随机森林等对红酒数据进行分析与可视化实战(附源码和数据集 超详细)
625 0
|
人工智能 搜索推荐 物联网
如何用AI大模型升级升级产品
众所周知,从去年到今年,AI领域出现井喷版的火热景象,越来越多的基于AI大模型诞生的应用越来越多,功能也越来越强大。就拿传统的搜索引擎企业来讲,也不得不迅速加入到AI大模型开发的队伍中,以求提升自身搜索产品的功能升级。无论是国内还是国外,被chatGPT直接影响到的行业都在打造自己的AI大模型,为的就是跟上技术发展的脚步,使得自身产品能够保持持续的竞争力。
737 1
如何用AI大模型升级升级产品
|
JSON 数据格式
用Three.js搞个炫酷3D字体
三角形飞啊飞~飞啊飞~飞到一起,成了彩色字体!点击进来就看如何用three.js实现炫酷3D字体!!
用Three.js搞个炫酷3D字体