《信息存储与管理(第二版):数字信息的存储、管理和保护》—— 1.1 信息存储

简介:

本节书摘来异步社区《信息存储与管理(第二版):数字信息的存储、管理和保护》一书中的第1章,第1.1节,作者:【新加坡】G.Somasundaram ,【美】Alok Shrivastava,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 信息存储

信息存储与管理(第二版):数字信息的存储、管理和保护
商家通过分析和处理数据来获得对它们每天操作相关的信息,而存储就是允许用户持续存取数字数据的仓库。

1.1.1 数据

数据就是原始事实的集合,从中可以得出一些结论。手写书信、印刷书籍、家庭照片、已签字的抵押贷款文件、银行账册和机票等都包含了数据。

在计算机发明之前,数据的产生和共享仅限于很少的形式,例如,纸和胶卷。今天,相同的数据可以转换成更多便利的格式,如一个邮件信息、一本电子书、一张数字图像或者一部数字电影。这些数据都可以用计算机生成并存储为0和1的字串,如图1-1所示。这种形式的数据称为数字数据,经过计算机处理之后可以被用户使用。

23a8f71704174b7641b3e74bd02e9db71ce2cde6

随着计算机和通信技术的发展,产生数据和共享数据的速率也呈指数增长。下面是一些促进数字数据增长的因素。

数据处理能力的提升:当今计算机在处理能力和存储能力上有了显著提高。这促成了把不同类型的内容和介质从传统方式转换为数字格式。
数字存储的低成本:技术的进步和存储成本的降低提供了低成本的解决方案,也促进了价格更低廉的存储设备的开发。这种成本的减少提升了数据产生和存储的增长速度。
可负担的和更快的通信技术:共享数字数据比传统方式更加快捷。一封手写的书信也许需要一周才能到达目的地,而一封电子邮件只需几秒钟就能抵达收件人。
无处不在的应用和智能设备:智能手机、平板电脑、新型电子设备和智能应用贡献了大量的数字内容。
目前,创建、收集和存储各种类型的数据变得廉价且更加容易。伴随着个人和商业需求的增长,加速了数据的产生,这种现象被称为数据爆炸。个人和商业机构对“数据爆炸”有不同程度的贡献。

随着时间的推移,数据的重要性和价值都会改变。大部分产生的数据都只在短期内重要,时间一长就不那么重要了。这一特点影响着数据存储解决方案的选择。通常最近产生的且使用率较高的数据存储在高速但成本较高的设备上。过一段时间之后,这些数据可以被转移到速度较慢、成本低但是可靠的设备上。

研究和商业数据实例:

下面是一些研究和商业数据实例。

客户数据:关系到公司客户的数据,如订单信息、发货地址以及购买历史清单。
生产数据:包括产品不同方面的数据,如库存、描述、价格、可用量和销售量。
医疗数据:涉及医疗护理的数据,如病人历史记录、放射图像、药物详细信息以及其他诊断治疗和保险信息。
地震学数据:地震学是研究地震的学科。需要收集数据并处理,以获取信息来判断地震的位置和震级。
商业应用会产生大量的数据,然后从中提取有意义的信息来获得经济利益。因此,商业应用需要维护数据并保证其在较长一段时间内可用。更进一步,不同数据的重要程度不同,需要具体的处理。例如,法律和规章制度要求银行必须保证客户账户信息的准确性和安全性。一些商业应用需要处理上百万客户的数据,并保证它们在很长一段时间内是完整的和安全的,这就需要高性能大容量且具有增强安全性能的存储设备。

1.1.2 数据类型

根据存储和管理方式,可以将数据划分为结构化数据和非结构化数据(如图1-3所示)。结构化数据按行和列这种严格的格式组织,以便用户能够高效地检索和处理。结构化数据通常用数据库管理系统存储。

如果数据无法按行和列进行存储,那么该数据就是非结构化数据。这种数据比较难于被商业应用检索和查询。例如,客户联系信息可能会存储成不同的格式,如便签、邮件信息、商业名片,或者数字格式的文件(DOC文件、TXT文本文件和PDF文件)。由于它的非结构化特征,使用传统的客户关系管理应用来获取非结构化数据比较困难。新创建数据绝大多数都是非结构化数据。如何应用新架构、新技术、新方法和新技能来存储、管理和分析各种来源的非结构化数据,并从中获取价值,是业界面临的挑战。

42f90777496decca9a469ef82633cbdec6c5867a

1.1.3 大数据

大数据是一个新提出的且在不断演化的概念,是指数据量超出了常规软件工具在可接受的时间内的抓取、存储、管理和处理能力。它既包括结构化数据,也包括非结构化数据。其数据的来源多种多样,可以来自商务应用处理、网页、视频、图像和社交媒体等。这些数据集通常需要实时地抓取和更新,以用于分析、预测性建模和决策等用途。

从大数据中吸取价值存在很大的机遇。大数据的生态系统(见图1-3)由以下元素组成:

1.从多个位置收集数据,并从收集的数据中生成数据(元数据)的设备。

2.数据收集器,收集来自设备和用户的数据。

3.数据聚合工具,从收集的数据中吸取有意义的信息。

4.数据用户和买家,是指在数据价值链中从他人收集或聚合的数据中获益的人群。

大数据的数据量、多样性、变化范围和复杂性超出了传统的IT设备和数据处理工具及方法的处理能力。对大数据进行实时分析需要新的方法、架构和工具,以提供高性能、大规模并行处理(MPP)数据平台和对数据集的复杂分析。

数据科学是一门新兴的学科,商业组织可以利用这门学科从大数据中获取商业价值。数据科学是多门学科(统计学、数学、数据可视化和计算机科学)的综合。数据科学家的职责是设计各种高级算法对海量数据进行分析,以寻找新的价值点,为更多的决策提供数据支持。

很多领域和市场已经开始利用数据科学,从大数据的分析中获益。其中包括医学与科学研究、医疗医护、公共管理、欺诈检测、社交媒体、银行、保险公司,以及其他以数字信息为中心的实体。

1.1.4 信息

不管是结构化数据还是非结构化数据,除非其被展现成一种有意义的形式,否则都不能满足任何个人的或是商业的目的。信息就是从数据中提取出来的智慧和知识。

商业应用分析原始数据以找出有意义的趋势。基于这些趋势,公司可以制定和修改其策略。例如,只需通过分析客户的购买模式和维护客户的物品清单,零售商就可以辨认出客户喜欢的样式和品牌的名字。

有效的数据分析不仅给现有的商业应用带来利益,而且通过采用创造性的方式来使用数据还能创造出潜在的、新的商业机会。

1.1.5 存储

由个人和商业应用产生的数据必须存储起来,以便在进一步处理时可以进行访问。在一个计算环境下,用来存储数据的设备称为存储设备(storage device),或简称存储(storage)。存储设备的类型取决于数据类型以及数据创建和使用的频率。像手机或数码相机中的内存、DVD、CD-ROM和个人电脑中的硬盘等都是存储设备的实例。

商业应用中通常使用的几种存储介质,包括内部硬盘、外部磁盘阵列和磁带。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
存储 算法 调度
分页储存管理.分段储存管理.虚拟储存管理
分页储存管理和分段储存管理是操作系统中常用的两种内存管理方式。 1. 分页储存管理: - 基本原理:将物理内存和逻辑内存划分为固定大小的页面和页面框,使得逻辑地址空间和物理地址空间可以对应起来。进程的逻辑地址空间被划分为多个固定大小的页面,每个页面与一个物理内存页面框对应。通过页表将逻辑地址映射到物理地址,实现地址转换。 - 优点:简单、灵活,能够提供较大的逻辑地址空间,适用于多道程序设计和虚拟内存管理。 - 缺点:存在内部碎片,会造成一定的存储空间浪费。 2. 分段储存管理: - 基本原理:将进程的逻辑地址空间划分为若干个逻辑段,每个逻辑段代表一个逻辑单位,如代码
104 0
|
7天前
|
存储 数据安全/隐私保护
平台设计-联系信息的存储
之前说过平台的用户信息是集中存储的
|
11月前
|
数据可视化 数据挖掘
数据信息汇总的7种基本技术总结
数据汇总是一个将原始数据简化为其主要成分或特征的过程,使其更容易理解、可视化和分析。本文介绍总结数据的七种重要方法,有助于理解数据实质的内容。
127 0
|
存储 文件存储 数据中心