当前,数据成为了一个广为人知的词,以至于我们中的许多人可能从未想过它的确切定义。关于数据,我们首先想到的很可能是包含数字和标签的文档、表格或图表。当每个人都在谈论大数据时,它变得更加抽象,因为大量字节在设备和服务器中流动,需要程序来破译它们。虽然数据可以被机器理解,但当它存储在文件或表格中时,它对人类来说已经失去了大部分意义。我们依靠其他人、文档、数据架构和数据流来恢复一段数据与现实世界相关的完整感觉。我们常把数据比作石油或土地,等待人们去发现和实现它的价值。然而,随着数据的收集和处理,最有用的上下文信息经常丢失,使其更难被发现和进一步利用。本文将讨论这个问题,以及为什么我们需要数据管理、数据素养和数据分析来为每个组织解决这个问题。
我们先看看数据在字典中是如何定义的。韦氏词典从 3 个方面定义了数据:
1.用作推理、讨论或计算基础的事实信息(如测量或统计数据)
2.可以传输或处理的数字形式的信息
3.传感设备或器官输出的信息,包括有用的和不相关的或冗余的信息,必须经过处理才能有意义。
它表明有关数据的一切都与信息相关。下面是信息在同一字典中的定义方式:1.a从调查、研究或指导中获得的知识
1.b事物的两个或多个可选序列或安排之一所固有的属性
1.c.1表示数据的信号或字符(如在通信系统或计算机中)
1.c.2. 证明代表身体或心理经验或其他结构的结构(如笔或理论)发生变化的事物(如消息、实验数据或图片)
1.d信息内容的定量测量
2.知识或情报的交流或接受。
通过比较这两个定义,我们可以得出信息比数据更有用。在研究和分析数据后,通过通信创建和使用信息。相反,需要先收集数据来代表一组事实,然后再进行处理以提供有意义的信息。最后,只有当信息提供洞察力、知识和价值时,信息才会以各种方式存储和显示在数据中。
话虽如此,数据并不总是等同于信息,而是应该存在于信息之前。牛津英语词典对数据的定义要好得多:
收集在一起的事实和统计数据以供参考或分析
1)由计算机进行运算,以电信号形式存储和传输,并记录在磁、光或机械记录介质上的量、字符或符号。
2) 已知或假定为事实的事物,作为推理或计算的基础。
另一方面,牛津英语词典中信息的定义与韦氏词典的定义非常接近。
数据在计算机出现之前就已经存在。例如,当科学家们观察世界时,首先用深思熟虑的方法收集数据,然后在对数据进行全面分析后从中得出结论。从一开始,数据对于科学家进行客观观察至关重要,收集数据的目的是得出无偏见的信息,因此得出结论。与此同时,关于如何收集、分析、采样和计算数据的详细信息,在最终发表的研究论文中进行介绍。换句话说,研究论文本身对数据进行了详尽的解释,这对于阅读该文章的任何人来说都是有意义且易于理解的。在这里,关于数据的数据就是我们今天所说的元数据,而阅读、理解、创建和交流数据的能力就是数据素养。
根据定义,数据本身应该反映现实世界中的一个或一组事实,这是其最重要的特征。数据可以通过不同的方式收集并以各种格式存储,最佳方式取决于实用性和效率。一个事实可能有很多属性。收集所有细节需要更多的资源和时间,而最终证明一个子集可能还不够。效率还取决于数据格式和结构。将数据以量化的方式转化为数字形式需要最少的存储量并实现快速数据处理。
另一方面,信息是关于可以从数据中获取和利用的内容。它更抽象,需要仔细设计和编程来检索数据利益相关者所需的内容。想象一下数据在企业中的流动,经过转换和整理的数据最终成为实现数据价值的信息,而原始数据最初不是。当数据变成信息时,它的预期价值就实现了。如果要从数据中寻找更多价值,我们需要回到数据源。然而,通常通过多个系统的数据管道往往会使数据远离其初始位置并模糊初始数据收集细节。因此,它使数据更难被企业理解,并为快速有效地利用数据设置了障碍。
由于当今技术的复杂性,没有一个人可以完成数据的所有方面,包括收集、分析、创建、结论和通信。IT 通过专注于数据处理和管理而成为信息生产者,同时依靠业务提供需求。相比之下,公司通常没有所有的文档和元数据来首先理解数据。此外,当交付一段精炼的数据时,数据视图可能已经孤立,其潜在价值可能已被埋没,无法进一步发现。
为了充分发挥数据的潜力,我们需要在以下四个重点领域建立数据管理、数据分析和数据素养:
1. 以有意义的方式描述数据
存储在数据库表中的数据是它打算表示的内容的抽象和技术表示。收集的任何数据的文档都是重要信息,并且是组织首先接受和存储数据所必须具备的。应使用业务语言描述数据,例如属性、相关事件、值的映射、示例值、业务规则等。应建立企业业务词汇表,以确保每个业务术语或首字母缩略词具有一致的定义组织。数据元素的适当分类和分类可以进一步增强数据描述。换句话说,数据应该用一种任何人都能理解并与其所代表的内容相关联的通用语言来描述。
2. 用上下文和数据流描述数据
当数据跨系统传输时,它们会迅速成为独立的实体。数据架构应该是将数据置于业务环境中的第一级文档。 接下来,应该记录所有数据的上下文信息,包括用例、数据来源、数据收集方法、数据转换规则、相关参考等。任何数据都有其来源。所有数据都应根据用例或目的(例如,清理、标准化)创建或整理。文档应该与数据一起出现,因为在代码、程序和包的开发生命周期中得到提升。换句话说,数据不是静态的,而是流动的。在与其他数据相关的数据流的上下文中描述数据对于完整和准确的理解至关重要。
3. 建立规范的数据管理以系统、一致地管理元数据
对于拥有成百上千个数据集的组织,它需要数据目录和数据治理来有效地管理和集中数据定义。Data Catalog 捕获并存储所有数据资产的元数据、描述、数据分类和分类。数据治理是强制执行数据定义过程。数据目录和数据治理的成熟度与数据组织的效率直接相关,从而使数据得到很好的理解、信任和利用。缺乏它会导致资源浪费,因为混乱、将花费过多时间来获取信息、数据重复、数据中不必要的错误以及业务用户处理的数据黑匣子。此外,随着组织在数据治理方面的成熟,通过直接使用 Data Catalog 来记录数据应该成为每个处理或使用数据的人的习惯,最终将形成良性的数据应用生态,因为提供给他们的是透明的、受信任的数据
.4. 数据科学家和数据分析专业人员将数据与业务联系起来
数据科学家和数据分析专业人员(例如,产品经理、数据分析师)近年来广受欢迎,他们在解决业务问题的整个解决方案过程中从最初的来源了解数据。他们的职责类似于科学家所做的,设计实验、收集数据、进行数据分析并得出结论。话虽如此,科学家们首先有了假设,并据此开发了数据收集方法。由于收集数据的 IT 和使用数据的业务部门之间的分离,在商业世界中这并不容易。有时可能会无目的地收集数据,或者数据可能存在于某个地方而没有被理解或使用。数据科学家、产品经理和数据分析师通过记录数据、支持数据架构、利用数据目录、支持数据治理以及最终使企业能够发现和实现数据化的潜在价值来发挥弥合差距的作用 .
小结
数据的概念并不新鲜。收集和利用数据的第一个例子可以追溯到公元前 19,000 年。数据成为拉丁语中的正式词可以追溯到 1600 年代,当时分析、发现和从数据中得出结论成为许多社会学科的普遍做法。随着技术的蓬勃发展和对不断增长的数据量的不断征服,数据往往在“翻译”中失去了意义。数据管理、数据治理和数据分析对于以通用语言理解和交流数据以推动其业务价值至关重要。同时成就的恰恰是数据素养。Gartner 对数据素养的定义是:在上下文中读取、写入和交流数据的能力,包括对数据源和结构的理解、分析方法和应用的技术以及描述用例、应用程序和结果价值的能力。