今天在群里有朋友讨论元数据和数据字典的问题,元数据是解释数据的数据,数据字典也能解释数据,不都是解释数据的吗,怎们不同呢?接下来咱们就简单的讨论下这个问题,希望读完本文再没有这种困惑。
可以这样理解:
元数据描述了数据。它是“关于数据的数据”。它包含有关如何、何时、由谁收集特定数据以及数据格式的信息。了解存储在数据仓库和基于 xml 的 Web 应用程序中的信息至关重要。数据字典是由数据库的基本定义组成的文件。它包含数据库中可用的文件列表、每个文件中的记录数以及有关字段的信息。数据字典是存储所有信息的存储库。元数据是关于数据的数据。元数据是定义其他数据的数据。因此,数据字典可以是描述有关数据库的一些信息的元数据。下面我们详细了解下元数据和数据字典的主要内容。
关于元数据
元数据是指“关于数据的数据”。虽然“meta”前缀的意思是“之后”或“迟于”,但在认识论中它被用来表示“关于”。元数据被定义为提供关于数据的一个或多个方面的信息的数据;它用来总结关于数据的基本信息,以便更容易地跟踪和处理特定的数据一些例子包括:
•数据的创建方法
•数据的用途
•创建的时间和日期
•数据的创建者或作者
•在计算机网络上创建数据的位置
•标准使用
•文件大小
•数据质量
•数据来源
•用于创建数据的过程
例如,一幅数字图像可能包含描述图像大小、颜色深度、分辨率、创建时间、快门速度和其他数据的元数据文本文档的元数据可能包含以下信息:文档有多长、作者是谁、文档的编写时间以及文档的简短摘要。网页中的元数据也可以包含页面内容的描述,以及链接到内容的关键词这些链接通常被称为“元标签”,直到20世纪90年代末,它一直被用作决定网页搜索顺序的主要因素在20世纪90年代后期,由于“关键词填充”,元标签在网络搜索中的依赖程度有所下降,因此元标签在很大程度上被误用,以欺骗搜索引擎,使其认为一些网站在搜索中具有比实际更大的相关性。
元数据可以存储和管理在一个数据库中,通常称为元数据注册中心或元数据存储库。然而,如果没有上下文和参考点,仅通过观察可能无法识别元数据。例如:就其本身而言,一个包含数个数字的数据库,所有13位数字都可能是计算的结果或插入等式的数字列表——没有任何其他上下文,数字本身可以被视为数据。但是,如果给定这个数据库是一个藏书日志的上下文,那么这些13位数字现在可以被识别为ISBN——指的是书的信息,但本身不是书中的信息。术语“元数据”是由Philip Bagley于1968年在他的《编程语言概念的扩展》一书中创造出来的,很明显,他在ISO 11179的“传统”意义上使用了这个术语,即“结构元数据”。“关于数据容器的数据”;而不是另一种含义“关于数据内容的单个实例的内容”或元内容,通常在图书馆目录中找到的数据类型。从那时起,信息管理、信息科学、信息技术、图书管理和GIS等领域都广泛采用了这个术语。在这些字段中,元数据一词被定义为“关于数据的数据”虽然这是一个被普遍接受的定义,但不同的学科对这个术语采用了各自更具体的解释和用法。
元数据的类型
虽然元数据应用程序是多种多样的,涵盖了各种各样的字段,但是有专门的、被广泛接受的模型来指定元数据的类型。Bretherton和Singley(1994)区分了两个不同的类别:结构/控制元数据和引导元数据结构元数据描述数据库对象的结构,如表、列、键和索引。指南元数据帮助人们找到特定的项目,通常用自然语言表示为一组关键字。根据Ralph Kimball的说法,元数据可以分为3类:技术元数据、业务元数据和操作元数据。
虽然元数据应用程序是多种多样的,涵盖了各种各样的字段,但是有专门的、被广泛接受的模型来指定元数据的类型。Bretherton和Singley(1994)区分了两个不同的类别:结构/控制元数据和引导元数据结构元数据描述数据库对象的结构,如表、列、键和索引。指南元数据帮助人们找到特定的项目,通常用自然语言表示为一组关键字。根据Ralph Kimball的说法,元数据可以分为3类:技术元数据(或内部元数据)、业务元数据(或外部元数据)和流程元数据。
NISO区分了3种类型的元数据:描述性的、结构化的和管理性的。描述性元数据通常用于发现和识别,作为搜索和定位对象的信息,如标题、作者、主题、关键字和出版商。结构元数据描述对象的组件是如何组织的。结构化元数据的一个例子是如何对页面进行排序以形成一本书的章节。最后,管理元数据提供帮助管理源的信息。管理元数据指的是技术信息,比如文件类型,或者文件创建的时间和方式。管理元数据的两个子类型是权限管理元数据和保存元数据。权限管理元数据解释知识产权,保存元数据包含保存和保存资源的信息。
统计数据存储库对元数据有自己的要求,以便不仅描述数据的来源和质量,而且还描述用于创建数据的统计过程,这对统计界来说特别重要,以便验证和改进统计数据生产过程。
另一种开始得到开发的元数据类型是可访问性元数据。可访问性元数据对图书馆来说并不是一个新概念;然而,通用设计的进步提高了它的知名度。像Cloud4All和GPII这样的项目发现,缺乏通用术语和模型来描述用户的需求和偏好,以及满足这些需求的信息,这是提供通用访问解决方案的主要差距。这些类型的信息是可访问性元数据。
元数据的示例
图像中的元数据
描述用的元数据
Web中的元数据
Emai中的元数据
文档中的元数据
数据库中的元数据
以上都是元数据的例子。我希望您已经很好地理解了什么是元数据。
关于数据字典
数据字典是数据库的组成部分,它保存有关数据库的信息以及它存储的称为元数据的数据,以便我们可以管理数据。也可以说数据字典是元数据的来源之一。数据字典不包含数据库实际数据的信息。如果没有数据字典,数据库管理系统就无法访问数据库中的数据。数据库管理员处理数据字典,用户不与它交互。
数据字典包含以下信息:
•它包含数据库中存在的所有表和模式的名称。
•它包含有关数据库中存在的表的详细信息,例如创建表的时间、有关表的所有者信息等。
•它包含有关表的约束信息,如主键属性。
•它还包含有关数据库视图的信息。
•它还包含表格的物理信息,例如关于它们的存储、关于它们的更改等。
数据字典用于实际控制数据库操作、数据完整性和准确性。开发人员使用元数据来开发程序、查询、控制和程序来管理和操作数据。元数据作为在线系统文档可供数据库管理员(DBA)、设计人员和授权用户使用。这提高了数据库管理员(DBA)对信息系统的控制以及用户对系统的理解和使用。
数据字典的类型
数据字典有两种类型:主动和被动。
数据字典可以是主动的也可以是被动的。主动数据字典(也称为集成数据字典)由数据库管理软件自动管理。与数据库的当前结构和定义一致。大多数关系数据库管理系统都包含可以从其系统目录派生的活动数据字典。
当数据库管理系统对数据库进行任何更改时,数据字典也会更新。它被称为主动数据字典。也可以说,如果数据库的结构或任何其他内容发生更改,那么该数据库的数据字典也会发生更改。这是数据库管理系统的任务。
被动数据字典(也称为非集成数据字典)是仅用于文档目的的一种。数据处理环境中有关字段、文件、人员等的数据。输入字典并交叉引用。被动字典只是一个独立的应用程序或表单。它由系统的用户管理,并在数据库结构发生变化时进行修改。由于此修改必须由用户手动执行,因此数据字典可能不会与数据库的当前结构保持同步。然而,被动数据字典可以作为单独的数据库来维护。因此,它允许开发人员保持独立于使用特定的关系数据库管理系统。它可以扩展为包含有关未计算机化的组织数据的信息。
在被动数据字典中,字典的内容不会自动更新,每次更改都是由数据库管理系统在数据库中进行的。因此,我们必须不时手动更新它。它与数据库分开维护。被动数据字典的处理不像主动数据字典那么容易。我们必须小心维护它,以便数据字典和数据库之间的同步不会中断。
数据字典的重要性
由于以下原因,数据字典在DBMS中必不可少:
•数据字典提供数据元素的名称、它的描述和可以在其中找到它的数据结构。
•数据字典在生成有关数据元素在所有提及它的程序中的使用位置的报告方面提供了极大的帮助。
•给定描述名称的关键字,也可以搜索数据名称。例如,您可能想要确定代表净工资的变量的名称。输入关键字将生成可能的标识符及其定义的列表。使用关键字可以搜索字典以找到在程序中使用的正确标识符。
如今,商业数据字典包可用于方便输入、编辑和使用数据元素。
数据字典的功能
其功能如下:
•它定义了数据库中每个用户的数据对象。众所周知,我们无法记住所有的表、视图、约束等,因此用户可以在任何数据定义语言(DDL)触发时轻松搜索它们,然后数据库搜索数据字典。DBMS软件更新对象。
•它为我们提供了有关对象正在使用的数据和资源的报告。
•它允许那些有权访问数据库的用户查看表和视图。因此,它控制数据库的访问。
数据字典的优点
•使用数据字典,以便我们可以删除数据定义中的重复项。
•因为它提供了文档。因此,它对任何组织都是有价值的参考。
•帮助分析人员简化结构,使其满足系统数据的要求。
•它有助于改善用户和系统分析师之间的沟通。
•最大的数据库管理系统包含数据字典作为标准功能。
•通过这个,新的数据库管理员可以很容易地了解系统的数据库。
•数据库管理员可以轻松跟踪数据库中的任何问题。
数据字典示例
数据库中的数据表
数据库中的数据表
Customer_Age 列的数据字典
元数据和数据字典的关系
元数据本质上是关于数据的信息。元数据包含有关何时收集数据、如何收集以及由谁收集的信息。这有助于增强商业智能,并使团队更好地了解他们公司拥有的数据。通过自动化的元数据管理,BI和分析团队可以立即定位相关数据,识别数据的起源点,并创建合理的见解。通过创建有关数据的数据,团队还可以设置流程和策略,以确保可以轻松访问、共享、链接、集成和分析信息。这可确保数据对公司的所有成员都是相关且准确的。
元数据有助于填充数据字典。在数据字典中,BI团队可以上传他们已经从不同数据库或描述中保存的任何数据元素。它是一个包含数据库基本定义的文件。数据字典是BI专业人员用来组织所有元数据的主要工具。与公司数据仓库(DWH)中存在的数据有关的所有信息都存储在数据字典中。数据字典供技术团队使用,是引用不同数据属性的主要场所,包括约束、数据类型、默认值、长度、转换规则和业务定义。通过建立整个公司都能理解的连贯定义,所有团队都可以在同一层面上。这有助于保持数据的有效性并实现组织内的一致性。