谈谈数据项目中的Data mapping(数据映射)

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 企业数据正变得越来越分散和庞大。与此同时,对企业来说,利用数据并将其转化为可操作的见解,变得比以往任何时候都更加重要。

概述

企业数据正变得越来越分散和庞大。与此同时,对企业来说,利用数据并将其转化为可操作的见解,变得比以往任何时候都更加重要。然而,如今的企业从不同的数据点收集信息,它们可能并不总是使用同一种语言。数据映射对于许多数据处理的成功至关重要。数据映射中的一个错误可能会波及整个组织,导致重复的错误,并最终导致不准确的分析。

几乎每个企业都会在某个时候在系统之间移动数据。不同的系统以不同的方式存储相似的数据。因此,为了移动和合并数据进行分析或其他任务,需要一个数据地图来确保数据准确地到达目的地。对于像数据集成、数据迁移、数据仓库自动化、数据同步、自动数据提取或其他数据管理项目这样的过程,数据映射的质量将决定要分析的数据的质量。数据映射过程用于集成所有不同的数据源并理解它们。

一 什么是数据映射

数据映射是从一个或多个源文件中提取数据字段,并将它们与目标文件中相关的目标字段进行匹配的过程。数据映射还通过提取、转换和将数据加载到目标系统来帮助强化数据质量。任何数据处理(包括ETL)的初始步骤都是数据映射。企业可以使用映射数据产生相关的见解,以提高业务效率。

在数据映射过程中,源数据被定向到目标数据库。目标数据库可以是关系数据库或CSV文档——这取决于用例。在大多数情况下,公司使用数据映射模板来匹配从一个数据库系统到另一个数据库系统的字段。

下面是一个数据映射模板示例,以阐明如何从excel源进行映射。在下图中,Excel源中的“Name”、“Email”和“Phone”字段被映射到Delimited文件中的相关字段,这是我们的目标。

46d9876f6badec75c920ff35b82de2df.jpg

源到目标映射集成任务的复杂性各不相同。复杂程度取决于数据层次结构以及源和目标数据结构之间的差异。无论是内部部署还是云计算,每个业务应用程序都使用元数据来解释构成数据和语义规则的数据字段和属性。这些规则控制数据在应用程序或存储库中的存储方式。目标是确保从源到目的的无缝传输过程,而不丢失任何数据。

例如,Microsoft Dynamics CRM包含由不同对象组成的几个数据集,如Leads、Opportunities和Competitors。每个数据集都有几个字段,如名称、账户所有者、城市、国家、职位头衔等等。应用程序还具有已定义的模式以及属性、枚举和映射规则。因此,如果要将新记录添加到数据对象的模式中,则需要从源字段创建到Microsoft Dynamics CRM帐户的数据映射。

数据映射用于一系列用例和行业,以简化数据流程。例如,在医疗保健行业,源到目标映射通过匹配源和目标之间的数据,帮助实现EHR(电子健康记录)的互操作性。它还帮助医疗保健专业人员共享关键的患者信息,并结合来自各种数据库、数据源和系统(如EHR和EMR)的医疗保健数据。映射的数据将进一步用于其他关键流程,如数据迁移和数据集成。

二 如何理解数据映射

数据映射是将字段从一个数据库匹配到另一个数据库的过程。这是促进数据迁移、数据集成和其他数据管理任务的第一步。

在对数据进行业务分析之前,必须以一种便于决策者访问的方式对数据进行同质化。现在数据来自许多来源,每个来源可以以不同的方式定义类似的数据点。例如,源系统中的state字段可能将Illinois显示为“Illinois”,但目的地可能将其存储为“IL”。

数据映射连接了两个系统或数据模型之间的差异,因此当数据从一个源移动时,它在目的地是准确和可用的。

一段时间以来,数据映射一直是一种常见的业务场景,但随着数据源和数据量的增加,数据映射的过程变得更加复杂,需要自动化工具使其适用于大型数据集。

三 数据映射是数据管理的关键

数据映射是许多数据管理过程的重要组成部分。如果没有正确映射,数据在移动到目的地时可能会损坏。在数据迁移、集成、转换和填充数据仓库中,数据映射的质量是最大限度地利用数据的关键。

数据迁移

数据迁移是将数据作为一次性事件从一个系统移动到另一个系统的过程。一般来说,这些数据不会随时间而改变。迁移之后,目标是迁移数据的新源,而原来的源将被删除。数据映射通过将源字段映射到目标字段来支持迁移过程。

数据集成

数据集成是一个有规律地将数据从一个系统移动到另一个系统的持续过程。集成可以安排,比如按季度或每月进行,也可以由事件触发。数据在源和目标处存储和维护。与数据迁移一样,用于集成的数据映射将源字段与目标字段匹配。

数据转换

数据转换是将数据从源格式转换为目标格式的过程。这可以包括通过更改数据类型、删除空值或重复值、聚合数据、丰富数据或其他转换来清理数据。例如,可以将“Illinois”转换为“IL”以匹配目标格式。这些转换公式是数据图的一部分。在移动数据时,数据映射使用转换公式以正确格式获取数据进行分析。

电子数据交换(EDI)

数据映射通过将文件转换成各种格式(如XML、JSON和Excel),在EDI文件转换中扮演着重要的角色。直观的数据映射工具允许用户从不同的来源提取数据,并利用内置的转换和函数将数据映射到EDI格式,而无需编写任何代码。它有助于执行无缝B2B数据交换。

数据仓库

如果目标是将数据池到一个源中用于分析或其他任务,则通常将其池到数据仓库中。当您运行查询、报告或进行分析时,数据来自仓库。数据仓库中的数据已经迁移、集成和转换。数据映射确保当数据进入仓库时,它以预期的方式到达目的地。

四、实际中的数据映射

映射可能具有不同程度的复杂性,具体取决于数据源的数量、模式、主键和外键。例如,在下面的数据库映射示例中,来自三个不同数据库表(Lead、Lead History和Lead Status)的数据被连接并映射到一个Excel目标。

a164361edb7c5b5826f4323151e9fef7.jpg

数据库映射用于完成一系列的数据集成和转换任务,这取决于企业的数据管理需求和数据转换映射软件的能力。映射业务数据的常见已知用例包括用于预集成的数据库模式映射、来自异类数据存储的数据清理以及来自遗留系统的数据转换。

在开始数据映射过程之前,数据映射团队需要确保他们从所有涉众那里获得所有可用的信息。如果需要单独映射任何敏感信息,应该在启动流程之前通知它们。在大多数情况下,他们添加数据质量检查,以最小化数据泄漏或访问控制破坏的风险。

五 常用数据映射技术

有三种主要的数据映射技术:

手动数据映射:需要IT专业人员手工编码或手动将数据源映射到目标模式。

模式映射:这是一种半自动化的策略。数据映射软件在数据源和目标模式之间建立关系。IT专业人员检查模式映射工具所建立的连接,并作出任何必要的调整。

全自动数据映射:最方便、简单和高效的数据映射技术使用无需代码的拖放数据映射UI。即使是非技术用户,只需点击几下鼠标就可以完成映射任务。

六 数据映射的步骤是什么

步骤1:定义——定义要移动的数据,包括表格、每个表格中的字段,以及移动后字段的格式。对于数据集成,还定义了数据传输的频率。

步骤2:将数据匹配源字段映射到目标字段。

步骤3:转换——如果某个字段需要转换,则编码转换公式或规则。

步骤4:测试——使用一个测试系统和来自源的样本数据,运行传输以查看它是如何工作的,并根据需要做出调整。

步骤5:部署——一旦确定数据转换按照计划工作,就安排迁移或集成上线事件。

步骤6:维护和更新——对于正在进行的数据集成,数据映射是一个活的实体,当添加新的数据源、数据源更改或目标需求更改时,它将需要更新和更改。

七 数据映射工具如何提供帮助

在过去,组织将数据映射记录在纸上,这在当时是足够的。但情况已经变得复杂得多。随着更多的数据、更多的映射和不断的变化,基于纸张的系统无法跟上步伐。它们缺乏透明度,不能跟踪数据模型中不可避免的变化。手工映射还意味着手工编码转换,这既耗时又充满错误。

分析师和架构师的透明度

由于数据质量很重要,数据分析师和架构师需要在数据源和目标处获得精确的、实时的数据视图。数据映射工具提供了映射数据结构的公共视图,以便分析人员和架构师都能看到数据内容、流和转换。

优化复杂格式

由于来自不同来源的数据流如此之多,数据兼容性成为一个潜在的问题。好的数据映射工具通过提供内置的工具来保证复杂格式的准确转换,从而简化了转换过程,节省了时间,减少了人为错误的可能性。

更改数据模型的挑战更少

数据地图不是一劳永逸的事情。数据标准、报告要求和系统的变化意味着地图需要维护。有了基于云的数据映射工具,涉众不再有丢失变更文档的风险。好的数据映射工具允许用户在地图更新时跟踪更改的影响。数据映射工具还允许用户重用映射,因此您不必每次都从头开始。

八 数据映射解决方案的类型

市场上有不同类型的解决方案可以简化数据映射过程。它们可以分为三大类:内部工具

内部映射工具托管在公司的服务器上,并使用本地计算基础设施。许多内部工具都不需要手工编码来创建复杂的映射和自动执行数据处理中的重复任务。

基于云计算的工具

这些工具托管在云上,可以通过网络浏览器访问。基于云的工具还具有自动化功能,可以简化映射过程。

开源工具

开源工具为本地数据映射解决方案提供了一个低成本的替代方案。这些图形数据库映射工具更适合数据量更少、用例更简单的小企业。

九 如何选择正确的数据映射工具

选择一个数据映射软件对于任何数据集成、转换和仓库项目的成功都是至关重要的。这个过程包括识别唯一的业务用例和必须具备的特性。

支持源到目标映射的不同系统:到一系列结构化、非结构化和半结构化数据源的连接,包括数据库、web服务、REST api和平面文件格式(如分隔符和CSV),是所有信息映射工具的基本内容。

图形化、拖放、无代码用户界面:一个无代码的环境,用于创建映射和图形化、拖放用户界面,用于使用内置转换处理数据。

调度和自动化作业的能力:使用时间和事件触发的作业调度编排完整的工作流的能力是工具中的一个有价值的特性。这种自动化减少了手工工作,提高了生产率,节省了时间。

用于实时测试的即时预览功能:像即时数据预览这样的直观功能有助于在设计时防止应用程序映射错误。该功能允许用户在数据处理的任何步骤中查看处理过的和原始数据。

数据转换映射解决命名冲突:同义词驱动的文件读取解决字段名称的差异,业务数据沿袭功能解决命名冲突的挑战。它可以通过在特定项目的同义词词典中定义单词的同义词来实现。

相关文章
|
6月前
|
存储 数据库 索引
面试题ES问题之动态映射的定义如何解决
面试题ES问题之动态映射的定义如何解决
44 1
|
前端开发
前端学习笔记202305学习笔记第二十六天-什么是对象结构 set map之6
前端学习笔记202305学习笔记第二十六天-什么是对象结构 set map之6
66 0
|
前端开发
前端学习笔记202305学习笔记第二十六天-什么是对象结构 set map之7
前端学习笔记202305学习笔记第二十六天-什么是对象结构 set map之7
58 0
ts重点学习95-映射类型
ts重点学习95-映射类型
117 0
ts重点学习95-映射类型
ts重点学习97-映射类型2
ts重点学习97-映射类型2
70 0
ts重点学习97-映射类型2
重构——29以数据类取代记录(Replace Record with Data Class)
以数据类取代记录(Replace Record with Data Class):你需要面对传统编程环境中的记录结构;为该记录创建一个“哑”数据对象
1569 0
|
SQL 开发者
OR-Mapping 设计改进(数据修改改进) | 学习笔记
简介:快速学习 OR-Mapping 设计改进(数据修改改进)
115 0
|
SQL Java 开发者
OR-Mapping 设计改进(数据删除改进) | 学习笔记
简介:快速学习 OR-Mapping 设计改进(数据删除改进)
100 0
|
SQL 开发框架 数据处理
OR-Mapping 设计改进(数据增加改进) | 学习笔记
简介:快速学习 OR-Mapping 设计改进(数据增加改进)
116 0
ts重点学习98-映射类型2笔记
ts重点学习98-映射类型2笔记
104 0

热门文章

最新文章