智能推荐映射关系,加速数据标准落地进程

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在V4.0版本中,Dataphin推出了智能推荐映射关系功能,用户可以基于内置特征或创建自定义特征,对数据内容进行表示,并将其与数据标准关联,进而智能映射映射关系,尤其在字段分布广泛和命名多变的情况下,可以提高映射的准确性和效率,加速了数据标准实施。

背景

数据标准和资产对象映射配置 这篇文章中,我们讲述了几种配置映射关系的方式,但是这几种方式的使用有以下几个前提:

  • 已知字段和数据标准的映射关系:可以使用批量导入或者在研发阶段手动关联的方式创建
  • 字段命中相对规范统一:可以使用落标映射规则进行配置


但是实际应用场景中,由于字段命名各异、所属表分散等问题,难以抽象出通用的映射规则,人工梳理映射关系并导入的效率低且成本高。由此,在 V4.0 版本中,我们推出了基于“识别特征”智能推荐映射关系的功能,系统能够根据数据内容自动识别并推荐关联的数据标准自动生成映射关系,可以大大降低标准映射配置的成本,加速数据标准落地进程。


功能概览

1. 识别特征管理

什么是识别特征?特征可以是原始数据的直接表示,或是从数据中派生出来的一个新的属性,用来描述数据的某个方面,能够帮助我们比较精准的识别一个具体的人或事物。数据的识别特征,通常会基于数据内容、对象的元数据属性,结合正则表达式、包含、不包含等运算条件进行表达,并且根据业务含义、数据使用场景的不同有所差异。比如,我们可以认为:11位数字,并且以150、133等一些特定数字开头的字段是中国大陆手机号码。简单来说,识别特征可以帮我们更好的理解数据内容、识别数据含义。

之前的版本中,Dataphin 数据安全模块支持通过识别特征定义智能推荐数据分类分级打标结果。V4.0 版本中,我们又进一步扩大的识别特征的应用范围,可以将识别特征和数据标准进行关联,进而智能推荐数据标准和字段之间的映射关系。 Dataphin 内置多种常用的识别特征(如身份证号、手机号等),开箱即用,也支持结合实际业务灵活新建自定义识别特征。下面,我们以“会员邮箱”标准为例讲解识别特征的应用。


2. 识别特征关联数据标准,智能推荐映射关系

首先,标准管理员创建了一个叫“会员邮箱”的标准,通过查看识别特征列表发现,系统内置的“电子邮件地址”特征对数据内容的表达符合预期,于是在“会员邮箱”标准的“智能映射配置”部分关联了系统内置的“电子邮件地址”特征。

关联后,在创建落标映射规则时,可以将“映射方式”设置为“按识别特征智能映射”,那么规则运行时,就会对圈选出来的字段内容进行采集,并结合特征表达式计算字段和圈选出来的标准已关联的识别特征是否匹配,进而生成字段和标准的映射关系。

image.png


由此一来,即使“邮箱”字段的命名分布在不同项目不同表、字段名称各异,我们也能通过识别特征对数据内容进行理解,智能推荐“会员邮箱”标准合适的映射关系。


结语

通过识别特征对资产对象的数据内容特征进行定义,并指定识别特征对应的数据标准,从而智能化地推荐标准与资产之间的映射关系,不仅可以提升资产对象和数据标准之间映射关系的配置效率、减少人工梳理的精力投入,也能提高映射关系创建的效率和准确度,助力数据建设标准化和整体资产质量的提升。

相关文章
|
1月前
|
SQL 关系型数据库 MySQL
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
46 1
|
5月前
|
Python
在Python中,`multiprocessing`模块提供了一种在多个进程之间共享数据和同步的机制。
在Python中,`multiprocessing`模块提供了一种在多个进程之间共享数据和同步的机制。
后端登录接口使用postman,无法接收返回数据,怎样解决,认真比较与原项目的代码,看看有没有写的不一样的,问题就能解决,不要多少写,根据postman的提示先找到错误的进程,看错误进程出现在那个进程
后端登录接口使用postman,无法接收返回数据,怎样解决,认真比较与原项目的代码,看看有没有写的不一样的,问题就能解决,不要多少写,根据postman的提示先找到错误的进程,看错误进程出现在那个进程
|
7月前
|
存储 缓存 Linux
xenomai内核解析--xenomai与普通linux进程之间通讯XDDP(三)--实时与非实时数据交互
本文介绍了Xenomai中的XDDP(Xenomai Distributed Data Protocol)通信机制,XDDP用于实时和非实时进程之间的数据交换。XDDP在Xenomai内核中涉及的数据结构和管理方式,以及创建XDDP通道后的实时端和非实时端连接过程。
322 0
xenomai内核解析--xenomai与普通linux进程之间通讯XDDP(三)--实时与非实时数据交互
|
7月前
|
负载均衡 网络协议 中间件
掌握 SOME/IP :访问进程数据 构建高效通信系统的关键技术
掌握 SOME/IP :访问进程数据 构建高效通信系统的关键技术
364 2
|
消息中间件 大数据 Linux
Linux进程间通信:实现协作与数据交换的多种方式
多任务并发执行是一种常见的应用场景。在Linux操作系统中,进程间通信(Inter-Process Communication,IPC)是实现多任务协作与数据交换的关键技术。本文将介绍Linux中常用的IPC方式,包括管道、消息队列、共享内存和套接字。
382 0
|
机器学习/深度学习 数据处理 Python
Python应用专题 | 5:Python多进程处理数据
本文介绍如何使用多进程的方式高效处理海量任务数据
|
机器学习/深度学习 存储 人工智能
|
存储 缓存 监控
腾讯三面:进程写文件过程中,进程崩溃了,文件数据会丢吗?
腾讯三面:进程写文件过程中,进程崩溃了,文件数据会丢吗?
192 0
腾讯三面:进程写文件过程中,进程崩溃了,文件数据会丢吗?
|
分布式计算 资源调度 Java
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操