背景
在 数据标准和资产对象映射配置 这篇文章中,我们讲述了几种配置映射关系的方式,但是这几种方式的使用有以下几个前提:
- 已知字段和数据标准的映射关系:可以使用批量导入或者在研发阶段手动关联的方式创建
- 字段命中相对规范统一:可以使用落标映射规则进行配置
但是实际应用场景中,由于字段命名各异、所属表分散等问题,难以抽象出通用的映射规则,人工梳理映射关系并导入的效率低且成本高。由此,在 V4.0 版本中,我们推出了基于“识别特征”智能推荐映射关系的功能,系统能够根据数据内容自动识别并推荐关联的数据标准自动生成映射关系,可以大大降低标准映射配置的成本,加速数据标准落地进程。
功能概览
1. 识别特征管理
什么是识别特征?特征可以是原始数据的直接表示,或是从数据中派生出来的一个新的属性,用来描述数据的某个方面,能够帮助我们比较精准的识别一个具体的人或事物。数据的识别特征,通常会基于数据内容、对象的元数据属性,结合正则表达式、包含、不包含等运算条件进行表达,并且根据业务含义、数据使用场景的不同有所差异。比如,我们可以认为:11位数字,并且以150、133等一些特定数字开头的字段是中国大陆手机号码。简单来说,识别特征可以帮我们更好的理解数据内容、识别数据含义。
之前的版本中,Dataphin 数据安全模块支持通过识别特征定义智能推荐数据分类分级打标结果。V4.0 版本中,我们又进一步扩大的识别特征的应用范围,可以将识别特征和数据标准进行关联,进而智能推荐数据标准和字段之间的映射关系。 Dataphin 内置多种常用的识别特征(如身份证号、手机号等),开箱即用,也支持结合实际业务灵活新建自定义识别特征。下面,我们以“会员邮箱”标准为例讲解识别特征的应用。
2. 识别特征关联数据标准,智能推荐映射关系
首先,标准管理员创建了一个叫“会员邮箱”的标准,通过查看识别特征列表发现,系统内置的“电子邮件地址”特征对数据内容的表达符合预期,于是在“会员邮箱”标准的“智能映射配置”部分关联了系统内置的“电子邮件地址”特征。
关联后,在创建落标映射规则时,可以将“映射方式”设置为“按识别特征智能映射”,那么规则运行时,就会对圈选出来的字段内容进行采集,并结合特征表达式计算字段和圈选出来的标准已关联的识别特征是否匹配,进而生成字段和标准的映射关系。
由此一来,即使“邮箱”字段的命名分布在不同项目不同表、字段名称各异,我们也能通过识别特征对数据内容进行理解,智能推荐“会员邮箱”标准合适的映射关系。
结语
通过识别特征对资产对象的数据内容特征进行定义,并指定识别特征对应的数据标准,从而智能化地推荐标准与资产之间的映射关系,不仅可以提升资产对象和数据标准之间映射关系的配置效率、减少人工梳理的精力投入,也能提高映射关系创建的效率和准确度,助力数据建设标准化和整体资产质量的提升。