Dataphin V2.9.7-萃取3.0之ID中心功能简介

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: ID中心主要用于定义实体ID类型以及配置已经开发好的ID映射表(ID映射表的开发目前是人工交付实施,非萃取模块功能)。基于此处定义的ID类型,后续构建行为或者标签时,可以直接选择并指定其在不同的数据来源表中对应的字段,以字段值作为ID值存储,以实现ID数据的规范化聚合。

背景

ID是实体的标识,用来识别某个具体实体,如:通过身份证号能唯一识别个人、通过商品编码能识别具体的商品等等。一个实体可以对应多种ID,如消费者可以对应会员ID、手机号、邮箱。

通常情况下,一个确定的ID值能够唯一识别一个实体。但是某些场景下,由于ID变更等原因,存储的历史记录中,可能会有多个实体对应了同一个ID值,如:手机号可能会更换使用人,同一个手机号对应的消费记录,可能来自于不同的消费者。由此我们产生了“高质量ID——OneID”的概念。

OneID,即实体唯一标识,是基于当前已有的,丰富的实体ID数据,通过HOB-GN算法模型等,计算各系统和域中的多个独立的ID之间的关联关系,识别出核心ID和非核心ID,识别并聚合映像为自然界中的唯一实体,赋予该实体一个唯一的OneID,并最终产出ID映射表。

ID中心功能简介

ID中心主要用于定义实体ID类型以及配置已经开发好的ID映射表(ID映射表的开发目前是人工交付实施,非萃取模块功能)。基于此处定义的ID类型,后续构建行为或者标签时,可以直接选择并指定其在不同的数据来源表中对应的字段,以字段值作为ID值存储,以实现ID数据的规范化聚合。

注意:此处定义的ID英文名将作为后续存储的数据表的字段名,因此将默认存储为小写英文。


权限说明

实体ID的定义相对灵活,开发、项目管理员均可以创建、编辑、删除(有依赖校验)实体ID。OneID的配置会影响全局数据计算,因此仅项目管理员可以配置ID映射表并开启OneID归一化配置。访客和分析师仅支持查看,不支持修改。

功能说明

实体ID

实体ID的定义包括ID名称、ID英文名以及ID所属类目的定义。同时,您可以添加描述信息,说明该ID的含义及使用场景。创建成功后,您可以在“实体ID列表”查看目前已经创建好的ID类型,并可以在创建行为规则时选择。此外,您可以在每个ID的“属性抽屉”中查看该ID的消费信息,包括被哪些行为及行为规则引用、是哪些标签逻辑表的组成字段,以了解该ID的应用程度。

ID映射表及OneID归一化

如果您已经有开发好的ID映射表,可直接配置到萃取模块,并开启OneID归一化的功能,以实现基于OneID聚合行为数据并计算标签值的目的。为了保证调度依赖正确性,您可以自行指定ID映射表对应的调度节点(如果没有配置,将按照选择的项目名.表名匹配查询调度节点)。

配置完成ID映射表之后,您可以选择是否开启“OneID归一化”功能。

  • 若未开启ID归一化,则此处配置的ID映射表不会对标签计算产生影响。
  • 若开始了ID归一化功能:
  • 对于归一化成功的 ID值(ID 映射表能映射到对应的 ID_type和ID_value):将基于实体ID值和OneID值分别进行行为规则及标签值的计算。例:1个userid值和1个mobile值映射到同1个OneID值,则标签结果表会存储三条记录:只基于userid值算出来的结果:{美白:1.0};只基于mobile值算出来的结果:{保湿:1.0};基于OneID值计算出来的结果(汇总userid值和mobile值对应的行为数据):{美白:0.7,保湿0.3}
  • 归一化失败的 ID值,则仅基于实体ID值进行计算,且标签结果表中仅存储实体ID值对应的结果。

注意:ID映射表结构需要满足特定的规范,有oneid、key_type、key_id 3个字段,否则无法配置成功。

相关文章
|
1月前
|
安全 Shell Python
Dataphin功能Tips系列(9)-Dataphin中安全的使用账号密码(2)
在Dataphin中, 经常遇到需要连接外部服务来实现一些特定的功能, 如连接外部FTP检测FTP服务的连通性. 实现此类功能, 一般是使用shell或者Python代码任务. 由于外部服务大多都有访问鉴权, 就需要在shell/Python代码中向服务端发送账号密码(密钥),如何在shell或者Python任务中安全的使用账号密码?
|
1月前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
|
1月前
Dataphin功能Tips系列(7)-维表版本策略
在创建普通维度逻辑表和事实逻辑表关联维度时,如何配置维表版本策略?
116 2
|
1月前
|
安全 Shell Python
Dataphin功能Tips系列(8)-Dataphin中安全的使用账号密码(1)
在Dataphin中, 经常遇到需要连接外部服务来实现一些特定的功能, 如连接外部FTP检测FTP服务的连通性. 实现此类功能, 一般是使用shell或者Python代码任务. 由于外部服务大多都有访问鉴权, 就需要在shell/Python代码中向服务端发送账号密码(密钥),如何在shell或者Python任务中安全的使用账号密码?
122 1
|
1月前
Dataphin功能Tips系列(10)-质量分计算口径
质量分大盘中的质量分计算口径是什么?
|
1月前
Dataphin功能Tips系列(5)-手工表上传及长期维护
有些业务数据是手工excel维护的,这时我们要如何将数据上传至dataphin并进行维护?
|
1月前
|
调度 安全
“Dataphin功能tips”系列
hello,大家好: 为了更好地引导广大用户深入探索和高效利用Dataphin全方位的数据智能能力,我们特别推出“Dataphin功能小Tips”系列,旨在通过生动直观的场景描述与对应的功能应用方案,以简洁明快的语言呈现,力求让每一位用户都能轻松解锁Dataphin中的每一个实用功能点。 这一系列内容专为提升您的使用体验而设计,期待能为大家解决实际问题、优化数据管理工作带来切实的帮助,在此,我们也诚挚邀请所有用户积极参与互动,随时分享您宝贵的使用心得与建议。您的反馈将是我们不断迭代优化的重要动力!
122 3
|
1月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
1月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
1月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

相关产品

  • 智能数据建设与治理 Dataphin