Dataphin V2.9.7-萃取3.0之ID中心功能简介

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: ID中心主要用于定义实体ID类型以及配置已经开发好的ID映射表(ID映射表的开发目前是人工交付实施,非萃取模块功能)。基于此处定义的ID类型,后续构建行为或者标签时,可以直接选择并指定其在不同的数据来源表中对应的字段,以字段值作为ID值存储,以实现ID数据的规范化聚合。

背景

ID是实体的标识,用来识别某个具体实体,如:通过身份证号能唯一识别个人、通过商品编码能识别具体的商品等等。一个实体可以对应多种ID,如消费者可以对应会员ID、手机号、邮箱。

通常情况下,一个确定的ID值能够唯一识别一个实体。但是某些场景下,由于ID变更等原因,存储的历史记录中,可能会有多个实体对应了同一个ID值,如:手机号可能会更换使用人,同一个手机号对应的消费记录,可能来自于不同的消费者。由此我们产生了“高质量ID——OneID”的概念。

OneID,即实体唯一标识,是基于当前已有的,丰富的实体ID数据,通过HOB-GN算法模型等,计算各系统和域中的多个独立的ID之间的关联关系,识别出核心ID和非核心ID,识别并聚合映像为自然界中的唯一实体,赋予该实体一个唯一的OneID,并最终产出ID映射表。

ID中心功能简介

ID中心主要用于定义实体ID类型以及配置已经开发好的ID映射表(ID映射表的开发目前是人工交付实施,非萃取模块功能)。基于此处定义的ID类型,后续构建行为或者标签时,可以直接选择并指定其在不同的数据来源表中对应的字段,以字段值作为ID值存储,以实现ID数据的规范化聚合。

注意:此处定义的ID英文名将作为后续存储的数据表的字段名,因此将默认存储为小写英文。


权限说明

实体ID的定义相对灵活,开发、项目管理员均可以创建、编辑、删除(有依赖校验)实体ID。OneID的配置会影响全局数据计算,因此仅项目管理员可以配置ID映射表并开启OneID归一化配置。访客和分析师仅支持查看,不支持修改。

功能说明

实体ID

实体ID的定义包括ID名称、ID英文名以及ID所属类目的定义。同时,您可以添加描述信息,说明该ID的含义及使用场景。创建成功后,您可以在“实体ID列表”查看目前已经创建好的ID类型,并可以在创建行为规则时选择。此外,您可以在每个ID的“属性抽屉”中查看该ID的消费信息,包括被哪些行为及行为规则引用、是哪些标签逻辑表的组成字段,以了解该ID的应用程度。

ID映射表及OneID归一化

如果您已经有开发好的ID映射表,可直接配置到萃取模块,并开启OneID归一化的功能,以实现基于OneID聚合行为数据并计算标签值的目的。为了保证调度依赖正确性,您可以自行指定ID映射表对应的调度节点(如果没有配置,将按照选择的项目名.表名匹配查询调度节点)。

配置完成ID映射表之后,您可以选择是否开启“OneID归一化”功能。

  • 若未开启ID归一化,则此处配置的ID映射表不会对标签计算产生影响。
  • 若开始了ID归一化功能:
  • 对于归一化成功的 ID值(ID 映射表能映射到对应的 ID_type和ID_value):将基于实体ID值和OneID值分别进行行为规则及标签值的计算。例:1个userid值和1个mobile值映射到同1个OneID值,则标签结果表会存储三条记录:只基于userid值算出来的结果:{美白:1.0};只基于mobile值算出来的结果:{保湿:1.0};基于OneID值计算出来的结果(汇总userid值和mobile值对应的行为数据):{美白:0.7,保湿0.3}
  • 归一化失败的 ID值,则仅基于实体ID值进行计算,且标签结果表中仅存储实体ID值对应的结果。

注意:ID映射表结构需要满足特定的规范,有oneid、key_type、key_id 3个字段,否则无法配置成功。

相关文章
|
2月前
|
运维 数据处理 调度
Dataphin功能Tips系列(30)-限流配置
某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产出?
|
2月前
Dataphin功能Tips系列(27)-排他编辑锁
在实际开发中,为了避免多人同时编辑同一份代码而导致的问题,通常会采用锁机制来保护代码。然而,普通的锁机制有时并不能完全阻止其他开发人员在编辑时抢占锁,这使得用户可互相覆盖锁定状态,在dataphin中如何解决这一问题?
Dataphin功能Tips系列(27)-排他编辑锁
|
3月前
|
消息中间件 Kafka 搜索推荐
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(31)-自定义资源组
某零售企业最近在做促销活动,希望保证某些数据处理任务(订单处理、库存更新)任务能够快速按时完成,如何保证这些高优任务的调度资源不被其他任务占用,能按时执行?
|
2月前
Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚
开发人员小张先前编写的一个脚本,在进行了修订之后,发现逻辑出现了偏差,但他已经不记得前一版本的具体内容了。在这种情况下,应该怎样通过版本对比来看出两版脚本之间的差别,并且回滚到之前的版本呢?
|
2月前
|
调度 Python
Dataphin功能Tips系列(28)-跨节点参数
某经销零售企业,需要每天定时查询供应商的某个服务,以确认产品目录是否有变更,如果有变更,则全量拉取最新目录数据(数据量比较大,拉取一次成本很高),如果无变更则继续沿用上一次拉取的数据,在dataphin如何实现?
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
7月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin
  • 下一篇
    DataWorks