Dataphin V2.9.7-萃取3.0之行为中心功能简介

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 行为中心由行为元素、行为规则、行为看板组成。部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素和行为规则的概念。

简介

行为中心由行为元素、行为规则、行为看板组成。

部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素行为规则的概念。

【行为与行为元素】

行为元素提供行为数据的标准化定义与归类,分为动作如浏览、收藏、售卖)、对象如商品、影片、广告)、对象属性用于描述对象,如商品价格、商品类目)。结合在平台管理部分定义好的行为域和业务线,我们可以基于业务场景按照行为域-业务线-动作-对象的样式组合出行为如:电商-淘宝-购买-商品、内容平台-抖音-观看-直播

【行为规则】

行为规则是在行为的基础上,进一步配置每个行为对应的来源表及数据抽取规则,以实现行为数据的规范化结构化聚合。行为规则由行为+来源表唯一确定,定义了行为相关字段(ID类型、对象标识、对象属性、行为属性等)与来源表字段之间的映射关系,如member_id类型对应了来源表的user_id字段、商品ID对应来源表的product_id字段。

这样,用户在进行标签配置的时候,无需关心表和字段,只需要关心业务含义,选择具体的行为,Dataphin将基于行为规则的定义自动圈选对应的数据,即可实现标签的开发。

【行为看板】

行为看板以树的形式,按照数据量大小及关联关系展示行为数据,并支持抽样查看某个业务日期下的明细数据,帮助开发者更直观地了解当前行为概况。

操作演示

待补充视频

权限说明

  • 行为元素&行为规则:所有开发者及管理员均可见可操作(包括新建、编辑、删除)
  • 行为元素&行为规则列表:所有角色均能查看列表信息及属性抽屉,但操作列的操作按钮是否可点击受角色限制(参见上一条)
  • 行为看板:所有角色均可查看

功能说明

行为元素

行为元素管理功能提供行为数据的标准化定义与归类。行为元素分为动作、对象、对象属性,同时您可以基于行为域和业务线(平台管理部分)对行为元素进行归类管理。

  • 动作:行为主体发出的操作,如购买、浏览。
  • 对象:行为主体操作的具体事物,如商品、电影。
  • 对象属性:对象的描述性信息,如名称、品牌、年份

行为元素的定义包括名称、英文名,同时您可以添加描述信息,说明该元素的含义及使用场景。创建成功后,您可以在“行为元素列表”查看目前已经创建好的行为元素,并可以在创建行为规则时选择。此外,您可以在每个行为元素的“属性抽屉”中查看该行为元素被哪些行为及行为规则引用,以更好地了解其应用程度及行为数据之间的关联性。

行为规则

行为规则由行为+来源表唯一确定。同一条行为,可能对应多张来源表(如会员线下消费行为,每个门店都有独立的消费记录行为表,需要结合起来才能完整刻画每个会员的消费行为),在每张来源表中的数据抽取规则也可能不相同(取决于来源表的结构及定义差异)。我们用“行为规则”来定义每个行为在每张来源表中的数据抽取规则。

行为规则的定义包括基本信息配置、规则配置、调度及物理化信息配置。其中基本信息部分,我们需要指定该行为规则从属的行为(行为域-业务线-动作-对象)并选取对应的来源表。当前支持选择全局生产环境的物理表或逻辑表作为来源表,并且可以灵活配置数据筛选条件。如果您已经使用Dataphin的规范建模功能,此处建议您选择事实逻辑表,可以引用事实逻辑表及其关联维表的字段进行行为规则的配置,减少重复开发,并保证业务上和数据上的一致性。

规则的配置包括行为主体(即ID)配置、对象及对象属性配置、行为属性配置和系统字段(分区字段)配置。

  • 行为主体:定义ID类型及其在来源表中对应的字段,确定标签描述的实体范围。此处选择的实体ID将作为下游偏好/统计标签的主键。
  • ID_type:代表实体标识的类型,可选范围即在ID中心配置好的实体ID类型。
  • ID_value:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如“会员线下消费”行为,以“会员ID”作为每个会员的身份标识,此处可以选择 ID类型 为“会员ID”(需要提前在 ID中心-实体ID 部分定义),ID值为“member_id”字段,代表该行为规则的ID取值于来源表中的“member_id”字段。
  • 请注意,某些场景下,可能无法保证ID字段一定有值。如来自微信小程序的数据,默认以手机号作为主ID,若无法获取手机号,则以openID进行匹配,这时就需要用到手机号和openID两种ID类型。行为规则支持配置多个ID,但是会优先取第一个值不为空的ID进行存储,因此本例中,此处可以先配置手机号、再配置openID。
  • 对象:定义对象标识的类型及其在来源表中对应的字段。此处配置的对象标识将作为下游偏好/统计标签计算过程数据聚合的依据。
  • 对象ID:一般配置对象的唯一编码,如商品对象,可以将product_id字段作为商品的唯一标识。
  • 对象名称:如果对象没有ID等唯一编码,可以使用“对象名称”作为该对象的标识并配置对应的字段。
  • 请注意,商品名称可能存在重复、字段值格式不标准等问题,因此若来源表中有对象ID字段,建议优先使用对象ID。如果同时配置了两个字段,将优先取对象ID对应的字段值,若为空,再取对象名称对应的字段值进行存储。
  • 对象属性:定义对象的描述信息,此处配置的对象属性信息将作为后续偏好和统计标签计算过程中来源数据的筛选条件。
  • 属性:配置对象属性的类型,可选范围即在行为元素部分配置好的对象属性。比如“商品”对象,可以用“商品价格”、“商品类目”、“商品产地”、“品牌名称”等属性信息来进一步描述和分类。
  • 属性值:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如果行为规则中配置了这些对象属性,您就可以在配置标签时根据这些对象属性筛选来源数据并推算打标实体范围,如:筛选出“购买的品牌名称  包含(精确匹配inDior、兰蔻、雅诗兰黛”的会员进行打标
  • 请注意,如果您需要将 对象名称 对象ID 作为属性事使用,需要在此处重新配置,无法复用对象字段配置的信息

  • 行为属性:定义行为的描述信息,此处配置的行为属性信息将作为后续统计标签计算过程中来源数据的筛选条件、或统计标签值计算的基础数据。目前,萃取内置了4种可配置的行为属性:
  • 发生次数:如果来源表是明细表,通常情况下每条行为记录算作1次行为,此时无需配置对应的字段,系统将默认把每条记录算作1次自动计算;如果是轻度汇总表,可能已经按照主键(即ID)进行过汇总,即每个ID对应1条记录,则可以将对应的总次数字段配置在此处。
  • 金额:如果是涉及交易的行为,可能需要通过金额字段来进行一些统计,比如“单次应付金额、单次实付金额”等。请注意,如果多条行为规则都配置了金额属性,需要统一计量单位(比如都是¥元、$千等等),否则可能影响标签值计算。
  • 时间:指行为发生的具体时间。
  • 频次:指确定的时间区间内,某条行为发生的次数,如线下门店消费频次为3次/月。
  • 系统字段:即行为数据采集总表的分区字段,系统自动生成无需配置。

行为看板

行为看板左侧页面,从左到右依次为行为域、业务线和动作对象。

  • 您可以将鼠标悬停在某个行为域、业务线或动作对象的轴上,查看其对应行为数及该行为数占所有域行为总数的百分比。

  • 您也可以点击某个行为域的轴,查看该行为域下包括对象属性的数据分布及抽样。

相关文章
|
2月前
|
运维 数据处理 调度
Dataphin功能Tips系列(30)-限流配置
某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产出?
|
2月前
Dataphin功能Tips系列(27)-排他编辑锁
在实际开发中,为了避免多人同时编辑同一份代码而导致的问题,通常会采用锁机制来保护代码。然而,普通的锁机制有时并不能完全阻止其他开发人员在编辑时抢占锁,这使得用户可互相覆盖锁定状态,在dataphin中如何解决这一问题?
Dataphin功能Tips系列(27)-排他编辑锁
|
3月前
|
消息中间件 Kafka 搜索推荐
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(31)-自定义资源组
某零售企业最近在做促销活动,希望保证某些数据处理任务(订单处理、库存更新)任务能够快速按时完成,如何保证这些高优任务的调度资源不被其他任务占用,能按时执行?
|
2月前
Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚
开发人员小张先前编写的一个脚本,在进行了修订之后,发现逻辑出现了偏差,但他已经不记得前一版本的具体内容了。在这种情况下,应该怎样通过版本对比来看出两版脚本之间的差别,并且回滚到之前的版本呢?
|
2月前
|
调度 Python
Dataphin功能Tips系列(28)-跨节点参数
某经销零售企业,需要每天定时查询供应商的某个服务,以确认产品目录是否有变更,如果有变更,则全量拉取最新目录数据(数据量比较大,拉取一次成本很高),如果无变更则继续沿用上一次拉取的数据,在dataphin如何实现?
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
7月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin