Dataphin V2.9.7-萃取3.0之行为中心功能简介

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 行为中心由行为元素、行为规则、行为看板组成。部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素和行为规则的概念。

简介

行为中心由行为元素、行为规则、行为看板组成。

部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素行为规则的概念。

【行为与行为元素】

行为元素提供行为数据的标准化定义与归类,分为动作如浏览、收藏、售卖)、对象如商品、影片、广告)、对象属性用于描述对象,如商品价格、商品类目)。结合在平台管理部分定义好的行为域和业务线,我们可以基于业务场景按照行为域-业务线-动作-对象的样式组合出行为如:电商-淘宝-购买-商品、内容平台-抖音-观看-直播

【行为规则】

行为规则是在行为的基础上,进一步配置每个行为对应的来源表及数据抽取规则,以实现行为数据的规范化结构化聚合。行为规则由行为+来源表唯一确定,定义了行为相关字段(ID类型、对象标识、对象属性、行为属性等)与来源表字段之间的映射关系,如member_id类型对应了来源表的user_id字段、商品ID对应来源表的product_id字段。

这样,用户在进行标签配置的时候,无需关心表和字段,只需要关心业务含义,选择具体的行为,Dataphin将基于行为规则的定义自动圈选对应的数据,即可实现标签的开发。

【行为看板】

行为看板以树的形式,按照数据量大小及关联关系展示行为数据,并支持抽样查看某个业务日期下的明细数据,帮助开发者更直观地了解当前行为概况。

操作演示

待补充视频

权限说明

  • 行为元素&行为规则:所有开发者及管理员均可见可操作(包括新建、编辑、删除)
  • 行为元素&行为规则列表:所有角色均能查看列表信息及属性抽屉,但操作列的操作按钮是否可点击受角色限制(参见上一条)
  • 行为看板:所有角色均可查看

功能说明

行为元素

行为元素管理功能提供行为数据的标准化定义与归类。行为元素分为动作、对象、对象属性,同时您可以基于行为域和业务线(平台管理部分)对行为元素进行归类管理。

  • 动作:行为主体发出的操作,如购买、浏览。
  • 对象:行为主体操作的具体事物,如商品、电影。
  • 对象属性:对象的描述性信息,如名称、品牌、年份

行为元素的定义包括名称、英文名,同时您可以添加描述信息,说明该元素的含义及使用场景。创建成功后,您可以在“行为元素列表”查看目前已经创建好的行为元素,并可以在创建行为规则时选择。此外,您可以在每个行为元素的“属性抽屉”中查看该行为元素被哪些行为及行为规则引用,以更好地了解其应用程度及行为数据之间的关联性。

行为规则

行为规则由行为+来源表唯一确定。同一条行为,可能对应多张来源表(如会员线下消费行为,每个门店都有独立的消费记录行为表,需要结合起来才能完整刻画每个会员的消费行为),在每张来源表中的数据抽取规则也可能不相同(取决于来源表的结构及定义差异)。我们用“行为规则”来定义每个行为在每张来源表中的数据抽取规则。

行为规则的定义包括基本信息配置、规则配置、调度及物理化信息配置。其中基本信息部分,我们需要指定该行为规则从属的行为(行为域-业务线-动作-对象)并选取对应的来源表。当前支持选择全局生产环境的物理表或逻辑表作为来源表,并且可以灵活配置数据筛选条件。如果您已经使用Dataphin的规范建模功能,此处建议您选择事实逻辑表,可以引用事实逻辑表及其关联维表的字段进行行为规则的配置,减少重复开发,并保证业务上和数据上的一致性。

规则的配置包括行为主体(即ID)配置、对象及对象属性配置、行为属性配置和系统字段(分区字段)配置。

  • 行为主体:定义ID类型及其在来源表中对应的字段,确定标签描述的实体范围。此处选择的实体ID将作为下游偏好/统计标签的主键。
  • ID_type:代表实体标识的类型,可选范围即在ID中心配置好的实体ID类型。
  • ID_value:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如“会员线下消费”行为,以“会员ID”作为每个会员的身份标识,此处可以选择 ID类型 为“会员ID”(需要提前在 ID中心-实体ID 部分定义),ID值为“member_id”字段,代表该行为规则的ID取值于来源表中的“member_id”字段。
  • 请注意,某些场景下,可能无法保证ID字段一定有值。如来自微信小程序的数据,默认以手机号作为主ID,若无法获取手机号,则以openID进行匹配,这时就需要用到手机号和openID两种ID类型。行为规则支持配置多个ID,但是会优先取第一个值不为空的ID进行存储,因此本例中,此处可以先配置手机号、再配置openID。
  • 对象:定义对象标识的类型及其在来源表中对应的字段。此处配置的对象标识将作为下游偏好/统计标签计算过程数据聚合的依据。
  • 对象ID:一般配置对象的唯一编码,如商品对象,可以将product_id字段作为商品的唯一标识。
  • 对象名称:如果对象没有ID等唯一编码,可以使用“对象名称”作为该对象的标识并配置对应的字段。
  • 请注意,商品名称可能存在重复、字段值格式不标准等问题,因此若来源表中有对象ID字段,建议优先使用对象ID。如果同时配置了两个字段,将优先取对象ID对应的字段值,若为空,再取对象名称对应的字段值进行存储。
  • 对象属性:定义对象的描述信息,此处配置的对象属性信息将作为后续偏好和统计标签计算过程中来源数据的筛选条件。
  • 属性:配置对象属性的类型,可选范围即在行为元素部分配置好的对象属性。比如“商品”对象,可以用“商品价格”、“商品类目”、“商品产地”、“品牌名称”等属性信息来进一步描述和分类。
  • 属性值:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如果行为规则中配置了这些对象属性,您就可以在配置标签时根据这些对象属性筛选来源数据并推算打标实体范围,如:筛选出“购买的品牌名称  包含(精确匹配inDior、兰蔻、雅诗兰黛”的会员进行打标
  • 请注意,如果您需要将 对象名称 对象ID 作为属性事使用,需要在此处重新配置,无法复用对象字段配置的信息

  • 行为属性:定义行为的描述信息,此处配置的行为属性信息将作为后续统计标签计算过程中来源数据的筛选条件、或统计标签值计算的基础数据。目前,萃取内置了4种可配置的行为属性:
  • 发生次数:如果来源表是明细表,通常情况下每条行为记录算作1次行为,此时无需配置对应的字段,系统将默认把每条记录算作1次自动计算;如果是轻度汇总表,可能已经按照主键(即ID)进行过汇总,即每个ID对应1条记录,则可以将对应的总次数字段配置在此处。
  • 金额:如果是涉及交易的行为,可能需要通过金额字段来进行一些统计,比如“单次应付金额、单次实付金额”等。请注意,如果多条行为规则都配置了金额属性,需要统一计量单位(比如都是¥元、$千等等),否则可能影响标签值计算。
  • 时间:指行为发生的具体时间。
  • 频次:指确定的时间区间内,某条行为发生的次数,如线下门店消费频次为3次/月。
  • 系统字段:即行为数据采集总表的分区字段,系统自动生成无需配置。

行为看板

行为看板左侧页面,从左到右依次为行为域、业务线和动作对象。

  • 您可以将鼠标悬停在某个行为域、业务线或动作对象的轴上,查看其对应行为数及该行为数占所有域行为总数的百分比。

  • 您也可以点击某个行为域的轴,查看该行为域下包括对象属性的数据分布及抽样。

相关文章
|
5天前
|
安全 Shell Python
Dataphin功能Tips系列(9)-Dataphin中安全的使用账号密码(2)
在Dataphin中, 经常遇到需要连接外部服务来实现一些特定的功能, 如连接外部FTP检测FTP服务的连通性. 实现此类功能, 一般是使用shell或者Python代码任务. 由于外部服务大多都有访问鉴权, 就需要在shell/Python代码中向服务端发送账号密码(密钥),如何在shell或者Python任务中安全的使用账号密码?
|
5天前
|
安全 Shell Python
Dataphin功能Tips系列(8)-Dataphin中安全的使用账号密码(1)
在Dataphin中, 经常遇到需要连接外部服务来实现一些特定的功能, 如连接外部FTP检测FTP服务的连通性. 实现此类功能, 一般是使用shell或者Python代码任务. 由于外部服务大多都有访问鉴权, 就需要在shell/Python代码中向服务端发送账号密码(密钥),如何在shell或者Python任务中安全的使用账号密码?
100 1
|
5天前
Dataphin功能Tips系列(7)-维表版本策略
在创建普通维度逻辑表和事实逻辑表关联维度时,如何配置维表版本策略?
103 2
|
5天前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
|
5天前
Dataphin功能Tips系列(10)-质量分计算口径
质量分大盘中的质量分计算口径是什么?
|
5天前
Dataphin功能Tips系列(5)-手工表上传及长期维护
有些业务数据是手工excel维护的,这时我们要如何将数据上传至dataphin并进行维护?
|
5天前
|
调度 安全
“Dataphin功能tips”系列
hello,大家好: 为了更好地引导广大用户深入探索和高效利用Dataphin全方位的数据智能能力,我们特别推出“Dataphin功能小Tips”系列,旨在通过生动直观的场景描述与对应的功能应用方案,以简洁明快的语言呈现,力求让每一位用户都能轻松解锁Dataphin中的每一个实用功能点。 这一系列内容专为提升您的使用体验而设计,期待能为大家解决实际问题、优化数据管理工作带来切实的帮助,在此,我们也诚挚邀请所有用户积极参与互动,随时分享您宝贵的使用心得与建议。您的反馈将是我们不断迭代优化的重要动力!
105 3
|
5天前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
5天前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
5天前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin