Dataphin V2.9.7-萃取3.0之行为中心功能简介

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 行为中心由行为元素、行为规则、行为看板组成。部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素和行为规则的概念。

简介

行为中心由行为元素、行为规则、行为看板组成。

部分标签的生产依赖行为数据。如“基于过去30天的消费行为数据,计算消费者的消费价格带偏好”;或“筛选出过去3个月小程序登录次数小于3次的会员,计算平均消费金额”,为指定相应的营销推广策略做准备。为了更规范化地管理行为数据,将不同来源、不同命名但是具有相似或相同业务含义的行为数据汇集起来,并简化后续标签配置流程,我们引入了行为元素行为规则的概念。

【行为与行为元素】

行为元素提供行为数据的标准化定义与归类,分为动作如浏览、收藏、售卖)、对象如商品、影片、广告)、对象属性用于描述对象,如商品价格、商品类目)。结合在平台管理部分定义好的行为域和业务线,我们可以基于业务场景按照行为域-业务线-动作-对象的样式组合出行为如:电商-淘宝-购买-商品、内容平台-抖音-观看-直播

【行为规则】

行为规则是在行为的基础上,进一步配置每个行为对应的来源表及数据抽取规则,以实现行为数据的规范化结构化聚合。行为规则由行为+来源表唯一确定,定义了行为相关字段(ID类型、对象标识、对象属性、行为属性等)与来源表字段之间的映射关系,如member_id类型对应了来源表的user_id字段、商品ID对应来源表的product_id字段。

这样,用户在进行标签配置的时候,无需关心表和字段,只需要关心业务含义,选择具体的行为,Dataphin将基于行为规则的定义自动圈选对应的数据,即可实现标签的开发。

【行为看板】

行为看板以树的形式,按照数据量大小及关联关系展示行为数据,并支持抽样查看某个业务日期下的明细数据,帮助开发者更直观地了解当前行为概况。

操作演示

待补充视频

权限说明

  • 行为元素&行为规则:所有开发者及管理员均可见可操作(包括新建、编辑、删除)
  • 行为元素&行为规则列表:所有角色均能查看列表信息及属性抽屉,但操作列的操作按钮是否可点击受角色限制(参见上一条)
  • 行为看板:所有角色均可查看

功能说明

行为元素

行为元素管理功能提供行为数据的标准化定义与归类。行为元素分为动作、对象、对象属性,同时您可以基于行为域和业务线(平台管理部分)对行为元素进行归类管理。

  • 动作:行为主体发出的操作,如购买、浏览。
  • 对象:行为主体操作的具体事物,如商品、电影。
  • 对象属性:对象的描述性信息,如名称、品牌、年份

行为元素的定义包括名称、英文名,同时您可以添加描述信息,说明该元素的含义及使用场景。创建成功后,您可以在“行为元素列表”查看目前已经创建好的行为元素,并可以在创建行为规则时选择。此外,您可以在每个行为元素的“属性抽屉”中查看该行为元素被哪些行为及行为规则引用,以更好地了解其应用程度及行为数据之间的关联性。

行为规则

行为规则由行为+来源表唯一确定。同一条行为,可能对应多张来源表(如会员线下消费行为,每个门店都有独立的消费记录行为表,需要结合起来才能完整刻画每个会员的消费行为),在每张来源表中的数据抽取规则也可能不相同(取决于来源表的结构及定义差异)。我们用“行为规则”来定义每个行为在每张来源表中的数据抽取规则。

行为规则的定义包括基本信息配置、规则配置、调度及物理化信息配置。其中基本信息部分,我们需要指定该行为规则从属的行为(行为域-业务线-动作-对象)并选取对应的来源表。当前支持选择全局生产环境的物理表或逻辑表作为来源表,并且可以灵活配置数据筛选条件。如果您已经使用Dataphin的规范建模功能,此处建议您选择事实逻辑表,可以引用事实逻辑表及其关联维表的字段进行行为规则的配置,减少重复开发,并保证业务上和数据上的一致性。

规则的配置包括行为主体(即ID)配置、对象及对象属性配置、行为属性配置和系统字段(分区字段)配置。

  • 行为主体:定义ID类型及其在来源表中对应的字段,确定标签描述的实体范围。此处选择的实体ID将作为下游偏好/统计标签的主键。
  • ID_type:代表实体标识的类型,可选范围即在ID中心配置好的实体ID类型。
  • ID_value:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如“会员线下消费”行为,以“会员ID”作为每个会员的身份标识,此处可以选择 ID类型 为“会员ID”(需要提前在 ID中心-实体ID 部分定义),ID值为“member_id”字段,代表该行为规则的ID取值于来源表中的“member_id”字段。
  • 请注意,某些场景下,可能无法保证ID字段一定有值。如来自微信小程序的数据,默认以手机号作为主ID,若无法获取手机号,则以openID进行匹配,这时就需要用到手机号和openID两种ID类型。行为规则支持配置多个ID,但是会优先取第一个值不为空的ID进行存储,因此本例中,此处可以先配置手机号、再配置openID。
  • 对象:定义对象标识的类型及其在来源表中对应的字段。此处配置的对象标识将作为下游偏好/统计标签计算过程数据聚合的依据。
  • 对象ID:一般配置对象的唯一编码,如商品对象,可以将product_id字段作为商品的唯一标识。
  • 对象名称:如果对象没有ID等唯一编码,可以使用“对象名称”作为该对象的标识并配置对应的字段。
  • 请注意,商品名称可能存在重复、字段值格式不标准等问题,因此若来源表中有对象ID字段,建议优先使用对象ID。如果同时配置了两个字段,将优先取对象ID对应的字段值,若为空,再取对象名称对应的字段值进行存储。
  • 对象属性:定义对象的描述信息,此处配置的对象属性信息将作为后续偏好和统计标签计算过程中来源数据的筛选条件。
  • 属性:配置对象属性的类型,可选范围即在行为元素部分配置好的对象属性。比如“商品”对象,可以用“商品价格”、“商品类目”、“商品产地”、“品牌名称”等属性信息来进一步描述和分类。
  • 属性值:每种实体ID类型在来源中对应的字段,即实体ID的取值。
  • 如果行为规则中配置了这些对象属性,您就可以在配置标签时根据这些对象属性筛选来源数据并推算打标实体范围,如:筛选出“购买的品牌名称  包含(精确匹配inDior、兰蔻、雅诗兰黛”的会员进行打标
  • 请注意,如果您需要将 对象名称 对象ID 作为属性事使用,需要在此处重新配置,无法复用对象字段配置的信息

  • 行为属性:定义行为的描述信息,此处配置的行为属性信息将作为后续统计标签计算过程中来源数据的筛选条件、或统计标签值计算的基础数据。目前,萃取内置了4种可配置的行为属性:
  • 发生次数:如果来源表是明细表,通常情况下每条行为记录算作1次行为,此时无需配置对应的字段,系统将默认把每条记录算作1次自动计算;如果是轻度汇总表,可能已经按照主键(即ID)进行过汇总,即每个ID对应1条记录,则可以将对应的总次数字段配置在此处。
  • 金额:如果是涉及交易的行为,可能需要通过金额字段来进行一些统计,比如“单次应付金额、单次实付金额”等。请注意,如果多条行为规则都配置了金额属性,需要统一计量单位(比如都是¥元、$千等等),否则可能影响标签值计算。
  • 时间:指行为发生的具体时间。
  • 频次:指确定的时间区间内,某条行为发生的次数,如线下门店消费频次为3次/月。
  • 系统字段:即行为数据采集总表的分区字段,系统自动生成无需配置。

行为看板

行为看板左侧页面,从左到右依次为行为域、业务线和动作对象。

  • 您可以将鼠标悬停在某个行为域、业务线或动作对象的轴上,查看其对应行为数及该行为数占所有域行为总数的百分比。

  • 您也可以点击某个行为域的轴,查看该行为域下包括对象属性的数据分布及抽样。

相关文章
|
2月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
86 5
|
2月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
63 5
|
2月前
|
SQL 数据采集
Dataphin功能Tips系列(56)如何实现质量规则的批量修改
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
89 4
|
2月前
|
弹性计算 调度
Dataphin功能Tips系列(52)-调度资源组弹性伸缩
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
77 1
|
2月前
|
存储 分布式计算 供应链
Dataphin功能Tips系列(51)-支持增全量一体实时集成
本文介绍了基于增全量一体实时集成的库存管理与分析解决方案。通过将业务中台的库存表同步至MaxCompute Delta表,实现离线与实时分析的统一支持。相比传统方案,该方法确保数据一致性,优化存储成本,降低维护复杂度,并大幅提升实时性,满足高效库存管理需求。
93 5
|
2月前
|
供应链
Dataphin功能Tips系列(55)如何通过规则排序实现不同的自动上架效果
本文介绍了如何在Dataphin中配置自动上架规则以高效管理数据。
50 4
|
2月前
Dataphin功能Tips系列(54)如何将资产自动变更为暂不上架
在资产运营管理中,为避免某些表(如贴源表、中间表等)被自动上架,Dataphin 提供了“暂不上架”规则配置功能。通过创建规则组和规则,可精细化管理资产对象。
66 3
|
2月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
101 8
|
1月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
6月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
402 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin