用户画像标签系统体系解释

简介: 用户画像标签系统体系解释

一 标签系统体系架构

1)、标签数据

标签管理平台中,每个标签开发时,首先需要在管理平台上注册(新建标签:4级标签和5级标签)

业务标签和属性标签

业务标签对应标签模型,每个标签模型就是Spark Application,运行程序可以给用户打上标签:TagName

模型表中存储数据:spark application运行时参数设置核心数据:

tagName -> tagRule:标签规则

2)、业务数据

依据每个业务标签(4级标签)的标签规则rule,获取业务数据

inType 判断业务数据的数据源,然后解析参数为Meta,加载业务数据(SparkSQL)

此处:整个项目业务数据主要存储在HBase表中

3)、构建标签

使用业务数据和标签数据(属性标签对应tagName和rule)计算标签,得到modelDF,将其保存到HBase表中。

画像标签表:tbl_profile

存储标签数据时,也将标签数据存储同步存储到Elasticsearch索引中,方便使用标签进行查询用户

基于Elasticsearch为HBase表构建二级索引

二 标签模型开发流程

展示每个标签模型在实际开发时主要流程:

1)、标签管理平台新建标签

123级标签

34级标签

设置相关属性,包含标签的属性字段的值和对应模型字段的值

标签模型对应Spark Application名称,及标签模型分类,尤其关键为标签规则

rule

5级标签

2)、开发标签模型

如何开发标签模型及测试功能,完成以后需要打成jar包

3)、调度执行

标签管理平台中可以直接调用Oozie Java API调度执行每个标签模型应用程序

三 标签模型计算逻辑

在每个标签模型开发时,计算逻辑主要涉及到四个方面:

SparkSession初始化

1)、【MySQL】依据每个标签tagId获取标签数据spark.read.format(“jdbc”)

只获取与标签相关的所有数据

2)、【HBase】解析标签规则rule,加载业务数据

spark.read.format(“hbase”)

自定义外部数据源方式

3)、【DataFrame】业务数据结合属性标签数据,计算标签modelDF

不同类型标签,计算标签方式不同,分为三种类型,规则匹配类型标签、统计类型标签和挖掘类型标签

  • 规则匹配类型标签
    业务字段的值与属性标签规则rule匹配即可
  • 统计类型标签
    设计对业务字段的数据进行统计和对属性标签规则rule进行转换,打标签
  • 挖掘类型标签
    使用机器学习算法构建算法模型,使用预测值与属性标签规则整合,打标签,其中涉及相关计算
    4)、【HBase】标签存储将用户标签数据存储到HBase表中,同步到Elasticsearch索引中
  • a)、存储最新画像标签数据
    存储HBase表汇总
  • b)、同步标签数据到Solr索引中
    使用HBase协处理器完成,自定同步数据,批量索引插入
    SparkSession资源关闭


相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
3月前
|
搜索推荐 数据可视化 数据挖掘
构建精准的目标客户群用户画像构建
构建精准的目标客户群用户画像
81 6
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
1995 0
用户画像标签体系——从零开始搭建实时用户画像(三)
|
5月前
|
搜索推荐
用户画像系列——推荐相关核心标签(偏好类)
用户画像系列——推荐相关核心标签(偏好类)
60 0
|
7月前
|
数据采集 算法 关系型数据库
数据分类分级实践难点
数据分类分级是开展数据全生命周期管理的基础,企业做好数据分类分级才能更好地去落实合规义务以及进行数据安全管控。今天,我们从数据分类分级落地实践的角度,来阐述企业在开展数据分类分级过程中的难点以及如何“破局”。
190 1
|
7月前
|
数据挖掘 BI C++
标签 VS 数据指标体系,终于有人讲清楚了
标签 VS 数据指标体系,终于有人讲清楚了
|
12月前
|
机器学习/深度学习 人工智能 移动开发
《中国开发者画像洞察报告2022》——03 开发者人群特征洞察——3.4 进阶路径
《中国开发者画像洞察报告2022》——03 开发者人群特征洞察——3.4 进阶路径
|
SQL 存储 分布式计算
如何构建标签画像工程体系及实现方案
本文将按总分的结构进行展开:首先对标签画像的基本概念做简单的说明;其次会从业务需求的角度出发,阐述如何构建一个可用的最小标签画像系统单元;而后会以这个最小单元为基础,对部分重点模块进行扩展介绍;最后进行总结,并对文中未涉及的发展方向简要说明。
64603 1
如何构建标签画像工程体系及实现方案
|
存储 安全 数据管理
这个“2-3”的数据分类分级方法也许对你很有价值
当前,数据成为企业的生产要素参与分配,数据价值越发显得重要。
这个“2-3”的数据分类分级方法也许对你很有价值
|
存储 SQL 缓存
多标签用户画像分析跑得快的关键在哪里?
多标签用户画像分析跑得快的关键在哪里?
149 0
|
人工智能 机器人
各类机构均根据RPA的特征及价值给予了不同的定义
各类机构均根据RPA的特征及价值给予了不同的定义
90 0