用户画像标签系统体系解释

简介: 用户画像标签系统体系解释

一 标签系统体系架构

1)、标签数据

标签管理平台中,每个标签开发时,首先需要在管理平台上注册(新建标签:4级标签和5级标签)

业务标签和属性标签

业务标签对应标签模型,每个标签模型就是Spark Application,运行程序可以给用户打上标签:TagName

模型表中存储数据:spark application运行时参数设置核心数据:

tagName -> tagRule:标签规则

2)、业务数据

依据每个业务标签(4级标签)的标签规则rule,获取业务数据

inType 判断业务数据的数据源,然后解析参数为Meta,加载业务数据(SparkSQL)

此处:整个项目业务数据主要存储在HBase表中

3)、构建标签

使用业务数据和标签数据(属性标签对应tagName和rule)计算标签,得到modelDF,将其保存到HBase表中。

画像标签表:tbl_profile

存储标签数据时,也将标签数据存储同步存储到Elasticsearch索引中,方便使用标签进行查询用户

基于Elasticsearch为HBase表构建二级索引

二 标签模型开发流程

展示每个标签模型在实际开发时主要流程:

1)、标签管理平台新建标签

123级标签

34级标签

设置相关属性,包含标签的属性字段的值和对应模型字段的值

标签模型对应Spark Application名称,及标签模型分类,尤其关键为标签规则

rule

5级标签

2)、开发标签模型

如何开发标签模型及测试功能,完成以后需要打成jar包

3)、调度执行

标签管理平台中可以直接调用Oozie Java API调度执行每个标签模型应用程序

三 标签模型计算逻辑

在每个标签模型开发时,计算逻辑主要涉及到四个方面:

SparkSession初始化

1)、【MySQL】依据每个标签tagId获取标签数据spark.read.format(“jdbc”)

只获取与标签相关的所有数据

2)、【HBase】解析标签规则rule,加载业务数据

spark.read.format(“hbase”)

自定义外部数据源方式

3)、【DataFrame】业务数据结合属性标签数据,计算标签modelDF

不同类型标签,计算标签方式不同,分为三种类型,规则匹配类型标签、统计类型标签和挖掘类型标签

  • 规则匹配类型标签
    业务字段的值与属性标签规则rule匹配即可
  • 统计类型标签
    设计对业务字段的数据进行统计和对属性标签规则rule进行转换,打标签
  • 挖掘类型标签
    使用机器学习算法构建算法模型,使用预测值与属性标签规则整合,打标签,其中涉及相关计算
    4)、【HBase】标签存储将用户标签数据存储到HBase表中,同步到Elasticsearch索引中
  • a)、存储最新画像标签数据
    存储HBase表汇总
  • b)、同步标签数据到Solr索引中
    使用HBase协处理器完成,自定同步数据,批量索引插入
    SparkSession资源关闭


目录
相关文章
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
3863 0
用户画像标签体系——从零开始搭建实时用户画像(三)
|
自然语言处理 分布式计算 算法
淘宝用户体验VOC标签体系
淘宝用户体验VOC标签体系
1165 0
|
搜索推荐 数据可视化 数据挖掘
构建精准的目标客户群用户画像构建
构建精准的目标客户群用户画像
1771 6
|
存储 SQL 分布式计算
用户画像系列—如何从0到1建设用户画像
用户画像系列—如何从0到1建设用户画像
452 0
|
1月前
|
移动开发 JavaScript 安全
文件16进制查看器 在线工具分享
一款基于Vue 3开发的在线文件十六进制查看器,纯前端运行,文件不上传、隐私安全;支持任意格式,提供空格/紧凑/大写三种Hex显示模式,一键复制或下载。即开即用,轻量高效。
430 9
文件16进制查看器 在线工具分享
|
4月前
|
机器学习/深度学习 人工智能 前端开发
终端里的 AI 编程助手:OpenCode 使用指南
OpenCode 是开源的终端 AI 编码助手,支持 Claude、GPT-4 等模型,可在命令行完成代码编写、Bug 修复、项目重构。提供原生终端界面和上下文感知能力,适合全栈开发者和终端用户使用。
41082 11
|
弹性计算 Prometheus 运维
一文详解阿里云可观测体系下标签最佳实践
在当今数字化转型加速的时代,企业 IT 系统的复杂度与日俱增,如何高效地管理和监控这些系统成为了一项挑战。阿里云作为全球领先的云计算服务商,提供了一整套全面的可观测性解决方案,覆盖从业务、端侧(小程序、APP、H5 等)、应用、中间件、容器/ECS 等全栈的监控体系,旨在帮助企业构建强大而灵活的可观测性体系。其中,标签(Tag)作为一种核心组织和管理手段,在阿里云可观测体系中扮演着至关重要的角色。本文将深入探讨阿里云可观测系列产品中标签的应用,以及如何运用标签在阿里云可观测产品体系下进行体系化建设并给出相关最佳实践。
1221 189
|
数据采集 监控 搜索推荐
用户画像构建:年度数据分析的用户视角
在数据驱动的时代,年度数据分析对企业战略规划和运营优化至关重要。本文从数据收集、预处理、分析、可视化到应用实践,全面探讨如何通过年度数据分析实现业务增长,助力企业精准决策。通过构建全面的数据源体系、清洗整合数据、洞察趋势、发现机会,并借助数据可视化工具,最终将数据转化为实际行动,持续优化企业运营。
|
传感器 机器学习/深度学习 弹性计算
Agent与大模型的区别
本文详细对比了人工智能领域的两个重要概念——Agent和大模型。大模型如GPT-3、BERT等,擅长自然语言处理任务,如文本生成、翻译等;Agent则是自主的软件实体,能够在特定环境中感知、决策并执行任务,如管理日程、控制智能家居等。文章介绍了它们的定义、功能、技术架构及应用场景,并总结了两者的核心差异和未来发展方向。
12409 26
|
SQL 消息中间件 存储
实时标签开发——从零开始搭建实时用户画像(五)
实时标签开发——从零开始搭建实时用户画像(五)
1697 1
实时标签开发——从零开始搭建实时用户画像(五)

热门文章

最新文章