如何构建用户画像,给用户打“标签”?1

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 如何构建用户画像,给用户打“标签”?1

前言


大家好,我是云祁!


和大家分享一本近期读完的非常不错的技术书籍,赵宏田老师的《用户画像:方法论与工程化解决方案》。


用户画像是目前在技术公司广泛使用的技术,是根据客户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。常常用在精准营销、圈定人群、发送短信消息、APP弹窗等等,用户画像的准确性往往会直接影响运营的效果和获客成本。



用户画像另一个不太为普通人所知的用处是风控,建设用户画像是互联网金融领域风险控制的基础和关键,直接影响到公司的营收。


这本书整体介绍了用户画像的实现方案和技术,配合有具体的真实案例,关键点是有实际的数据库表设计和代码,读完后帮我快速建立了关于用户画像的整体技术框架和实现方案,同时也启发了我很多对于新领域建设患者画像建设优化的思路。


个人评价


通读全书,主要讲了以下几部分:用户画像基础、数据指标体系、标签数据存储、标签数据开发、开发性能调优、作业流程调度、用户画像产品化、用户画像应用。这八块内容并不是完全均等,标签开发占了大头。相互间也并不是完全独立,或多或少也有点重叠。


内容上技术、产品、运营三块都讲了。产品运营不懂,不做评价。技术方面,提到了用户画像能用的一下技术,主要是生成数据的一些,比如 ES、Hive、Spark、MySQL。


在实战层面:案例挺多的,过程翔实,可以作为随时翻阅的参考书,值得看看。不过,也有些小小的缺点「手动狗头保命」:有些内容被翻来覆去的说,比如 Hive 的存储,调优部分也是可有可无,隔靴搔痒。其实完全可以以一个大案例把几个模块串起来讲,比如里面的案例按照目标群体进行拉新和转化,就可以串起来。


读书笔记


1. 用户画像助力数据走出数据仓库


基础设施建设和应用


从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。


用户画像赋能业务发展


而用户画像可以帮助大数据“走出”数据仓库,针对用户进行个性化推荐、精准营销、个性化服务等多样化服务,是大数据落地应用的一个重要方向。


数据应用体系划分如下图所示:



2. 标签类型


用户画像建模,其实就是对用户“打标签”,标签类型主要分为3种:统计类标签,规则类标签,机器学习挖掘类标签。


2.1 统计类标签


是最基础和常见的类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数 等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。


2.2 规则类标签


该类标签基于用户行为及确定的规则产生。例如,对平台上 “消费活跃” 用户这一口径的定义为 “近30天交易次数≥2” 。


在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定。


2.3 机器学习挖掘类标签


该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。


例如,性别判断:根据一个用户的行为习惯判断该用户是男性还是女性、购物偏好判断。根据一个用户的消费习惯判断其对某商品的偏好程度,该类标签需要通过算法挖掘产生。


2.4 上述三类标签的比较


统计类标签和规则类标签在开发中占有较大的比例。


在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。


机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一般地,机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。


3. 用户画像数仓架构


如下所示的用户画像数仓架构图:



3.1 数据源


主要包含业务数据、日志数据、埋点数据,经过ETL加工到数仓对应的ODS、DWD、ADS层。


3.2 用户画像建模环节


如上图中间一层,基于数仓中的ODS、DWD和ADS层中与用户相关的数据,经过二次建模加工,经过ETL过程将用户标签计算结果写入 Hive,作为大本营。


对于这些计算好的用户标签数据,根据不同的应用场景即可同步到其他数据库,例如MySQL(提供BI报表数据、多维透视分析数据、圈人服务数据)、HBase(用户产品线上个性化推荐、线上数据实时调用)、ES等。


Hive:存储用户标签计算结果、用户人群计算结果、用户特征库计算结果

MySQL:存储标签元数据,监控相关数据,导出到业务系统的数据

HBase:存储线上接口实时调用类数据

Elasticserch:支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的用户标签数据(由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂,使用 Impala 执行也需花费大量时间)

用户标签数据在 Hive 中加工完成后,部分标签通过 Sqoop 同步到 MySQL数据库,提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据;另一部分标签同步到HBase数据库用于产品的线上个性化推荐。


相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
6227 0
|
2月前
|
监控 Kubernetes Java
最新技术栈驱动的 Java 绿色计算与性能优化实操指南涵盖内存优化与能效提升实战技巧
本文介绍了基于Java 24+技术栈的绿色计算与性能优化实操指南。主要内容包括:1)JVM调优,如分代ZGC配置和结构化并发优化;2)代码级优化,包括向量API加速数据处理和零拷贝I/O;3)容器化环境优化,如K8s资源匹配和节能模式配置;4)监控分析工具使用。通过实践表明,这些优化能显著提升性能(响应时间降低40-60%)同时降低资源消耗(内存减少30-50%,CPU降低20-40%)和能耗(服务器功耗减少15-35%)。建议采用渐进式优化策略。
141 1
|
12月前
|
消息中间件 监控 API
理解微服务架构:构建灵活和可扩展的应用
【10月更文挑战第7天】理解微服务架构:构建灵活和可扩展的应用
|
10月前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
319 14
|
11月前
|
缓存 数据库 Android开发
安卓开发中的性能优化技巧
【10月更文挑战第29天】在移动应用的海洋中,性能是船只能否破浪前行的关键。本文将深入探讨安卓开发中的性能优化策略,从代码层面到系统层面,揭示如何让应用运行得更快、更流畅。我们将以实际案例和最佳实践为灯塔,引领开发者避开性能瓶颈的暗礁。
262 3
|
自然语言处理 搜索推荐 程序员
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
239 0
|
算法 图形学 C++
[EasyX库安装介绍讲解】超详细入门级
[EasyX库安装介绍讲解】超详细入门级
735 1
|
存储 SQL 搜索推荐
如何构建用户画像,给用户打“标签”?2
如何构建用户画像,给用户打“标签”?2
619 0
如何构建用户画像,给用户打“标签”?2
|
存储 搜索推荐 分布式数据库
用户画像标签系统体系解释
用户画像标签系统体系解释
646 1
阿里十年大数据专家谈“云上数据中台之道”含内部PPT
从大数据的概念被正式提出,到马云老师预言人类正从IT时代走向DT时代,大数据浪潮迭起。大数据同仁共同认知的一点是,大数据会对社会创新、产业变革、业务创新及每个人的角色定位产生近乎决定性的影响。