用户画像系列—如何从0到1建设用户画像

简介: 用户画像系列—如何从0到1建设用户画像

1.用户画像平台该如何建设?

根据上一篇文章,我们讲到用户画像其实就是用户的标签或者特征,首先要明确就是要完成标签的生产和加工,那么涉及到的内容就包括数据的接入、清洗、和最后标签的加工入库。

标签整体流程如下:

(1)线上日志数据接入和处理

数据分层

(2)标签的加工和挖掘

a.标签加工根据标签的加工方式分为三类:事实类、统计类、算法类

事实类:主要是基于原始数据同步过来即可,比如:最后一次登录时间

统计类:在原始数据上做一些简单的统计规则,比如:最近一个月活跃天数

算法类:根据用户的行为和交易信息利用算法挖掘出来,比如:工作位置、家庭位置(根据gps信息采用聚类算法挖掘出来)

b.标签加工根据标签的时效性分为三类:离线(T+1)、准实时(T+H)、实时

(3)标签存储和应用

为了应对不同的应用场景,使用不同的数据库作为存储方案

(4)标签权限管控、标签字典、标签质量

标签权限管控:业务只能使用申请权限了的标签权限,标签权限配置存储在MySQL

标签字典:标签内容数据只存储字典枚举,而不实际存储实际内容(比如:性别标签男女存储为0、1)

标签质量:对于标签的数据质量进行监控、波动告警,包含:标签的覆盖率、标签分布的监控告警

2.用户画像建设过程中会用到哪些技术?

(1)大数据相关的一些技术

Java、MySQL、Python、Hive、Spark、Flink、HBase

(2)服务开发

rpc服务

(3)标签挖掘算法

聚类、逻辑回归等,Python、Spark

3.用户画像建设过程中会遇到哪些问题?

(1)降本增效大环境下,用户画像侧如何做好存储和计算性能优化?

a.KV存储采用Protobuf存储,Protobuf编码性能好且压缩比高。因为画像的数据类型一般比较固定、单值或者多值,对序列化反序列化性能以及数据压缩效果有较高要求

b.标签内容字典化

c.画像特征抽取自定义抽取,资源占用低

目前特征抽取主要有单特征抽取和批量特征抽取

单特征:优点,控制灵活。缺点,每个特征都会启动各自的拉取任务,执行效率低且耗费资源。

批量特征抽取:成本可控,但较依赖上游Hive 表数据

因此考虑自定义特征抽取方案,根据标签优先级策略配置抽取策略,既能做到成本可控又能做到满足时效性。

d.冷热数据分级存储

热数据考虑用更好的硬件设备进行存储(SSD、独立集群等)、冷数据考虑用一般的硬件设备进行存储(HHD、公共集群)

后续会继续进行阐述用户画像系列

用户画像系列-用户画像如何应用呢

用户画像系列-不同行业、不同公司做用户画像哪些区别呢?

相关文章
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
3576 0
用户画像标签体系——从零开始搭建实时用户画像(三)
|
SQL 搜索推荐 分布式数据库
用户画像建设
用户画像建设
522 0
|
搜索推荐 数据可视化 数据挖掘
构建精准的目标客户群用户画像构建
构建精准的目标客户群用户画像
1584 6
|
自然语言处理 分布式计算 算法
淘宝用户体验VOC标签体系
淘宝用户体验VOC标签体系
1010 0
|
8月前
|
存储 消息中间件 Java
抖音集团电商流量实时数仓建设实践
本文基于抖音集团电商数据工程师姚遥在Flink Forward Asia 2024的分享,围绕电商流量数据处理展开。内容涵盖业务挑战、电商流量建模架构、流批一体实践、大流量任务调优及总结展望五个部分。通过数据建模与优化,实现效率、质量、成本和稳定性全面提升,数据质量达99%以上,任务性能提升70%。未来将聚焦自动化、低代码化与成本优化,探索更高效的流批一体化方案。
594 12
抖音集团电商流量实时数仓建设实践
|
程序员 API 数据安全/隐私保护
Flink--8、时间语义、水位线(事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理)
Flink--8、时间语义、水位线(事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理)
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
1560 2
探索Flink动态CEP:杭州银行的实战案例
|
Oracle 关系型数据库 数据处理
实时计算 Flink版产品使用合集之本地local模式下断点续传可以操作吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
221 2
|
SQL 消息中间件 存储
实时标签开发——从零开始搭建实时用户画像(五)
实时标签开发——从零开始搭建实时用户画像(五)
1621 1
实时标签开发——从零开始搭建实时用户画像(五)
|
机器学习/深度学习 人工智能 算法
算法金 | 一文彻底理解机器学习 ROC-AUC 指标
```markdown # ROC曲线与AUC详解:评估分类模型利器 本文深入浅出解释ROC曲线和AUC,通过实例和代码帮助理解其在模型评估中的重要性,旨在提升对分类模型性能的理解和应用。 ```
1977 13
算法金 | 一文彻底理解机器学习 ROC-AUC 指标