手把手教你做用户画像:3种标签类型、8大系统模块

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。

随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。

01 用户画像是什么

用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌,如图1所示。

DF66746D_AAA6_47ba_B0ED_A74CEDC03C60

用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要。

大数据已经兴起多年,其对于互联网公司的应用来说已经如水、电、空气对于人们的生活一样,成为不可或缺的重要组成部分。从基础设施建设到应用层面,主要有数据平台搭建及运维管理、数据仓库开发、上层应用的统计分析、报表生成及可视化、用户画像建模、个性化推荐与精准营销等应用方向。

很多公司在大数据基础建设上投入很多,也做了不少报表,但业务部门觉得大数据和传统报表没什么区别,也没能体会大数据对业务有什么帮助和价值,究其原因,其实是“数据静止在数据仓库,是死的”。

而用户画像可以帮助大数据“走出”数据仓库,针对用户进行个性化推荐、精准营销、个性化服务等多样化服务,是大数据落地应用的一个重要方向。数据应用体系的层级划分如图2所示。

22A25CE7_B137_49b1_8F47_22B2DD4AA617

02 用户画像的3种标签类型

用户画像建模其实就是对用户“打标签”,从对用户打标签的方式来看,一般分为3种类型:①统计类标签;②规则类标签;③机器学习挖掘类标签。

下面我们介绍这3种类型的标签的区别:

1.统计类标签

这类标签是最为基础也最为常见的标签类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。

2.规则类标签

该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;

3.机器学习挖掘类标签

该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一般地,机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。

03 用户画像8大系统模块及解决方案

搭建一套用户画像方案整体来说需要考虑8个模块的建设,如图3所示。

6683AF32_9255_47d9_B266_E6F935B09B48

1.用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。这些都是框架,大方向的规划,只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。

2.数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

3.标签数据存储:标签相关数据可存储在Hive、MySQL、HBase、Elasticsearch等数据库中,不同存储方式适用于不同的应用场景。

4.标签数据开发:用户画像工程化的重点模块,包含统计类、规则类、挖掘类、流式计算类标签的开发,以及人群计算功能的开发,打通画像数据和各业务系统之间的通路,提供接口服务等开发内容。

5.开发性能调优:标签加工、人群计算等脚本上线调度后,为了缩短调度时间、保障数据的稳定性等,需要对开发的脚本进行迭代重构、调优。

6.作业流程调度:标签加工、人群计算、同步数据到业务系统、数据监控预警等脚本开发完成后,需要调度工具把整套流程调度起来。

7.用户画像产品化:为了能让用户数据更好地服务于业务方,需要以产品化的形态应用在业务上。产品化的模块主要包括标签视图、用户标签查询、用户分群、透视分析等。

8.用户画像应用:画像的应用场景包括用户特征分析、短信、邮件、站内信、Push消息的精准推送、客服针对用户的不同话术、针对高价值用户的极速退货退款等VIP服务应用。

04 一款用户画像产品是什么样的?

开发画像后的标签数据,如果只是“躺在”数据仓库中,并不能发挥更大的业务价值。只有将画像数据产品化后才能更方便业务方的使用。这里简要介绍用户画像产品化后,主要可能涵盖到的功能模块,以及这些功能模块的应用场景。

画像产品按常见的功能来看,主要包括标签视图与即时查询,用户分群,用户人群透视分析,对用户从事件、留存、漏斗、分布等多维度展开的深入交互式分析等模块。下面详细介绍画像的产品形态。

1.标签视图与查询

标签视图与查询功能主要面向业务人员使用,如图4所示。

AE6E3855_2BAA_4719_807E_F1EA1AAB1A46

在标签视图版块中,层级化地展示了目前已经上线使用的全部用户标签。用户可以层级化地通过点击标签,查看每个标签的详细介绍。

在图4中,当点击“用户属性”这个一级类目,可进入到“自然性别”“购物性别”“用户价值”等二级类目,点击“自然性别”二级类目,可看到展开的“男性”“女性”三级标签,进一步点击三级标签“男性”或是“女性”,可以进入查看该标签的详细介绍,如图5所示。

FD572AB6_C8CF_431d_90F0_F93121179F95

在该标签详情页中,可以查看人口属性这一个类目下面的各个标签覆盖用户量情况。

每天通过对标签的覆盖用户量进行监控,可以作为预警使用。例如:某天某个标签的覆盖用户量与前一天相比出现了很大比例的波动,需要排查该标签当日ETL作业是否出现异常或是否因业务上的操作导致标签量级的波动。

0C70EBC0_4282_44b5_AD2D_2926D10BA961

在标签查询模块中,通过输入用户对应的userid或cookieid,可以查看该用户的属性信息、行为信息、风控属性等多维度的信息,从多方位了解一个用户的特征。

2.用户人群功能

用户人群功能主要面向业务人员使用。产品经理、运营、客服等业务人员在应用标签时,可能不仅仅只查看某一个标签对应的人群情况,更多地可能需要组合多个标签来满足其在业务上对人群的定义。

例如:组合“近30日购买次数”大于3次和“高活跃”“女性”用户这三个标签进行定义目标人群,查看该类人群覆盖的用户量,以及该部分人群的各维度特征。下面介绍产品上的实现方式。

在“用户人群”版块下,点击“新建人群”或编辑之前已添加的分组(如图6),进入详情页可自定义涵盖某些标签的人群(如图7)。

615C2510_9844_4588_9F57_5ECC1BD09C65

F9CD0FB4_8AEF_4944_8263_AC4515F6C959

在自定义编辑用户分群时,对于有统计值类型的标签,可以自定义筛选该标签的取值范围,如上图中“近30日购买次数”标签,业务人员可筛选该标签的数值。对于分类型标签,如上图中“活跃度”标签,业务人员选中该标签即可圈出包含该标签的用户。

“人群名称”和“人群描述”表单用于业务人员描述该人群在业务上的定义,方便后续继续查看、应用该人群。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-03-30
本文作者:赵宏田
本文来自:“大数据DT 微信公众号”,了解相关信息可以关注“大数据DT

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 算法 数据可视化
房源画像实验演示(上)|学习笔记
快速学习房源画像实验演示(上)
509 0
房源画像实验演示(上)|学习笔记
|
机器学习/深度学习 搜索推荐 算法
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(二 )
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)
348 0
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(二 )
|
机器学习/深度学习 算法 搜索推荐
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(一)
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)
552 0
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(一)
|
数据挖掘
时不我待(第二十一课) 对数据的分析的能力 将数据展示出来(一)
时不我待(第二十一课) 对数据的分析的能力 将数据展示出来(一)
68 0
|
机器学习/深度学习 监控 搜索推荐
|
6月前
|
SQL 存储 算法
实战教学--怎样提高报表呈现的性能?
实战教学--怎样提高报表呈现的性能?
|
Python
我用加强版RFM模型,轻松扒出B站优质up主!(含数据+实战代码)(下)
本文在RFM模型基础上做了调整,尝试用更符合b站特性的IFL模型,找到各分区优质up主。整个过程以分析项目的形式展开,最终附上了完整源数据和代码,方便感兴趣的同学练手。
376 0
我用加强版RFM模型,轻松扒出B站优质up主!(含数据+实战代码)(下)