数据挖掘与数据化运营实战. 3.8 用户(买家、卖家)分层模型

简介:

3.8 用户(买家、卖家)分层模型

用户(买家、卖家)分层模型也是数据化运营中常见的解决方案之一,它与数据化运营的本质是密切相关的。精细化运营必然会要求区别对待,而分层(分群)则是区别对待的基本形式。

分层模型是介于粗放运营与基于个体概率预测模型之间的一种折中和过渡模型,其既兼顾了(相对粗放经营而言比较)精细化的需要,又不需要(太多资源)投入到预测模型的搭建和维护中,因而在数据化运营的初期以及在战略层面的分析中,分层模型有着比较广泛的应用和较大的价值。

正如预测模型有特定的目标变量和模型应用场景一样,分层模型也有具体的分层目的和特定用途,这些具体的目的和用途就决定了分层模型的构建思路和评价依据。其常用的场景为:客户服务团队需要根据分层模型来针对不同的群体提供不同的说辞和相应的服务套餐;企业管理层需要基于在线交易卖家数量来形成以其为核心的卖家分层进化视图;运营团队需要通过客户分层模型来指导相应的运营方案的制订和执行,从而提高运营效率和付费转化率等。这些分层模型既可以为管理层、决策层提供基于特定目的的统一进化视图,又可以给业务部门做具体的数据化运营提供分群(分层)依据和参考。

分层模型常用的技术既包括统计分析技术(比如相关性分析、主成分分析等),又可以含有预测(响应、分类)模型的技术(比如通过搭建预测模型发现最重要的输入变量及其排序情况,然后根据这些变量对分层进行大致的划分,并通过实际数据进行验证),这要视具体的分析目的、业务背景和数据结构而定,同时要强调的是,一个好的分层模型的搭建一定是需要业务方的参与和贡献的,而且其中的业务逻辑和业务思考远远胜过分析技术本身。

下面我们分别用两个典型的案例来说明分层模型是如何搭建和应用的。

案例一:以交易卖家数量为核心的卖家分层进化视图

背景:某互联网公司作为买卖双方的交易平台,其最终的价值体现在买卖双方在该平台上达成交易(从而真正让买卖双方双赢,满意)。现在,管理层希望针对在线成交的卖家(群体)形成一个分层进化的视图。其基本目标就是,从免费注册的卖家开始,通过该视图可以粗略地、有代表性地勾画出卖家一步一步成长、进步乃至最终达成交易的全过程。这里的每一层都是一个或几个有代表性的重要指标门槛,顺着不同的门槛逐步进化,越往上走,人群越少,越有可能成为有交易的卖家,而最后最高一层将是近30天来有交易的卖家。从这个背景和目标描述里,我们可以大致想象出这个分层模型是一个类似金字塔的形状(底部人数多,越往上越小,表示人群在减少)。

这个分层模型的主要价值体现在:可以让管理层、决策层对交易卖家的成长、进化、过滤的过程有个清晰、直观的把握,并且可以从中直观地了解影响卖家交易的一系列核心因素,以及相应的大致门槛阀值,也可以让具体的业务部门直观地了解“培养成交卖家,让卖家能在线成交”的主要因素,以及相应的运营抓手。

在本案例中,有必要了解一些关键的业务背景和业务因素,比如要想在线交易,卖家的Offer必须是“可在线交易Offer”。这个条件很关键,所谓“可在线交易Offer”是指该商品的Offer支持支付宝等第三方在线支付手段,如果卖家的Offer不支持这些手段,那就无法在线交易,也就无法满足本课题的目标了。所以,这里的“卖家Offer必须是可在线交易Offer”是一个前期的重要门槛和阀值,从此也可以看出,对业务背景的了解非常重要,它决定了课题是否成功。

下面来谈谈具体的分析思路,先是从最基本的免费注册的卖家(即“全会员”)开始,之后是近30天有登录网站的卖家(说明是“活”的卖家,这里经过了直观的业务思考),再到近1年有新发或重发Offer的卖家,然后是当前有效Offer的卖家,最后是当前有可在线交易Offer的卖家,这个分析过程其实是第一部分的思考,它们构成了金字塔的下半部分,基本上是基于业务背景的了解和顺理成章的逻辑来“进化”的,之所以在“全会员”与“当前有可在线交易Offer”之间安插了另外3层逐步“进化”的指标,主要也是基于业务方需要门槛的进度和细分的考虑,但这不是主要的核心点。

接下来,从“当前有可在线交易Offer的卖家”开始,层层进化到最高端的“近30天有在线交易的卖家”,也就是找出影响卖家成交的核心因素,并将之提炼成具体的层级和门槛,这一部分则是本案例的重点和核心所在。

如何找出其中的核心要素以及重要性的先后顺序?在本课题中,使用了预测(分类、响应)模型的方法,即通过搭建预测(响应)模型(目标变量是“近30天是否在线成交”,输入变量由数据分析团队与业务团队共同讨论确定),并通过多种模型算法的比较,最后找出决定交易的几个最重要的输入变量及先后次序。

最终的分层模型大致如图3-3所示,限于企业商业隐私的考虑,针对该数据做了处理,请勿对号入座。

图3-3 交易卖家分层示意图

该金字塔每一层里的数量代表满足该条件的会员(卖家)数量,而且各层之间的条件是连贯且兼容的,比如,从下往上数,第6层“当前有可交易Offer”的用户有204万人,占其前一层“可交易行业卖家”269万人的76%,而且该层的用户必定是同时满足其下5层的所有条件的(包括来自可交易行业,当前有有效Offer,近1年有新发或重发Offer,近30天有登录网站或即时通信工具等)。

细心的读者可能会发现,最顶层的人数是31万,占近30天有交易卖家总数的71%,为什么不能占近30天有交易卖家总数的100%?这个差距正是由金字塔模型的本质所决定的,无论这个层层进化的金字塔模型多么完美,它还是无法完全圈定有交易卖家的总数,总是有一部分有交易的卖家不是满足上述金字塔上半部分的那些条件、门槛、阀值。这也是类似的分层模型只能看大数、看主流的主要原因和特点,但是只要这个模型可以圈定大多数的人群(比如本项目实现的71%,或者更高),那它就有相当的代表性,就可以作为相应的决策参考和业务参考。

当然,这个模型是否可以投入应用,还需要进一步检验,常规的检验方法就是通过不同时间段的数据,看是否有相似的规律、门槛、占比、漏斗,也就是看这个金字塔的结构是否具有一定时间长度的稳定性。在本项目中,我们通过前后各半年的数据分别进行了验证,发现这个金字塔的结果总体还是比较稳定的,确实可以作为决策参考和业务借鉴。

案例二:客户服务的分层模型

背景:A产品是一个在线使用的付费产品,其主要功能就是让卖家实时获悉来自己网店的买家,可以让卖家通过主动对话促成双方的交谈,一旦对上话,卖家就可以得到由系统提供的买家联系方式等。很明显,该产品的核心功能(卖点)就是让卖家第一时间抓住来店铺的买家,并通过对话拿到买家的联系方式,方便后期的跟进,直至达成交易。现在该产品的客户服务团队正在负责付费用户的后期续费工作,该客服团队希望数据分析师帮他们制作一个付费用户的分层模型,在业务方的设想中该模型至少有3层,每一层可以对应相应的客服方案来帮助该层客户解决问题,模型的最终目的是促进付费客户的续费率稳步提升。具体来说,业务方希望根据业务敏感和客服资源储备,对付费用户进行3个群体的划分,每个群体有明确的业务诊断和客服方案(第一个群体,“体质差的客户群体”,比如访客数比较少,并且客户登录在线平台的次数也比较少(导致双方握手交谈可能性不高),这群客户被认为是最次要关注的;第二个群体,“问题客户群体”,比如对该产品的功能点使用都很少的客户,针对这群客户,客服团队可以对他们提供有针对性的产品功能教育;第三个群体,“生死线客户”,这群客户特点是有相对而言数量较多的访客,但是他们很少主动洽谈(以至无法拿到买家的联系方式,影响后期的成交),之所以称之为“生死线客户”,是因为客服团队希望作为重点关怀的群体,把他们从产品使用的“无效性”上拉回来,把他们从可能流失(续费)的生死线上拉回来(这群客户有理由从产品中获益(拿到买家联系方式),只是他们没有主动联系客户,如果他们能主动与买家洽谈,从而拿到联系方式,他们的成交业务有理由明显上升)。

该案例的分层模型用不上复杂的建模技术,只需要基于简单的统计技能就可实现。在深度把握产品价值和业务背景的前提下,我们与业务方一起基于他们设想的3个细分群体,根据实际数据找出了相应的具体阀值。具体来说,针对“体质差的客户群体”,基于访客数量和自身登录平台的天数和次数,进行两维数据透视,就可以找到满意的阀值和门槛定义;针对“问题客户群体”,只需要针对各功能点使用情况的10分位,找出最低的20%~30%用户就可以了;针对“生死线客户群体”,同样是基于访客数量和自身主动洽谈的次数,进行两维数据透视,也可以找到满意的阀值和门槛定义,这样就能根据数据分布情况找到有很多访客,同时主动洽谈次数很少的客户群体。上述群体划分的方法主要是基于业务理解和客服团队的资源配备的,事后的方案验证也表明,该种群体划分不仅能让业务方更容易产生理解和共鸣,也能很好地稳定并提升付费用户的续费率。

相关文章
|
2月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
51 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
2月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
43 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
2月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
52 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
2月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】生成模型和判别模型的区别及优缺点
文章讨论了生成模型和判别模型在数据挖掘中的区别、原理、优缺点,并提供了一些常见的模型示例。
29 0
|
4月前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
273 11
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
1063 3
|
4月前
|
人工智能 分布式计算 算法
数据挖掘实战随笔更新清单
这是一系列技术博客的摘要,涵盖了多个主题。包括Elasticsearch实战经验、Maxcompute中的Geohash转换和GPS处理、Python环境配置与管理(如Jupyter、Miniforge、Miniconda)、批量接口调用、多进程CSV图片下载、Excel到Markdown转换、Scikit-learn的异常检测(OC-SVM)和模型总结、人工智能领域的图像分类和识别、文本挖掘算法以及数仓相关的行转列处理。所有文章都在持续更新和补充中。
41 2

热门文章

最新文章