10种数据分析的模型思维让你“灵光一闪”

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 推荐10种数据分析思维,让你在工作中带来“灵光一闪”的感觉本文来源于阿里开发者公众号


很多人都说会数据分析的人比别人聪明,实际上他们“聪明”在拥有模型化的分析思维,今天我们就来说说常见的数据分析思维。以下10种数据分析思维可能不会瞬间升级你的思维模式,但说不定会为你以后的工作带来“灵光一闪”的感觉,请耐心读完,灵光一闪的时候别忘了我。

一、分类思维

日常工作中,客户分群、产品归类、市场分级……许多事情都需要有分类的思维。关键在于,分类后的事物,需要在核心关键指标上能拉开距离!也就是说,分类后的结果必须是显著的。

如图,横轴和纵轴往往是你运营当中关注的核心指标(当然不限于二维),而分类后的对象,你能看到他们的分布不是随机的,而是有显著的集群的倾向。

打个比方,经典的RFM模型依托收费的3个核心指标构建用户分群体系:最近一次消费时间(Recency)、消费频率(Frequency)、消费金额(Monetary)。

在R/M/F三个指标上,我们通过经验将实际的用户划分为以下8个区(如上图),我们需要做的就是促进不同的用户向更有价值的区域转移。也就是将每个付费用户根据消费行为数据,匹配到不同的用户价值群体中,然后根据不同付费用户群体的价值采用不同的策略(如下表)。

分类用于很多场景,比如用户分类(新老、活跃度、消费力水平分类等),商品分类(价格带、规格、用户需求等)。数据挖掘或者机器学习中很大一部分是解决分类问题,把具有某些共同点或相似特征的分为一组,这样更便于管理和做一些业务的精细化运营,也方便我们研究同类事物的共性和差异,便于理解其特性和用户需求。但要知道分类只是一种手段,不要为了分类而分类。

常见的分类方法:

  • (1) 业务规则
  • (2) 统计分析,指标项表现形似的归为一组
  • (3) 机器学习/模型
  • 朴素贝叶斯(Bayes)
  • 决策树(Decision Tree)
  • 支持向量机(Suport Vector Machine)
  • K近邻 (KNN)
  • 逻辑回归(Logistic Regression)

二、矩阵思维

分类思维的发展之一是矩阵思维,矩阵思维不再局限于用量化指标来进行分类。许多时候,我们没有数据做为支持,只能通过经验做主观的推断时,是可以把某些重要因素组合成矩阵,大致定义出好坏的方向,然后进行分析。大家可以百度经典的管理分析方法“波士顿矩阵”模型。



象限法是一种策略驱动的思维,常与产品分析、市场分析、客户管理、商品管理等。比如,下图是一个广告点击的四象限分布,X轴从左到右表示从低到高,Y轴从下到上表示从低到高。

高点击率高转化的广告,说明人群相对精准,是一个高效率的广告。高点击率低转化的广告,说明点击进来的人大多被广告吸引了,转化低说明广告内容针对的人群和产品实际受众有些不符。高转化低点击的广告,说明广告内容针对的人群和产品实际受众符合程度较高,但需要优化广告内容,吸引更多人点击。低点击率低转化的广告,可以放弃了。

象限法的优势:

(1)找到问题的共性原因

通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如上面广告的案例中,第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;

(2)建立分组优化策略针对投放的象限分析法可以针对不同象限建立优化策略,例如RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源,比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品,或一些优惠措施来吸引他们回归。

三、漏斗分析思维

这种思维方式已经比较普及了,漏斗分析分为长漏斗和短漏斗。长漏斗的特征是涉及环节较多,时间周期较长,常用的长漏斗有渠道归因模型,AARRR模型,用户生命周期模型等等;短漏斗是有明确的目的,时间短,如订单转化漏斗和注册漏斗。

一般都用于分析多业务环节和用户成交的链路分析。但是,看上去越是普适越是容易理解的模型,它的应用越得谨慎和小心。在漏斗思维当中,我们尤其要注意漏斗的长度。

漏斗从哪里开始到哪里结束?漏斗的环节不该超过5个,漏斗中各环节的百分比数值,量级不要超过100倍(漏斗第一环节100%开始,到最后一个环节的转化率数值不要低于1%)。若超过了我说的这两个数值标准,建议分为多个漏斗进行观察。

理由是什么呢?超过5个环节,往往会出现多个重点环节,那么在一个漏斗模型中分析多个重要问题容易产生混乱。数值量级差距过大,数值间波动相互关系很难被察觉,容易遗漏信息。

四、相关思维

我们观察指标,不仅要看单个指标的变化,还需要观察指标间的相互关系。有正相关关系(图中红色实线)和负相关关系(蓝色虚线)。最好能时常计算指标间的相关系数,定期观察变化。

相关思维的应用太广了,往往是被大家忽略的。常见的啤酒尿布的故事就是运用了相关性的思维,但要注意相关关系不等于因果关系,对于因果关系的探究是比较负责的问题,目前业界比较成熟的是用机器学习的方法做因果推断。这里要强调的是现在的很多企业管理层,面对的问题并不是没有数据,而是数据太多,却太少有有用的数据。相关思维的其中一个应用,就是能够帮助我们找到最重要的数据,排除掉过多杂乱数据的干扰。

如何执行呢?你可以计算能收集到的多个指标间的相互关系,挑出与其他指标相关系数都相对较高的数据指标,分析它的产生逻辑,对应的问题,若都满足标准,这个指标就能定位为核心指标。建议大家养成一个习惯,经常计算指标间的相关系数,仔细思考相关系数背后的逻辑,有的是显而易见的常识,比如订单数和购买人数,有的或许就能给你带来惊喜!

另外,“没有相关关系”,这往往也会成为惊喜的来源。不要忽略数据中隐藏的信息,多去发现其中潜在的“相关性”,往往可能会给业务带来新的机会点。

五、帕累托分析

帕累托法则,源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中,则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系,排在前20%的才算是有效数据。二八法是抓重点分析,适用于任何行业。找到重点,发现其特征,然后可以思考如何让其余的80%向这20%转化,提高效果。

一般地,会用在产品分类上,去测量并构建ABC模型。比如某零售企业有500个SKU以及这些SKU对应的销售额,那么哪些SKU是重要的呢,这就是在业务运营中分清主次的问题。

常见的做法是将产品SKU作为维度,并将对应的销售额作为基础度量指标,将这些销售额指标从大到小排列,并计算截止当前产品SKU的销售额累计合计占总销售额的百分比。百分比在 70%(含)以内,划分为 A 类。百分比在 70~90%(含)以内,划分为 B 类。百分比在 90~100%(含)以内,划分为 C 类。以上百分比也可以根据自己的实际情况调整。

ABC分析模型,不光可以用来划分产品和销售额,还可以划分客户及客户交易额等。比如给企业贡献80%利润的客户是哪些,占比多少。假设有20%,那么在资源有限的情况下,就知道要重点维护这20%类客户。



六、逻辑树思维

一般说明逻辑树的分叉时,都会提到“分解”和“汇总”的概念。我这里把它变一变,使其更贴近数据分析,称为“下钻”和“上卷”。

常用于指标拆解的分析,——做异常波动的原因分析,确定影响指标波动的核心因子,以便做更细粒度的分析。

核心是拆解!!!先拆解指标,再拆解维度,这样可以大大的提高分析的效率!!!

为什么要进行拆解呢?因为只看GTV的话,很难判断到底是由什么因素造成的波动,可能是交易用户数,也可能是客单价,所以拆解完之后,才能更便于定位某个细节点的问题。

具体拆解逻辑:

对交易额而言,是由交易用户数*客单价决定的(有就是有多少购买的人,每个人花了多少钱,两个相乘就是交易额);

如果是交易用户数的问题,就对交易用户数进行进一步的拆解,由于交易用户数=DAU*交易转化率得来的;

活跃用户数(DAU)又受到新/老客、用户生命周期(成熟期流失?沉睡用户流失?活跃用户转变成沉睡用户?)、城市(哪个城市?哪个类型城市?)、流量来源地影响(哪个渠道有问题了?哪个引流渠道不再合作了?)

当一步步的进行拆解的时候,会发现指标分析起来会更容易找到可以在实际的业务落地的维度方面的异常波动。

例如:如果说老客没有问题,但是新客减少了,是不是相当于说明要多花一些心思去拉新?如果是新客波动趋势没有发生变化,但是老客越来越少了,是不是就说明了留存出现了问题?从而导致了老客的DAU下降了?

逻辑树的分析思维很重要,平时要多沉淀,特别容易找到问题点的拆解的方式,而且拆解的顺序很关键,也非常的重要,因为思路的起始点决定了做这件事情的效率,如果没有按照有效的方法进行拆解,那么将很难定位到真正引起相关波动的的根本原因。

七、留存/队列分析思维

随着计算机运算能力的提高,队列分析(cohort analysis)这一方式逐渐展露头脚。从经验上看,队列分析就是按一定的规则,在时间颗粒度上将观察对象切片,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化。目前使用得最多的场景就是留存分析。



用户留存指的是新会员/用户在经过一定时间之后,仍然具有访问、登录、使用或转化等特定属性和行为,留存用户占当时新用户的比例就是留存率。留存率按照不同的周期分为三类,以登录行为认定的留存为例:

第一种 日留存,日留存又可以细分为以下几种:

(1)次日留存率:(当天新增的用户中,第2天还登录的用户数)/第一天新增总用户数

(2)第3日留存率:(第一天新增用户中,第3天还有登录的用户数)/第一天新增总用户数

(3)第7日留存率:(第一天新增用户中,第7天还有登录的用户数)/第一天新增总用户数

(4)第14日留存率:(第一天新增用户中,第14天还有登录的用户数)/第一天新增总用户数

(5)第30日留存率:(第一天新增用户中,第30天还有登录的用户数)/第一天新增总用户数

第二种 周留存,以周度为单位的留存率,指的是每个周相对于第一个周的新增用户中,仍然还有登录的用户数。

第三种 月留存,以月度为单位的留存率,指的是每个月相对于第一个周的新增用户中,仍然还有登录的用户数。留存率是针对新用户的,其结果是一个矩阵式半面报告(只有一半有数据),每个数据记录行是日期、列为对应的不同时间周期下的留存率。正常情况下,留存率会随着时间周期的推移而逐渐降低。下面以月留存为例生成的月用户留存曲线:

找到魔法数字,留存、激活、转化的转折点。

八、实验思维(AB tset)

在实际工作中,很多时候分析并没有足够的数据支持,在你面对一个新的业务场景的时候,比如手淘增加逛逛的内容栏目,如何帮助业务分析业务的策略是否有效值得推广呢?没有分析的支持和判断,容易出现不可控的风险,所以这种时候一般都会用到实验的思维,用小样本/小范围进行试点,效果好再逐步放量。

这里最常见的手段就是A/B test啦。

那么如何细化一下这个概念?一是在条件允许的情况下,决策前尽量做对比测试;二是测试时,一定要注意参照组的选择,建议任何实验中,都要留有不进行任何变化的一组样本,作为最基本的参照。现在数据获取越来越方便,在保证数据质量的前提下,希望大家多做实验,多去发现规律,可以按如下表格来做实验。

具体AB的流程:

A/Btest,是将Web或App界面或流程的两个或多个版本,在同一时间维度,分别让类似访客群组来访问,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。A/Btest的流程如下:

(1)现状分析并建立假设:分析业务数据,确定当前最关键的改进点,作出优化改进的假设,提出优化建议;比如说我们发现用户的转化率不高,我们假设是因为推广的着陆页面带来的转化率太低,下面就要想办法来进行改进了。

(2)设定目标,制定方案:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影响。

(3)设计与开发:制作2个或多个优化版本的设计原型并完成技术实现。

(4)分配流量:确定每个线上测试版本的分流比例,初始阶段,优化方案的流量设置可以较小,根据情况逐渐增加流量。

(5)采集并分析数据:收集实验数据,进行有效性和效果判断:统计显著性达到95%或以上并且维持一段时间,实验可以结束;如果在95%以下,则可能需要延长测试时间;如果很长时间统计显著性不能达到95%甚至90%,则需要决定是否中止试验。

(6)实验上线:根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。流程图如下:

真正实现数据驱动业务决策,No Data, No BB,看数据表现决定决策是否有效可推广,这种实验思维可以快速帮助业务把脑暴的策略落地下去,并且随着实验次数的增加,逐步沉淀有效策略,而且积累踩坑的经验(很宝贵,避免资源浪费也是一种增长)。

九、聚类分析

聚类分析属于探索性的数据分析方法。我们很多时候逛电商网站都会收到一些推销活动的通知,但是我们之前也没关注过那个商品,这些电商网站是为什么决定给我们推销这个商品的呢?这是因为电商网站,可以根据用户的年龄、性别、地址以及历史数据等等信息,将其分为,比如“年轻白领”、“一家三口”、“家有一老”、”初得子女“等等类型,然后你属于其中的某一类,电商网站根据这类用户的特征向其发起不同的优惠活动。那在利用用户的这些数据将用户分为不同的类别时,就会用到聚类分析。

通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。

常见的聚类方法有不少,比如K均值(K-Means),谱聚类(Spectral Clustering),层次聚类(Hierarchical Clustering)。以最为常见的K-means为例,如下图:

可以看到,数据可以被分到红蓝绿三个不同的簇(cluster)中,每个簇应有其特有的性质。显然,聚类分析是一种无监督学习,是在缺乏标签的前提下的一种分类模型。当我们对数据进行聚类后并得到簇后,一般会单独对每个簇进行深入分析,从而得到更加细致的结果。

十、指数化思维

指数化思维是今天分享的10个思维当中最重要的。许多管理者面临的问题是“数据太多,可用的太少”,这就需要“降维”了,即要把多个指标压缩为单个指标。指数化思维就是将衡量一个问题的多个因素分别量化后,组合成一个综合指数(降维),来持续追踪的方式。常见的应用:门店健康评分、居民幸福指数、用户调研得分等。

指数化的好处非常明显:一是减少了指标,使得管理者精力更为集中;二是指数化的指标往往都提高了数据的可靠程度;三是指数能长期使用且便于理解。

指数的设计是门大学问,这里简单提三个关键点:一是要遵循独立和穷尽的原则;二是要注意各指标的单位,尽量做标准化来消除单位的影响;三是权重和需要等于1。

PS:独立穷尽原则,即你所定位的问题,在搜集衡量该问题的多个指标时,各个指标间尽量相互独立,同时能衡量该问题的指标尽量穷尽(收集全)。例如当运营人员考虑是否需要将自己的内容分发到其他平台时,他可以采用指数化思维来整体评分。


参考文章:

1、一篇文章透彻解读聚类分析(附数据和R代码)https://zhuanlan.zhihu.com/p/37856153

2、《精益数据分析》

3、7种常用数据分析方法

https://zhuanlan.zhihu.com/p/446166743

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
83 2
|
6月前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
3219 0
|
25天前
|
数据采集 机器学习/深度学习 数据可视化
|
3月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
91 2
|
3月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
100 9
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
|
4月前
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【7月更文挑战第25天】在数据科学中,模型评估是理解模型泛化能力的关键。对新手来说,众多评估指标可能令人困惑,但Scikit-learn简化了这一过程。
57 2
|
3月前
|
机器学习/深度学习 搜索推荐 数据挖掘
【深度解析】超越RMSE和MSE:揭秘更多机器学习模型性能指标,助你成为数据分析高手!
【8月更文挑战第17天】本文探讨机器学习模型评估中的关键性能指标。从均方误差(MSE)和均方根误差(RMSE)入手,这两种指标对较大预测偏差敏感,适用于回归任务。通过示例代码展示如何计算这些指标及其它如平均绝对误差(MAE)和决定系数(R²)。此外,文章还介绍了分类任务中的准确率、精确率、召回率和F1分数,并通过实例说明这些指标的计算方法。最后,强调根据应用场景选择合适的性能指标的重要性。
433 0
|
4月前
|
数据采集 机器学习/深度学习 数据挖掘
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
267 4
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
74 2