Day04-数据分析模型

简介: Day04-数据分析模型

数据分析模型


数据分析流程


对于设计师或者产品经理运营来说,熟练运用数据分析很重要,只有掌握了数据才能摸清用户需求,从而设计出用户满意的产品。

数据分析师的工作是什么样的?数据分析的流程有哪些?

通常会有一个苦恼,不知道如何去衡量自己的方案是否有效。毕竟发声的客户都是对体验不满的用户,没有问题的用户都是沉默的。

针对这些问题,也是总结了两种方法


第一:定性法

当你的产品没有办法收集大量数据的时候,只能定性的去观察分析这个产品体验的好坏了

例如:很多B端的用户界面,很难收集完整的数据或用户反馈,只能通过专家走查或者收集用户意见来判断产品是否好用。常用的方法有:Google的HEART模型、阿里的TECH模型。

备注:

HEART 作为业界影响力最大之一、关注用户的度量方法体系,是我们实践的参考基础。下面简单介绍下它的主要内容:

愉悦度(H):主观满意程度,包括 NPS、可用性、易用性、视觉感受度等;

参与度(E):活跃程度,包括访问频率、访问深度、停留时间、日活、月活等;

接受度(A):核心功能的使用,比如用淘宝买东西、支付宝支付、微信发朋友圈等;

留存率(R):次日留存率、周留存率、月留存率等;

任务完成度(T):任务完成效率和效果,任务时长、出错率、流失率等;


第二:定量法

如果你的产品是很成熟的C端产品,可以收集大量用户数据,并将这些数据可视化,去分析用户如何使用产品,设计师也可以很好的去量化设计的效果。

如:DAU涨了5%、人均VV降了0.4、CTR提高了10%等等,可以很客观的衡量设计方案的效果。

备注:

DAU(Daily Active User),日活跃用户数量。一般用于反映网站、互联网应用等运营情况。结合MAU(月活跃用户数量)一起使用,用来衡量服务的用户粘性以及服务的衰退周期。


播放类指标

VV(Video View,播放数),是指在一个统计周期内,视频被打开的次数之和。CV(Content Views,内容播放数),是指在一个统计周期内,视频被打开,且视频正片内容(除广告)被成功播放的次数之和。

由于用户在广告播放的时候流失,所以CV<VV。

浏览类指标

PV(Page View,浏览量),是指在一个统计周期内,浏览页面的数之和。

UV(Unique Visitor,访客数),是指在一个统计周期内,访问网站的人数之和。

其中,PV的统计方式很容易理解,通常会将来自浏览器的一次HTML内容请求计算为一次PV;很多小伙伴会对如何定义一个UV持有疑问,在网站分析系统中,会依据用户的浏览器、设备型号等信息,为用户分配一个编号(Cookie,若一用户换了浏览器和设备,cookie会随之变化),访客数就是访问网站的Cookie数量。


CTR:点击通过率,Click-Through-Rate (点击通过比率)。CTR=实际点击次数/展示量,即 Click / Show content。


以上这两种方法,都是数据收集的过程,第一种更感性,第二种更理性客观


一、数据分析要解决什么问题?


21f36977a9dfa0df2a3519a0aa3f5a71_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_13,color_FFFFFF,t_70,g_se,x_16.png

1. 研究历史

举个例子:视频行业某个产品的DAU有一段时间突然迅猛增长。

如果是一个新手设计师,可能会困惑:这段期间没有做任何需求和活动,为何数据会涨?然后他去看看了去年的DAU趋势,才恍然大悟:原来是每次到了寒暑假的周期,孩子们放假了,就会呆在家看视频,DAU自然会涨。


由此可见,数据分析可以帮设计师客观的描述事实,追溯历史。但有个小问题,就是这些数据都是存储在云端的,服务器的内存是有限,有的公司只能存1-3月的数据,这样就会导致无法追溯太久远的数据


2. 解释现状

对于一些核心数据,如:DAU、PV、用户停留时长,它们时刻都在变化,需要每天监测。帮助检查线上是否出现设计事故,也可以用来评估设计方案上线后的效果如何。


在了解问题发生原因的基础上,设计师也可以根据曲线预测业务的发展趋势和影响程度。


张小龙曾经在微信公开课上讲过,他坚信一个原则:一个新产品如果没有获得一个自然的增长曲线,就不应该推广它。因此,直到微信2.0的时候,他看到了增长曲线,虽然不是很快,但是是自然往上走的


此时,他们才开始了着力推广。

数据分析能帮我们对一个产品的未来趋势走向进行宏观的预测,辅助我们做更正确的决定。这个相对而言会比较难,也需要经过时间慢慢的验证。


4. 洞察商机

你寻找到一定的规律,就能挖掘更多未被满足的需求。如果发现已登录的用户购买VIP的概率更大,是不是可以想办法去提高用户的登录率。


5. 寻求最佳方案

这个也是设计师经常会用到的,ABCD哪一个最好?如何验证?

除了Netflix的ABtest的方式,还可以可以通过分渠道、分设备ID或者灰度测试的方法,都可以快速的去验证当前的方案是否可行,如果发现问题,可以快速修改。


二、数据分析师的工作


下图中可看出一个常规的数据分析师日常工作都是在收集数据、处理数据,根据二八原则,他们花了80%的时间只能做20%的价值,而真正有价值的是洞察、决策、行动来创造用户价值的工作,这部分的工作只占20%,但是尤为重要

c94800f414677d4a77d8019d33c8810d_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png


大部分的工作岗位均是如此,如:一个视觉设计师,需要非常熟悉PS、AI之类的工具,这些工具和技能带来的价值没有设计策略高,但是到设计策略这个层面是更难的,设计师应该需要看到完整的职位能力模型地图


三、数据分析流程


数据分析的主要流程分为:数据分析框架—数据获取—数据处理—数据分析—和撰写报告这5步

第一步数据分析框架:包括确定分析的目标、确定要分析数据的指标、想清楚分析的时间和数据应用的公式。然后把需求提给后台的产品经理,让研发同学做好埋点;


第二步数据获取:方式很多:有线上、线下的;部门内部的、外部的;公司内部的、外部的;


第三步数据处理:主有:数据清理、数据抽取、数据合并、数据计算和数据可视化;


第四步数据分析:主要有5种方法:对比分析法、分组分析法、预测分析法、漏斗分析法和ABtest分析法;


第五步撰写报告:报告建议结论先行,因为通常一份数据分析的报告是很长的,如果把结论分散的放在后面,阅读性比较差,观看者很少会耐心看完。


然后就是措辞要严谨,写清楚分析的目的、分析的要点,不要放与结论支撑无关的数据,写完结论后可以附上相关的建议,这样完成了数据分析闭环,其他配合同学可明确知道优化的需求点

4da94e4dbd32450d8e021e30f8de4633_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png


1. 数据分析框架

数据分析框架包含哪些内容呢?

首先需要想清楚为什么要分析这个数据,它影响的核心指标有哪些。


举个例子:在视频播放器里有一种叫4k的码流,效果比超清画质更好,最开始属于VIP权益;后来为了提高登录率,战略上把4k改成了登录权益,那么分析这个需求的目的就是看看4k的权益更改之后对登录率的影响。


指标就是设备登录率,公式是登录UV除以DAU;然后还需要对这个公式的结果进行预测,以4K这个功能为例,理论上数据应该是会提升的


起初这些数值可能是拍脑袋得出来的,但是拍版的次数多了,经验值也就越准了。

ddc04e29d55cc839dce0c8111db4959d_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png

然后是版本型号,因为同时在线的可能有很多版本,需要分析的这个功能在哪个版本上线,需要与哪个版本对比,这些都是需要考虑的


然后就是查询时间段,这个需要特别说明一下,通常会取新版本发布后前两个周的数据,因为2周的用户量本足够了,且用户行为特征也基本形成了。


这里需要注意一点,很多PM也可能会弄错,他们查询时间段会取新版本发布后的2周数据和老版本在新版发布前两周的数据。也就是说:如果新版本是3月15日发布的,取的数据就是新版版3.15到3月28日和老版本3.1日到3.14。

开课吧旭旭老师:

通常情况下不建议这么取数据,因为用户不在一个周期范围。


第一波更新用户和最后一波更新用户的行为模式是不一样的,发版后立马使用产品的人一定是非常活跃的用户,他们的用户粘性和行为特征与其他用户是不同的,这里没有控制用户属性变量。


但是如果选的都是发版后的数据对比又有什么问题呢?


如果是跟运营内容强相关的数据,变量太大了。比如你正好要统计的这个区间《延禧宫略》完结,那肯定会影响DAU。


所以如果这个数据非常重要,就需要运营同学在这两个版本之间控制好内容,不要突然新增一个热门内容。或者评估用户周期和内容的影响程度,更好的取舍——数据分析很难做到绝对的控制变量。


查询方式通常有两种:

一种是看BI报表,就是简单的输入需要的版本号、日期和筛选维度,就可以拉出数据了。


pingback就是一种数据埋点的方式,当用户发生某种行为时,我们向后台发起请求,记录下这个行为的发生,就是一种统计的方式。比如:制定全屏播放的时候t=1,小窗口播放是t=0,然后输入简单的类似代码的运算符,就可以跑出需要的数据了。


pingback要注意的一点就是可能会经常出bug或者数据不准的情况,需要设计师自己去判断数据的真实性。比如如果登录人数比DAU还多,那肯定是有问题


然后就是优先级,埋点是需要向后台产品或技术提需求,他们需要根据优先级进行排序埋点、生成报表的。通常P1是必须要做的,P2是要做但是可以分期做,P3是可做可不做的。


备注可以增加一些额外的需求,比如小渠道期间就要观察数据,那么小渠道期间埋点就要做好。通常体量大的成熟的产品都会有灰度测试,可以通过小渠道、批量放量的方式进行数据监测。


因为TV端的渠道有很多,什么沙发、当贝之类的,可以通过先在部分渠道push新版本的安装包观察用户反馈。


手机端、pc端可以通过IP地址来筛选一批少量用户使用新版本。灰度测试的目的其实就是为了测试产品新增的改动用户是否有负面反馈。因为产品体量比较大,贸然的全量可能会造成事故。


2. 数据获取

数据是进行数据分析的前提,“巧妇难为无米之炊”说的就是这个道理。

因此,数据的收集是非常重要的。按收集方式的不同,数据收集可以分为线上收集和线下收集;按收集渠道的不同,又可以分为内部收集和外部收集。

c36032ebcd9bbef214437eb0bbf3fd17_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png


线上收集的数据指的是利用互联网技术自动采集的数据,例如,企业内部通过数据埋点的方式进行数据收集,然后将收集来的数据存储到数据库中。


另外,利用爬虫技术获取网页数据或借助第三方工具获取网上数据等都属于线上收集方法。一般情况下,互联网科技企业、互联网电商企业、互联网游戏企业等都采用这种方式来收集用户行为数据,因为效率很高且错误率很低。


线下收集的数据相对比较传统,对技术要求不高。


例如,通过传统的市场调查问卷获取数据,就属于线下收集。除了问卷调查这种很熟知的方式之外,通过手工录入获取数据以及通过其他人提供的电子表格获取数据等等,都属于线下收集方式。


这种收集数据的方式效率低且容易出现偏差。一般情况下,传统制造型企业、线下零售企业、市场调研咨询类企业等都采用线下方式收集数据。


内部收集数据指的是获取的数据都来源于企业内部数据库、日常财务数据、销售业务数据、客户投诉数据、运营活动数据等等。这种数据的获取相对较为方便,数据分析员可以根据实际业务需求对内部收集的数据进行处理分析。


关于内部收集的数据有时候会存在跨团队咨询,这里有一个巧妙的方法,可以提前验证设计方案是否可行。假设设计师想以设计为出发点做一个功能,但是不确定这个功能效果如何,用户反馈如何,这个时候怎么办呢?


很多企业内部是按平台划分的,如pc端、移动端、web端、tv端等等,可以先看看其他平台或者竞品有没有做过类似的功能,他们是怎么做的?数据如何?


外部收集的数据指的是数据不是企业内部产生的,而是通过其他手段从外部获取的


例如,利用爬虫技术获取的网页数据,从公开出版物收集的权威数据,市场调研获取的数据以及第三方平台提供的数据等。外部数据的收集不像内部收集那么容易,且大部分都是碎片化、零散的数据。


所以,数据分析师需要对这些数据进行清洗和整合,然后再去进行分析。

总之,不管以什么方式获得的数据,都应该是有价值和意义的,设计师更应该去发现数字背后暗藏的规则和发展趋势。


3. 数据处理

一般通过不同途径收集过来的原始数据都是相对比较粗糙且无序的,此时,需要利用数据处理软件进行一系列的加工处理,降低原始数据的复杂程度,最终汇总成用户可以解读的业务指标。


数据处理过程如下:

1)数据清洗:将多余的重复数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。

2)数据抽取:也就是抽取保留数据表中的某些字段和纪录部分信息。

3)数据合并:就是综合数据表中某几个字段的信息或不同的纪录数据,组成新的字段或新纪录数据。最后就是将获取的数据按公式进行处理和计算,并进行可视化。

92128d411e6526e7d473e62a1254314a_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png

首先,按照第一步对数据进行清理,去掉所有空的、没有字段的数据,可能是技术同学发错了,删除即可。数据抽取和数据合并可以直接在excel里建立数据透视分析表,然后进行数值计算,可以求平均值、求和之类的,最后就把这个数据做成图表。


常用的数据处理工具包括Excel之类的电子表格软件、各类数据库软件、Python、SPSS等,这些工具都包含数据处理模块,方便用户对数据进行快速清洗,然后进行分析。


4. 数据分析

处理完数据之后,设计师需要对这些处理完的数据进行分析。常用数据分析方法,分别是:对比分析法、分组分析法、分析预测法、漏斗分析法和ABtest分析法。


通过对比分析法就可以对规模大小、水平高低、速度快慢等做出判断和评价。


2)分组分析法:分组分析法与对比分析法很相似,不同的是分组分析法可以按照多个维度将数据拆分为各种组合,并比较各组合之间的差异。


3)预测分析法:预测分析法主要用于未知数据的判断和预测,这个方法在大数据时代显得尤为突出和重要。


预测分析法大致可以划分为两种:一种是基于时间序列的预测,即根据指标值的变化与时间依存关系进行预测(具体的预测方法有移动平均法、指数平滑法等);另一种是回归类预测,即根据指标之间相互影响的因果关系进行预测(具体的预测方法有线性回归、KNN算法、决策树模型等)。

这里给大家举个例子

086bdbb9bef8a2a651abf07d5ef6c6ca_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png

4)漏斗分析法:漏斗分析法通常也称为流程分析法,其目的是关注某事件在重要环节上的转化率,这个方法在互联网行业的用的非常多


以B2C的电商为例,用户从浏览页面到完成购买通常会有4个重要的环节,即用户通过主页或搜索的方式进入商品列表页,再到点入具体的商品进入商品详情页,接着将心仪的商品加入到购物车,最后将购物车内的商品结账完成交易。


834fadcae61f1cec342aeb91c11f71ff_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png

5)AB测试分析法:AB测试分析法也是一种对比分析法,该方法侧重于对比AB两组结构相似的样本(如用户属性和行为相似、产品特征相似等),并基于两组样本的指标值挖掘各自的差异。


例如某APP的同一个功能页面,设计了两种不同风格的页面布局,然后将两种风格的页面随机分配给测试用户(这些用户的结构都比较相似),最后根据用户在该页面的浏览转化率来评价不同页面布局的优劣。


5. 撰写报告

撰写数据分析报告,这个是很重要的一个环节,首先需要想想阅读对象是谁,老板肯定会看,其次业务方也会看,与需求利益相关的人都会看这个报告,所以报告的呈现很重要。


首先要结论先行,金字塔原则—— 先说重点,感兴趣的同学再深入研究,所以通常需要把核心的数据结论和表现放在目录里。


分析的指标内容,通常每期一定会分析核心的3个KPI数据,与核心指标相关的就归于一类,比如说新增用户的次日留存,那么所有跟新增用户次日留存相关的需求按优先级进行排列。


而且每个需求需要单独列出分析的小结,结论中要包含主要数据和分析结论——这个是一个目录的要求。


到每个详细的需求分析时,需要列出每个需求的描述,就是我们理解的需求背景、功能介绍、分析思路。要说清楚跟上一个版本的改动点,最好有界面配图。


截图这里也需要注意,就是控制变量嘛,所以如果需要比较两个版本的方案变化,最好是截取同一个场景,观看者可以很直观的看出哪里发生了变化。


还有一点很重要:要列出你计算的公式。


因为很多公司衡量数据的指标是不一样的,哪怕同样一个名称,比如DAU:有的公司DAU=UV、有的公司DAU大于UV、有的公司DAU小于UV,因为它统计的口径不一样,所以一定要标出数据指标。

ac505d38181e2c2b11356567a478b87e_watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASVTku47kuJrogIXlvKDmn5Dmn5A=,size_15,color_FFFFFF,t_70,g_se,x_16.png

分析报告的输出是整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据。


不要创造太多难懂的名词,如果老板在看分析报告10分钟内让你三次解释名词,那么你写出来的价值又在哪里呢,当然如果无可避免地要写一些名词,最好要有让人易懂的“名词解释”。


好的分析要有很强的可读性,这里是指易读性,每个人都有自己的阅读习惯和思维方式,写东西时你总会按照自己的思维逻辑来写,自己觉得很明白,别人不一定如此了解,要知道阅读者往往只会花10分钟以内的时间来阅读,所以要考虑分析阅读者是谁?他们最关心什么?必须站在读者的角度去写分析报告;


一份好的分析报告,有以下一些要点:


要有一个好的框架,好的分析肯定是有基础有层次,基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去的欲望;


四、注意事项


数据分析报告尽量图表化,用图表代替大量堆砌的数字会有助于人们更形象更直观地看清楚问题和结论,当然,图表也不要太多,过多的图表一样会让人无所适从;


以上就是一些基础的数据分析要点,后续会继续给大家分享使用案例,解释每种数据分析方法如何使用。


不要害怕或回避“不良结论”,分析就是为了发现问题,并为解决问题提供决策依据,发现产品问题,在产品缺陷和问题造成重大失误前解决它也是分析的价值所在;

相关文章
|
15天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
53 0
|
15天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(中)
大模型与数据分析:探索Text-to-SQL(中)
47 0
|
15天前
|
SQL 存储 数据挖掘
大模型与数据分析:探索Text-to-SQL(下)
大模型与数据分析:探索Text-to-SQL(下)
40 3
|
3月前
|
机器学习/深度学习 存储 人工智能
TableAgent数据分析智能体——数据分析师的大模型
TableAgent数据分析智能体——数据分析师的大模型
|
4月前
|
供应链 搜索推荐 数据挖掘
数据分析方法与模型
数据分析方法与模型
|
5月前
|
数据挖掘
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
35 0
87 网站点击流数据分析案例(统计分析-Visit分析【点击流模型】)
|
4月前
|
资源调度 自然语言处理 数据可视化
【数据分析与可视化】Matplotlib中十大绘图模型的讲解及实现(图文解释 附源码)
【数据分析与可视化】Matplotlib中十大绘图模型的讲解及实现(图文解释 附源码)
67 1
|
10天前
|
算法 数据挖掘 数据建模
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
30 0
|
2月前
|
数据采集 自然语言处理 数据可视化
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析(上)
数据分析案例-基于snownlp模型的MatePad11产品用户评论情感分析
80 0
|
4月前
|
数据可视化 数据挖掘 Linux
【数据分析与可视化】Seaborn中常用绘图模型讲解及实战(图文解释 附源码)
【数据分析与可视化】Seaborn中常用绘图模型讲解及实战(图文解释 附源码)
69 0