开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段):网站流量日志分析--统计分析--漏斗模型转化分析 &hive 级联求和问题】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/696/detail/12242
网站流量日志分析--统计分析--漏斗模型转化分析 &hive 级联求和问题
1、页面路径转化率的分析,分析背后会包含非常生动的模型叫做漏斗模型,在企业业务中会定一个目标,目标跟需求相关,为了到达目标,要制定业务流程,流程中有各不同的步骤,用户按照步骤层层递进的过程中最终到达目标,问题在于在递进的过程中用户会因为各种各样内部外部的原因离开转化流程,就会使得数据越来越少,最后形成漏斗模型,上面大下面小,在漏斗模型中可以看到相关转化率的情况或流失率的情况,根据相关的问题做出相关的改变。
2、在漏斗模型中可以计算哪些指标,并且在漏斗模型中还隐藏着 have 中非常深的问题,因为如果只有业务,模型都可以理解,非常的方便,也非常的生动形象,问题在于如何把指标转化成的 sql 层面进行计算。
3、打开画图板,进行逐级递减,在企业中所希望的是100%,在层层递减的过程中就形成了漏斗模型。
转化,业务中制定的目标,为了到达目标会制定业务流程,在指引用户根据流程到达目标的过程,称之为转化。
step |
nums |
1 |
1000 |
2 |
800 |
3 |
500 |
4 |
200 |
在漏斗模型中计算最多的就是转化率,相反的词叫做流失率转,从数学层面可以知道转化率和流失率是同一种现象,两种不同角度的描述,转化60%意味着流失40%,加起来等于一,每一步相对第一步的转化率,都跟第一步相比较叫做绝对转化,每一步相对上一步的转化率就是两步骤之间衔接有没有问题,叫做相对转化,业务从背后理解就是相处的过程,比如500除以800是第三步相对于第二步,200除以500是第四步相对于第三步,寻找规律发现不管是绝对转化还是相对转化,有个现象就是记算第二步的绝对转化需要第二步的数据800以及第一步的数据,两个相处才能得到,如果计算第四步的绝对转化需要第四步的200和第一步的1000,200除1000才可以得到,同样后面的指标也有规律存在。
4、规律:计算的每个指标,除了依赖自己的当前行的数据,还依赖之前行的数据。每一个指标的计算除了跟自己当前相关,还跟上一行相关,称之为hive的级联求和问题,如果直接写sql是计算不出来的,不可以取两行数据,用第一行的一列和第二行的一列进行操作,因为当下操作sql的操作表的方式是基于行的,就是能拿到一行,一行中的不同列,而不可能拿到多行取它不同的列。
5、针对级别集合问题,解题思路:
自己和自己进行关联 join,本质原因在于通过自己和自己 join 可以把当前行和之前行出现在一行中。
6、比如数据处在三行中,如果需要a除以C或者C除以a不好操作,但是如果给的数据是 abc 放在一行中,可以在一行中拿第一个字段和第三个字段,本质是如何把ab两个出现在两行中变成一行,join 就可以改变它,不同列的abc可以出现九种结果,可以通过 join 把数据多行变成一行,再根据相关的规律寻找计算即可,所以这类集合问题背后的规律非常重要,只要发现出现一个指标需要当前行的数据和上一行的数据,就用自己和自己join进行解决,这是突破一类问题的核心点。