网站流量日志分析--统计分析--复合指标分析--平均访问深度|学习笔记-阿里云开发者社区

网站流量日志分析--统计分析--复合指标分析--平均访问深度|学习笔记

2022-11-21 876

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习网站流量日志分析--统计分析--复合指标分析--平均访问深度

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战（第四阶段）：网站流量日志分析--统计分析--复合指标分析--平均访问深度】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/696/detail/12215

网站流量日志分析--统计分析--复合指标分析--平均访问深度

内容介绍：

一、复合指标统计分析

二、人均浏览页数(平均访问深度)

一、复合指标统计分析

所谓的复合指标是在基础指标上做一些相关的数学操作，得到一些复杂结果，不管是复合指标还是基础指标，对于开发者要做的就是以下几个步骤，首先需要去结合指标的业务含义，搞清楚当中所包含的业务含义是什么，有没有歧义，有没有不利于理解的地方，可能需要跟别人进行沟通。理清之后需要去确定指标计算需要哪些数据，哪些表，如果没有怎么办，要不要去收集新的数据，要不要去清洗新的数据，确定好数据之后就去思考如何编写hive的sql语句，能够计算得到指标，带着这样的思路去进行开发进行分析，那么基本上在思路层面是没有太多的迷茫性。接下来就看项目当中复合指标的计算过程。

二、人均浏览页数(平均访问深度)

1、深度是来到1个网站，打开1个页面，别人打开7个页面，那么浏览的深度就多，深度就是看的页面多与少。

2、复合指标的计算

人均访问深度(人均浏览页面数) : 一天之内平均每个独立访客打开的页面数

=总的页面浏览数/总的独立访客数

=pv/uv

（1）数据表: dw_webflow_basic_ info（基础指标信息表）

通过宽表窄表也能计算出来，更加方便的是把基础信息保存在 basic_ info中，打开hive 输入showtables，发现 dw_webflow_basic_ info 表，恰好就是一天当中的pv uv vv 相关的概念，就不用再花精力进行计算，直接拿指标进行加减乘除即可。

（2）分组字段:时间( day) day 比较特殊还是表的分区字段通过 where 分区过滤即可

（3）度量值:pv/uv

不是 count(session)，而是除法的过程。

基础信息表，起个别名叫做t，通过分区进行过滤，拿到20181101这一天的数据。

select

pv/uv

from dw_webf1ow_ basic_ info t where t .datestr=" 20181101";

执行返回的结果是13.407，意味着来到网站的用户中平均每个人会打开13.4个页面，指标很不错，再评估 uv 人时是以 ip 表示人，人在计算上有一点差异性不够精准，显得指标比较大，但是背后的思想技术一样。

3、如果之前没有计算出数据表，没有基础信息表。摒弃之前的思想，没有计算出所谓的 pv uv。当前有宽表窄表点击率模型表，pv 和点击页面相关，uv 跟人相关，没有会话的概念，所以点击率模型表可以排除，有宽有窄的情况下优先选择宽表，在宽表中如何计算数据，打开宽表查看，如果不考虑静态资源过滤，就是不加 valid，当中一条记录就是一个 pv，统计里面有多少条记录，就有多少个 pv，uv 就是统计里面的 IP，ip 有多少个，它就是有多少个 uv，两个相除就可以得到，或者换个思路，先计算每个人的 pv，每个人平均加起来除以人数也可以。

4、今日所有来访者平均请求浏览的页面数。该指标可以说明网站对用户的粘性。

计算方式:总页面请求数 py/独立访客数 uv

remote addr 表示不同的用户。可以先统计出不同 remote addr 的 pv 量然后累加(sum) 所有 pv 作为总的页面请求数，再 count 所有 remote addr 作为总的去重总人数。

drop table dw avgpy user everyday;

create table dw avgpv User everyday(

day string,

avgpv string);

insert into table dw avgpv user everyday

select '20130918'，sum(b.pvs/count(b.emote addr) from.

(select remote. add,count(1) as pvs from ods weblog detail where datestr='20130918' group by

remote_ addr) b;

（1）数据表：dw_ weblog_detail

（2）分组字段：时间( day) day 比较特殊还是表的分区字段通过 where 分区过滤即可

（3）度量值：先计算每个人的 pv 加起来变成总的 pv 再除以人

计算每个人的pv，打开数据查看，根据 ip 进行分组，属于同一用户的记录，因为 ip 相等来自同一组，在同一组中进行统计，就是一个人的 pv。

Select

count(*) as pv,t.remote_ addr统计出来就是每个人的pv

from dw_weblog_ detail t where t.datestr=" 20181101" group by t.remote_ addr ;起别名，过滤，跟之前一样，表示分区表，根据用户统计分组

执行看结果，可以发现前面的指标是 pv，后面指标是用户。

平均 pv 指标比较明显，有些指标是不符合实际情况的，比如打开了100个页面，原因可能是 ip 里面有很多人。人均 pv 值，把 pv 字段多有的数字相加得到今天总的 pv，总的 pv 再除以当中的人，ip 代表人的个数得到人均的 pv 值，一个结果并不是一个表，而是 sql 语句执行反馈的结果，sql 编写的技术，当操作一个表时，如果表存在直接进行操作，如果表不存在，通过某种方式变出来，背后包含的思想就是嵌套查询的思想，因此把 sql 语句执行的结果看作成一个表。复制 sql 语句，用括号括起来起个别名叫做 a，a 中有两个字段，一个叫做 pv，一个叫做 ip，里面 sum 数字的 pv 加起来，所以 count ip 得到结果，基于表再进行操作，from 后面的表不是一个真实的表，是一个嵌套查询的 a 表，求和 pv 字段除以 count ip 的值得到的结果就是人均访问深度也叫做人均浏览的页面数。

select

sum(pv)/count(ip)

from

(select

count(*) as pv,t.remote_ addr as ip

from dw_weblog_ detail t where t . datestr="20181101" group by t.remote_ addr) a;

执行发现得到的结果跟第一种计算方式一样，13.407，可能第二种方式很麻烦，从侧面反映出如果把基础指标计算出来，再求复合指标就会很方便。