开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段):网站流量日志分析--统计分析--多维统计分析--了解其他维度分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/696/detail/12227
网站流量日志分析--统计分析--多维统计分析--了解其他维度分析
1、在项目中如何开展多维分析可以从哪些维度进行,第一个按照栏目维度分析,网站的栏目可以理解为网站中内容的相关主题集中,直白一点,物以类聚,相同的网页相同的字段聚集在同一模块上,比如大型新闻门户类的网站,根据内容划分,汽车栏目,手机栏目,科技栏目,历史栏目,政治栏目,用户可以根据自己的需求找到不同的栏目,对于网站管理起来也比较方便。
2、当下企业中如何管理不同栏目,体现在域名上来看就是不同的栏目会有不同的二级目录。比如某网站网址为 www. xxxx. cn,不同的网站可以用不同的二级目录表示,旗下栏目可以通过如下方式访问:
栏目维度: .. /job 栏目
栏目维度: .. /news 新闻栏目
栏目维度: .. /sports
栏目维度: ../technology
那么根据用户请求url就可以解析出访问栏目,然后按照栏目进行统计分析。
java 学科,/java,/大数据,这样可以通过不同的二级目录表示不同的目录,二级目录就会转化成为请求网站中 request 中一部分,对它进行解析再进行分组。
3、打开数据,在数据中采集字段 request,request 所表明的就是请求的是哪个页面哪个资源,如果请求的是/表明请求的首页,首页栏目,wp- content 当成栏目,没有具体的业务含义,统计 java 栏目,大数据栏目,page 栏目,用 hive 语句体现出来之后,再做一个 group by 分组统计,就可以统计出每个栏目,给出需求统计今天每小时访问不同栏目的 pv 多少,uv 多少,访问首页栏目的pv多少,访问 java 栏目 pv 多少,非常现实的具体指标,发现最后落实到 sql 层面,还是 group by 确定分组的字段分组的维度进行统计 count。重点在于栏目的识别和解析,是第一个按照栏目维度分析的,给时间整合,甚至跟来访的也可以做整合,举例统计今天来自于百度的用户访问首页的有多少,发现来访者来自于百度,加个条件,访问首页,发现更贴近于实战需求,只关注一块数据,这就是具体企业中的多维分析。
4、回到数据中,还有一个维度比较方便好分析,用户从哪来,地域维度,想跟用户的地域产生关系,只有 ip 能产生关联,ip 本身表示用户,但是表示用户不精准,可以根据 ip 反应从哪个省哪个市哪个运营商来都要统计,今天有两万人到网站,想知道两万人是全国哪个省哪个市来的多,根据ip做解析,解析出来背后来自于哪个省哪个市,做 group by,count 统计。统计来自网站用户到底是哪个运营商多,电信,联通,铁通,长城宽带,因为网站针对不同的运营商会有不同的优化,线路访问快还是访问慢,带宽怎么样,都可以统计,如果有业务需求都可以开展,重点不在于如何统计分析,因为sql写起来难度不大,问题在于如何根据 ip 解析用户所在的地方,所在地域。
5、打开浏览器搜索,可以在网页上进行解析,搜索 ip。
打开一个可以看到 ip 来自于北京,鹏博士电信。
如果用ip一个一个查询很麻烦,如何根据 ip 解析来自于哪里很重要,网上是怎么解析的呢,背后做相关的接口规则,重要的是 ip 所对应的数据,ip 分配有相关的规范规定,涉及到如何根据 ip 解析来访。
6、打开参考资料,选择项目资料,选择数据预处理。
可以下载开源免费的或者收费的 ip 解析包。数据库会维护运营商的信息,免费的是数据不完整的,数据有遗漏的,不是最新的。
如果想要更加精准就需要付费做相关解析,解析后保存在数据中,对 ip 进行查询,解析相关的字段做分组统计,在项目中不管是时间,来访,终端,ip,地域还是其他的维度,可开展分析的维度比较多,重点在于维度的确定以及维度字段如何解析,多维分析维度直接影响 sql 如何编写结果如何产生。