web日志中的频繁访问日志挖掘

简介:
+关注继续查看

web访问日志

主要是指用户在访问某网站的时候产生的日志信息,采集方式包括前端Javascript埋码采集和后端服务器日志采集两种。

前端采集目前主要以javascript为主,收集用户数据。

后端服务器日志根据网站架构,一般以nginx和tomcat等加上业务日志的采集为主。

对于数据的权威和准确性而言,应该首先以后端服务器产生的数据为主,配合前端采集的数据来进行整体的分析和挖掘。

日志分析流程

e03c8ffdf034f33709035f961d08400d3b0a8d6f

日志分析流程如下:

  1. 数据采集:包括埋码和业务数据收集两种。
  2. 数据传输:包括实时和离线传输两种。
  3. 存储:建立统一的数据仓库。
  4. 分析和建模:数理统计和数据挖掘。
  5. 可视化展示:分析结果、挖掘结果及分析报告。

nginx样例数据

样例数据格式:

      124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"
格式分析: 
        1、访客ip地址:124.42.13.230
        2、访客用户信息: - -
        3、请求时间:[18/Sep/2013:06:57:50 +0000]
        4、请求方式:GET
        5、请求的url:/shoppingMall?ver=1.10.2
        6、请求所用协议:HTTP/1.1
        7、响应码:200
        8、返回的数据流量:7200
        9、访客的来源url:http://www.baidu.com.cn
       10、访客所用浏览器:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

对于这种数据,可以交叉组合,开成多维度的数据分析与挖掘。

web日志挖掘的目标

web日志挖掘的目标:

1、以改进站点设计为目标,根据挖掘到的用户频繁访问路径重新调整链接关系。

2、以分析网站性能为目标,统计出用户经常浏览的页面及访问时间等。

3、以理解用户意图为目标,根据这些信息对用户的请求做专门的定制,然后将页面返回给用户。

使用分为:

1、web结构挖掘。

2、web内容挖掘。

3、web使用挖掘。

e39c0399c7f20bffd819d824e994895bcf7921be

web日志挖掘流程

分为数据收集、数据预处理、模式发现和模式分析几部分。


dcb6a72e59238c10bc75a111a920cebcbe2e3c6c

作者:skyme

联系方式:

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
通过MAE和WEB采集基站一键式日志方法
通过MAE和WEB采集基站一键式日志方法
|
2月前
|
网络协议 Shell Perl
根据web访问日志,封禁请求量异常的IP,如IP在半小时后恢复正常,则解除封禁
根据web访问日志,封禁请求量异常的IP,如IP在半小时后恢复正常,则解除封禁
32 1
|
3月前
|
存储 JSON 运维
【Go】基于 Gin 从0到1搭建 Web 管理后台系统后端服务(一)项目初始化、配置和日志(下)
【Go】基于 Gin 从0到1搭建 Web 管理后台系统后端服务(一)项目初始化、配置和日志(下)
|
3月前
|
存储 JSON 监控
【Go】基于 Gin 从0到1搭建 Web 管理后台系统后端服务(一)项目初始化、配置和日志(上)
【Go】基于 Gin 从0到1搭建 Web 管理后台系统后端服务(一)项目初始化、配置和日志(上)
|
4月前
|
存储 运维 Java
[powershell运维] Web 服务器日志依日期归档
本文记录了一个以 Jboss 服务器日志归档的 powershell 示范项目。该项目只需要略加修改,即可用于所有类似需要归档日志的场景。
65 0
|
8月前
|
Java
用SpringBoot搭建个人博客01-----使用AOP统一处理Web请求日志
AOP 是面向切面的编程,就是在运行期通过动态代理的方式对代码进行增强处理,比较核心的概念有 切点,切面,通知,有关AOP的详情参考:。 本文要介绍的是在一个SpringBoot项目中如何统一的处理Web请求日志,基本思想还是采用AOP的方式,拦截请求,然后,写入日志。
108 0
用SpringBoot搭建个人博客01-----使用AOP统一处理Web请求日志
|
9月前
|
监控 安全 应用服务中间件
记一次利用GrayLog实现采集与备份云服务器Web访问日志的实现过程
记一次利用GrayLog实现采集与备份云服务器Web访问日志的实现过程
164 0
记一次利用GrayLog实现采集与备份云服务器Web访问日志的实现过程
|
10月前
|
监控 Apache 流计算
2-网站日志分析案例-基于Flume采集WEB日志-windows版本
文章目录 2-网站日志分析案例-基于Flume采集WEB日志-windows版本 1.Flume简介 2.在Windows环境下安装Flume
|
10月前
|
缓存 负载均衡 应用服务中间件
基于Python实现WEB日志生成
文章目录 基于Python实现WEB日志生成 1.日志作用 2.常见的web服务器日志介绍 2.1Apache 2.2Ngnix 3.基于python实现日志生成
基于Python实现WEB日志生成
|
存储 Java 应用服务中间件
SpringBoot2.x系列教程04--SpringBoot花样配置之自定义Web端口及开启日志功能
前言 上一章节中,壹哥 带各位玩了个花样配置,设置了一个自定义的Banner图,而且 壹哥 还给各位留了个作业,让大家设计一个苍老师的图片给我看看,是不是都设计好了呢?别忘了发给我共享哦。 今天 壹哥 带各位再学习其他的一些花样技巧,比如设置自定义的Web端口号,启动Log日志功能等,这些可不是花架子了哦,这些都是很有用的实战技巧,这些都是我们项目开发时必须配置的设置。 一. 修改端口号和访问路径 我们知道,在任何一个Web项目中,都需要设置一个Web端口号,比如80、8080、8081等端口号。有的小伙伴说,我就没设置过端口号也没问题啊!你没配置过,那是因为使用的是默认的80或者8080端
165 0
相关产品
云迁移中心
推荐文章
更多