web日志中的频繁访问日志挖掘-阿里云开发者社区

开发者社区> 开发与运维> 正文
登录阅读全文

web日志中的频繁访问日志挖掘

简介:

web访问日志

主要是指用户在访问某网站的时候产生的日志信息,采集方式包括前端Javascript埋码采集和后端服务器日志采集两种。

前端采集目前主要以javascript为主,收集用户数据。

后端服务器日志根据网站架构,一般以nginx和tomcat等加上业务日志的采集为主。

对于数据的权威和准确性而言,应该首先以后端服务器产生的数据为主,配合前端采集的数据来进行整体的分析和挖掘。

日志分析流程

e03c8ffdf034f33709035f961d08400d3b0a8d6f

日志分析流程如下:

  1. 数据采集:包括埋码和业务数据收集两种。
  2. 数据传输:包括实时和离线传输两种。
  3. 存储:建立统一的数据仓库。
  4. 分析和建模:数理统计和数据挖掘。
  5. 可视化展示:分析结果、挖掘结果及分析报告。

nginx样例数据

样例数据格式:

      124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"
格式分析: 
        1、访客ip地址:124.42.13.230
        2、访客用户信息: - -
        3、请求时间:[18/Sep/2013:06:57:50 +0000]
        4、请求方式:GET
        5、请求的url:/shoppingMall?ver=1.10.2
        6、请求所用协议:HTTP/1.1
        7、响应码:200
        8、返回的数据流量:7200
        9、访客的来源url:http://www.baidu.com.cn
       10、访客所用浏览器:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

对于这种数据,可以交叉组合,开成多维度的数据分析与挖掘。

web日志挖掘的目标

web日志挖掘的目标:

1、以改进站点设计为目标,根据挖掘到的用户频繁访问路径重新调整链接关系。

2、以分析网站性能为目标,统计出用户经常浏览的页面及访问时间等。

3、以理解用户意图为目标,根据这些信息对用户的请求做专门的定制,然后将页面返回给用户。

使用分为:

1、web结构挖掘。

2、web内容挖掘。

3、web使用挖掘。

e39c0399c7f20bffd819d824e994895bcf7921be

web日志挖掘流程

分为数据收集、数据预处理、模式发现和模式分析几部分。


dcb6a72e59238c10bc75a111a920cebcbe2e3c6c

作者:skyme

联系方式:

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章