web访问日志
主要是指用户在访问某网站的时候产生的日志信息,采集方式包括前端Javascript埋码采集和后端服务器日志采集两种。
前端采集目前主要以javascript为主,收集用户数据。
后端服务器日志根据网站架构,一般以nginx和tomcat等加上业务日志的采集为主。
对于数据的权威和准确性而言,应该首先以后端服务器产生的数据为主,配合前端采集的数据来进行整体的分析和挖掘。
日志分析流程
日志分析流程如下:
- 数据采集:包括埋码和业务数据收集两种。
- 数据传输:包括实时和离线传输两种。
- 存储:建立统一的数据仓库。
- 分析和建模:数理统计和数据挖掘。
- 可视化展示:分析结果、挖掘结果及分析报告。
nginx样例数据
样例数据格式:
124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"
格式分析:
1、访客ip地址:124.42.13.230
2、访客用户信息: - -
3、请求时间:[18/Sep/2013:06:57:50 +0000]
4、请求方式:GET
5、请求的url:/shoppingMall?ver=1.10.2
6、请求所用协议:HTTP/1.1
7、响应码:200
8、返回的数据流量:7200
9、访客的来源url:http://www.baidu.com.cn
10、访客所用浏览器:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)
对于这种数据,可以交叉组合,开成多维度的数据分析与挖掘。
web日志挖掘的目标
web日志挖掘的目标:
1、以改进站点设计为目标,根据挖掘到的用户频繁访问路径重新调整链接关系。
2、以分析网站性能为目标,统计出用户经常浏览的页面及访问时间等。
3、以理解用户意图为目标,根据这些信息对用户的请求做专门的定制,然后将页面返回给用户。
使用分为:
1、web结构挖掘。
2、web内容挖掘。
3、web使用挖掘。
web日志挖掘流程
分为数据收集、数据预处理、模式发现和模式分析几部分。
作者:skyme
联系方式:
邮箱【cloudskyme@163.com】
QQ【270800073】
本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。