10分钟精通Nginx访问日志分析统计

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 个人站长如何分析自己的网站,这里有第一手的经验

简介

很多个人站长在搭建网站时使用nginx作为服务器,为了了解网站的访问情况,一般有两种手段:

  1. 使用CNZZ之类的方式,在前端页面插入js,用户访问的时候触发js,记录访问请求。
  2. 利用流计算、或离线统计分析nginx的access log,从日志中挖掘有用信息。

两种方式各有优缺点:

  1. CNZZ使用起来比较简单,各种指标定义清楚。但这种方式只能记录页面的访问请求,像ajax之类的请求是无法记录的,还有爬虫信息也不会记录。
  2. 利用流计算、离线计算引擎可以支持个性化需求,但需要搭建一套环境,并且在实时性以及分析灵活性上比较难平衡。

两种手段相互补充,才能对网站的状况有更加深入的了解。

日志服务在查询基础上新推出来SQL支持实时日志分析功能,极大的降低了站长们分析access log的门槛,本文将详细介绍如何使用日志服务分析access log中的各种指标。

Nginx访问日志格式

一个典型的nginx访问日志配置:

      log_format  main  '$remote_addr - $remote_user [$time_local] "$request" $http_host '
                        '$status $request_length $body_bytes_sent "$http_referer" '
                        '"$http_user_agent"  $request_time';

      access_log  access.log  main;

字段解释:

  1. remote_addr : 客户端地址
  2. remote_user : 客户端用户名
  3. time_local : 服务器时间
  4. request : 请求内容,包括方法名,地址,和http协议
  5. http_host : 用户请求是使用的http地址
  6. status : 返回的http 状态码
  7. request_length : 请求大小
  8. body_bytes_sent : 返回的大小
  9. http_referer : 来源页
  10. http_user_agent : 客户端名称
  11. request_time : 整体请求延时

收集访问日志到日志服务

  1. 首先把日志收集到日志服务

    请参考文档5分钟快速文档

  2. 把日志收集到日志服务后,设置每一列的类型:
![index_attribute](https://yqfile.alicdn.com/040597e2b56c987f0430e0124f1d20fee32f7125.png)


>注:其中request拆分城method 和uri两列

日志样例:

![sample_log](https://yqfile.alicdn.com/5de2c57afd7986032b64646510c72c4c8869dfbc.png)

分析访问日志

通常,对access log的访问需求有,查看网站的pv,uv,热点页面,热点方法,错误请求,客户端类型,来源页面等等。下文将逐个介绍各个指标的计算方法。

  1. PV统计不仅可以一段时间总的PV,还可以按照小的时间段,查看每段时间的,比如每5分钟pv

    统计代码

     *|select from_unixtime( __time__- __time__% 300) as t, 
          count(1) as pv  
          group by t
          order by t limit 60
    

    统计结果

    pv

  2. 统计一小时内每5分钟的UV

    统计代码:

     *|select from_unixtime( __time__- __time__% 300) as t,
             approx_distinct(remote_addr) as uv  
             group by t
             order by t limit 60
    

    uv_5min

  3. 统计一小时内总的UV

    统计代码:

     *|select approx_distinct(remote_addr)
    

    统计结果:

    uv

  4. 最近一小时访问最多的10个页面

     *|select url,count(1) as pv group by url order by pv desc limit 10
    

    top10page

  5. 最近一小时各种请求方法的占比

    *| select method, count(1) as pv group by method
    

    method

  6. 最近一小时各种http状态码的占比

     *| select status, count(1) as pv group by status
    

    status

  7. 最近一小时各种浏览器的占比

      *| select user_agent, count(1) as pv group by user_agent
    

    user_agent

  8. 最近一小时referer来源于不同域名的占比

      *|select url_extract_host(http_referer) ,count(1) group by url_extract_host(http_referer)
    

    注:url_extract_host为从url中提取域名
    referer

  9. 最近一小时用户访问不同域名的占比

     *|select  http_host ,count(1) group by http_host
    

    host

    一些高级功能

除了一些访问指标外,站长常常还需要对一些访问请求进行诊断,查看一下处理请求的延时如何,有哪些比较大的延时,哪些页面的延时比较大。

  1. 通过每5分钟的平均延时和最大延时, 对延时的情况有个总体的把握

     *|select from_unixtime(__time__ -__time__% 300) as time, 
              avg(request_time) as avg_latency ,
              max(request_time) as max_latency  
              group by time
              limit 60
    

    avg_max_latency

  2. 知道了最大延时之后,我们需要知道最大延时对应的请求页面是哪个,方便进一步优化页面响应。

    *|select from_unixtime(__time__ - __time__% 60) as t , 
      max_by(url,request_time)  
      group by t
    

    top_latency_req

  3. 从总体把握,我们需要知道网站的所有请求的延时的分布, 把延时分布在十个桶里边,看每个延时区间的请求个数

    *|select  numeric_histogram(10,request_time)
    

    latency_histogram1

  4. 除了最大的延时,我们还需要知道最大的十个延时,对应的值是多少

     *|select max(request_time,10)
    

    top_10_latency

  5. 当我们知道了/0这个页面的访问延时最大,为了对/0页面进行调优,接下来需要统计/0这个页面的访问PV,UV,各种method次数,各种status次数,各种浏览器次数,平均延时,最大延时

    url:"/0"|select count(1) as pv, approx_distinct(remote_addr) as uv, histogram(method) as method_pv,histogram(status) as status_pv, histogram(user_agent) as user_agent_pv, avg(request_time) as avg_latency,  max(request_time) as max_latency
    

    url0

    url0method
    url0useragent
    url0status

  6. 同时,我们也可以限定只查看request_time 大于1000的请求的pv,uv,以及各个url的请求次数

    request_time > 1000 |select count(1) as pv, approx_distinct(remote_addr) as uv, histogram(url) as url_pv
    

    url_pv

![latency1000url](https://yqfile.alicdn.com/5c2faacf8860fac0d9f519474023f57ddd78bcb6.png)

进阶之路

采集并分析Nginx日志

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
监控 应用服务中间件 BI
nginx日志统计分析自动报表工具goaccess(推荐)
## 功能描述 - nginx日志统计分析自动报表工具goaccess(推荐) - 网站总访问量统计,按天统计访问量,按页面(不同URL)统计访问量(不包括JS、css),按静态页面统计访问量(包括JS、css),不存在的页面统计访问量 - 按不同的IP统计访问量,按不同的操作系统统计访问量,...
8171 0
|
网络协议 应用服务中间件 网络安全
|
缓存 Linux 开发工具
CentOS 7- 配置阿里镜像源
阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助 :2、查看不同版本的系统操作: 下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.
258334 0
|
8月前
|
数据可视化 关系型数据库 MySQL
ELK实现nginx、mysql、http的日志可视化实验
通过本文的步骤,你可以成功配置ELK(Elasticsearch, Logstash, Kibana)来实现nginx、mysql和http日志的可视化。通过Kibana,你可以直观地查看和分析日志数据,从而更好地监控和管理系统。希望这些步骤能帮助你在实际项目中有效地利用ELK来处理日志数据。
569 90
|
11月前
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
936 3
|
缓存 应用服务中间件 nginx
[nginx]proxy_cache缓存系统
[nginx]proxy_cache缓存系统
385 4
|
应用服务中间件 Linux nginx
Nginx log 日志文件较大,按日期生成 实现日志的切割
Nginx log 日志文件较大,按日期生成 实现日志的切割
3250 0
|
Java 应用服务中间件
idea tomcat 日志 中文 乱码【已解决】
idea tomcat 日志 中文 乱码【已解决】
837 0
|
JavaScript Ubuntu 应用服务中间件
nginx扩展 OpenResty 实现防cc攻击教程
使用OpenResty实现CC攻击防护,包括两个主要步骤:限制请求速度和JS验证。首先,安装依赖(RHEL/CentOS需安装readline-devel, pcre-devel, openssl-devel,Ubuntu需安装libreadline-dev等)。然后,安装Luajit和OpenResty。在Nginx配置中,创建`lua`共享字典并设置`content_by_lua_file`调用lua脚本。lua脚本检查请求频率,超过限制则返回503,否则增加计数。同时,通过JS验证,生成随机码并重定向用户,用户需携带正确验证码请求才能访问。
412 0

相关产品

  • 日志服务
  • 下一篇
    开通oss服务