如何快速实现一个基于Nginx的网站监控场景 – 操作篇

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 还记得小明的老板给他布置的任务吗?本文将具体阐述,如何实现Nginx的监控场景,快来围观,看小明如何破局。

本文介绍ARMS如何实现Nginx的监控场景,对于ARMS本文主要解决的问题,还记得小明的老板给他布置的任务吗?需求回顾

1. ARMS的Nginx监控方案概述和准备

目前在监控领域上比较流行的数据处理方法有很多种,例如,搜索引擎,时间序列数据库,实时计算,甚至是大数据离线计算,等。

ARMS采用的是实时计算+列式存储。这种方案的优势是数据实时性高,而且对于固定的数据查询接口查询效率非常快。在Nginx的监控方案中,其架构概要如下所示, 蓝色部分为ARMS所集成的Nginx监控开箱即用的黑盒。

由于ARMS的分析是针对Nginx的accee.log日志,因此对Nginx日志有一定要求,需要用户在nginx.config中配置出打印内容,包括:“$upstream_response_time” “$request_time”等代表请求消耗时间的日志信息。如下例:

 log_format   main '$remote_addr - $remote_user [$time_local]  $status '
'"$request" $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"'
'"$upstream_response_time" "$request_time" "$ user_cookie_id"' ;  

这样的话,打印出的日志,大致如下表所示。

58.211.119.29 144288 - [16/Mar/2017:21:47:07 +0800] "POST http://arms.console.aliyun.com/api/query.json?action=DataQueryAction&eventSubmitDoQueryData=1" 200 594 "https://arms.console.aliyun.com/" "127.0.0.1:8080" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4" "0.144" "0.144" "EX866MB1-Y70JO57WM37ST3HWDVFK3-JWPNH30J-Z"
58.211.119.29 148219 - [16/Mar/2017:21:47:08 +0800] "POST http://arms.console.aliyun.com/api/query.json?action=DataQueryAction&eventSubmitDoQueryData=1" 200 583 "https://arms.console.aliyun.com/" "127.0.0.1:8080" "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.4 (KHTML, like Gecko) Chrome/22.0.1229.79 Safari/537.4" "0.148" "0.148" "EX866MB1-Y70JO57WM37ST3HWDVFK3-JWPNH30J-Z"

查看详细要求

完成上述日志配置定制以后,即可开始在ARMS上进行配置。以下篇幅从ARMS数据集,报警,和交互大盘,三个部分进行配置概要描述。关于数据源如何添加到ARMS可参见文档,在此不赘述。

2. 基于ARMS的Nginx监控 数据集实现

在Nginx监控模板中,用户数据分为两类,一类是指标,相当于数据仓库中的Measure;一类是维度,相当于数据仓库中的Dimension。

对于Nginx监控,最常见的指标为以下几类指标:

页面的PV, UV

  • PV: 页面的PV通过对access.log中的每一条日志做count来统计,
  • UV: 通过日志中代表用户ID的对应的$cookie_id来做count distinct来统计。对应的cookie_id需要开发人员进行手动统计。

页面响应时间

  • 平均页面响应时间: 在ARMS中通过对$request_time做sum操作来统计出total_request_time,然后在通过total_request_time / pv来得到某维度下的平均响应时间。
  • 最大响应时间: 则对单条日志request_time进行max统计。

页面流量

  • 平均页面流量和最大页面流量:针对 $body_bytes_sent来进行统计。统计方式和页面响应时间类似,不赘述。

对于Nginx监控,最常见的维度有以下几类:

  • 页面URL: $request。用户可以针对特定URL进行访问统计,甚至可以在不同URL之间进行访问排行。
  • 页面返回状态:$status。用户可以针对不同的返回值维度进行统计,如仅统计200返回值的正常页面访问情况,或是非200返回值的错误页面访问情况。
  • 浏览器类型:根据 $http_user_agent 统计出的用户的浏览器客户端,如Chrome, Sofari, IE, Firefox, 甚至Curl命令,等。用户可以根据此类维度统计客户端的分布情况。
  • 用户ID:根据 $cook_id 统计出的用户的使用习惯,如哪一类页面被哪一些用户经常访问,等。

对于ARMS的数据集设计,其实就是针对用户感兴趣的Nginx监控结果,进行各类维度的排列组合。

  • 例如,以页面URL维度,统计UV, PV,页面响应时间,则可以统计出不同页面的各自的UV, PV和页面响应时间,甚至根据例如PV进行TopN排行。

下图是一个数据集配置的例子,该数据集配置出两个维度: URL和Status (支持由URL下钻到Status的查询方式),分别统计两个指标:PV和UV。这样用户可以依次下钻页面路径和返回值来查询PV, UV情况。

下图是另个数据集配置的例子,该数据集配置出和上例相同但是顺序相反的两个维度: Status和URL (支持由Status下钻到URL的查询方式),分别统计两个指标:PV,平均响应时间,最高响应时间 。其中,平均调用时间是复合指标,由 总体调用时间 / PV 间接得出。

3. 基于ARMS的Nginx监控 报警实现

常见的Nginx报警有以下几种:

  • 某类页面的响应时间过长。
  • 某类页面的错误率页面过高。
    使用ARMS的原生报警的一些特性天然支持Nginx监控报警的各种场景。以下举例。
  • 支持某类指标的维度下钻遍历
    例如检查(遍历)所有页面维度的响应时间是否超过100ms.
  • 支持不同指标之间的复合计算
    典型如错误码为5xx占总调用的占比,通过不同指标复合计算而得。
  • 支持各种其他报警高级报警配置
    包括最近N分钟同比,环比,最大,最小值比较,等。例如,最近5分钟同比PV下跌50%这种典型的场景。

以下例子结合以上三个特点,介绍了一种如何在ARMS定义”任意URL调用一分钟500返回占比超过10%”的报警定义例子,如下所示。

4. 基于ARMS的Nginx监控大盘配置

监控大盘一般有以下几个用途:

  • 挂在作战室,全面掌控运行状态。
  • 用于实时查看,并下钻分析每个具体用户或网页的网站实际使用情况。

针对Nginx监控,ARMS可以基于类似用户维度,页面维度,IP维度,甚至地域维度,展示不同的数据。以展示用户总体UV, PV为例,假设对应的数据集为”整站UV PV”,则配置如下:

集成各类UV, PV,响应时间等统计的最终交互式大盘效果图如下:

5. 马上快速上手

以上各类Nginx监控场景,目前在ARMS上已有成熟商业模板支持,用户只需要在ARMS首页点击 “新建标准模板监控”,并选择Nginx高级模板,即可。帮助文档

详细了解ARMS

其他解决方案推荐阅读

1. 如何快速构建全渠道零售平台
2. 针对移动互联网&物联网场景的消息服务解决方案
3. 如何高效处理 IOT 中的数据与消息
4. Dubbo的商业化解决方案
5. 面向万物互联的高性能时序数据库 HiTSDB
6. 打造立体化监控体系的最佳实践
7. 浅谈性能测试 PTS
8. 全面了解企业级互联网架构和阿里云中间件产品

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
9kr
|
应用服务中间件 网络安全 nginx
通过宝塔Nginx反代HomeAssistant并添加SSL实现隐藏端口号与域名访问
HomeAssistant默认使用8123端口,带端口访问既不美观也不方便。 通过宝塔Nginx默认反代配置会出现各种意外错误,本文将通过修改HomeAssistant与反代配置解决该问题。
9kr
3981 1
通过宝塔Nginx反代HomeAssistant并添加SSL实现隐藏端口号与域名访问
|
弹性计算 专有云 应用服务中间件
nginx在云平台服务几个典型代理场景中的应用案例
在云平台服务中有多种场景需要使用到反向代理,常见的应用场景包括:内网专有云平台访问公网资源、公有云平台访问客户内网IDC机房资源、云产品通过代理访问多个不同的资源等等。笔者总结几种场景配置nginx的7层反向代理、4层反向代理,巧妙实现应用需求。
nginx在云平台服务几个典型代理场景中的应用案例
|
网络协议 Java 关系型数据库
Linux常用命令大全(极简速查版本)(包含操作nginx、mysql)
Linux常用命令大全(极简速查版本)(包含操作nginx、mysql)
138 0
|
缓存 负载均衡 算法
Nginx实现负载均衡(整合SpringBoot小demo)
Nginx实现负载均衡(整合SpringBoot小demo)
384 4
Nginx实现负载均衡(整合SpringBoot小demo)
|
负载均衡 应用服务中间件 nginx
Nginx:常用场景的配置示例
Nginx:常用场景的配置示例
209 0
|
负载均衡 算法 Java
Nginx搭建负载均衡详细操作
Nginx搭建负载均衡详细操作
377 0
Nginx搭建负载均衡详细操作
|
运维 Unix 应用服务中间件
深入浅出学习透析 Nginx 服务器的基本原理和配置指南「运维操作实战篇」
深入浅出学习透析 Nginx 服务器的基本原理和配置指南「运维操作实战篇」
681 0
深入浅出学习透析 Nginx 服务器的基本原理和配置指南「运维操作实战篇」
让我直接涨薪5K的Nginx/OpenResty详解,NginxLua操作Redis有多牛
实战案例运行准备:本节涉及的配置文件为源码工程的nginxredis-demo.conf文件。在运行本节实例前需要修改启动脚本openresty-start.bat(或openresty-start.sh)中的PROJECT_CONF变量的值,将其改为nginx-redis-demo.conf,然后重启OpenRestry。
|
存储 Java 应用服务中间件
线程池设计, 从简单的我们平常设计线程池图解,到生活中的类似线程池的处理现实场景, 到简单的C++模拟nginx写的单链表组织工作队列的简单线程池实现 + nginx 部分源码刨析
线程池设计, 从简单的我们平常设计线程池图解,到生活中的类似线程池的处理现实场景, 到简单的C++模拟nginx写的单链表组织工作队列的简单线程池实现 + nginx 部分源码刨析
线程池设计, 从简单的我们平常设计线程池图解,到生活中的类似线程池的处理现实场景, 到简单的C++模拟nginx写的单链表组织工作队列的简单线程池实现 + nginx 部分源码刨析
|
存储 网络协议 Java
内存池组件以及根据nginx内存池源码设计实现简易内存池
内存池组件以及根据nginx内存池源码设计实现简易内存池
内存池组件以及根据nginx内存池源码设计实现简易内存池