1、基础再认知
Logstash:一个服务器端数据处理管道,它同时从多个源中提取数据,对其进行转换,然后将其发送到Elasticsearch“存储”。
Grok:Logstash中的过滤器,用于将非结构化数据解析为结构化和可查询的数据。
正则表达式:定义搜索模式的字符序列。
如果已经运行了Logstash,则无需安装其他正则表达式库,因为“Grok位于正则表达式之上,因此任何正则表达式在grok中都有效” -
官方文档:https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html
2、正则匹配模式分类解读
2.1 Grok
grok语法如下:
%{SYNTAX:SEMANTIC}
1
Syntax: 默认的grok模式
Semantic: 是关键词。
这样写很枯燥,实践一把。
2.2 Oniguruma
oniguruma语法如下:
(?<field_name>the pattern here)
1
field_name:是关键词。
pattern :这里的模式是你放入正则表达式模式的地方。
2.3 Grok + Oniguruma
您可以将Grok和Oniguruma结合起来,如下所示:
%{SYNTAX:SEMANTIC} (?<field_name>the pattern here)
1
不好理解?不要担心,2.2和2.3的示例在下面的章节详细解读。
3、实践一把
3.1 样例数据
为了演示如何在Grok中使用Oniguruma,我们将使用下面的日志数据作为示例。
production GET /v2/blacklist/ 200 24ms 5ba9e948801d34906b96e0c20 Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0 {\"user_id\":\"5bd4c2f4569f470016bd8d55\",\"reason\":\"SPAMMER\"}
1
3.2 结构化日志数据
production == environment
GET == method
/v2/blacklist == url
200 == response_status
24ms == response_time
5bc6e716b5d6cb35fc9687c0 == user_id
Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0 == user_agent
{“user_id”:“5bd4c2f4569f470016bd8d55”,“reason”:“SPAMMER”} == req.body
3.3 非结构化转化为结构化目标
目标是找到一种模式来构建和解析非结构化日志数据。
为此,我们将使用Grok Debugger和RegExr。
Grok Debugger :https://grokdebug.herokuapp.com/
RegExr:https://regexr.com/
上面的模式产生了结果:
{
"environment": [
[
"production"
]
],
"method": [
[
"GET"
]
],
"url": [
[
"/v2/blacklist/"
]
],
"response_status": [
[
"200"
]
],
"BASE10NUM": [
[
"200"
]
],
"response_time": [
[
"24ms"
]
],
"user_id": [
[
"5ba9e948801d34906b96e0c20"
]
]
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
这并不完整。 user_agent和req.body没有映射。
要提取user_agent和req.body,我们需要仔细检查它的结构。
3.4 空白分隔符
GET /v2/blacklist/ 200 24ms 5ba9e948801d34906b96e0c20
1
由空格分隔,这很容易使用。
但是,对于user_agent,根据发送请求的硬件类型,可能存在动态数量的空格。
Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0
1
我们如何解释这种不断变化?
提示:看一下req.body的结构。
{\”user_id\”:\”5bd4c2f4569f470016bd8d55\”,\”reason\”:\”SPAMMER\”}
1
我们可以看到req.body由大括号{}组成。
利用这些知识,我们可以构建一个自定义正则表达式模式,以查找第一个左括号内的所有内容,然后再抓取所有内容。
如下正则的含义是:匹配从开头到“{”的所有字符。
谷歌搜索“regex match everything until character” 找到解决问题的正则思路:
后半部分组合后的正则如下:
(?<user_agent>[^{]*) %{GREEDYDATA:body}
1
user_agent和req.body将被提取出来。
3.5 全部放在一起
将此应用于grok调试器中的自定义正则表达式模式,得到了我们想要的结果:
4、更新Logstash.conf验证
在您安装ELK堆栈的服务器上,导航到Logstash配置。
sudo vi /etc/logstash/conf.d/logstash.conf
1
贴上正则部分内容:
input {
file {
path => "/your_logs/*.log"
}
}
filter{
grok {
match => { "message" => "%{WORD:environment} %{WORD:method} %{URIPATH:url} %{NUMBER:response_status} %{WORD:response_time} %{USERNAME:user_id} (?<user_agent>[^{]*) %{GREEDYDATA:body}"}
}
}
output {
elasticsearch {
hosts => [ "localhost:9200" ]
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
保存更改后,重新启动Logstash并检查其状态以确保它仍然有效。
sudo service logstash restart
sudo service logstash status
1
2
最后,为了确保更改生效,请务必刷新Kibana中Logstash的Elasticsearch索引!