awk参数使用
AWK是一个强大的文本处理工具,广泛应用于Linux系统中的日志分析、数据处理等场景。以下是一些常见的awk参数及其使用方式:
-F
- 描述:指定输入字段的分隔符。默认为空格或Tab键。
- 示例:
awk -F ',' '{print $1,$2}' file.csv
(以逗号作为分隔符,打印第1和第2列)。
-v
- 描述:定义变量并赋值,在脚本中可直接使用。
- 示例:
awk -v var="value" 'BEGIN{print var}'
(在BEGIN块中打印变量var的值)。
-f
- 描述:从指定的脚本文件中读取awk命令。
- 示例:
awk -f script.awk file
(从script.awk文件中读取awk命令并执行)。
-o
- 描述:将输出结果保存到指定的文件名中。
- 示例:
awk -o output.txt '{print $0}' file
(将file的内容打印到output.txt文件中)。
-c
- 描述:仅输出awk处理行的数量。
- 示例:
awk -c '{print $0}' file
(打印file中行的数量)。
内置变量
- $0:整行内容。
- $n:当前行的第n个字段。
- NF:当前行的字段个数。
- NR:当前处理的行数。
- FNR:各文件分别计数的行号。
- FILENAME:当前文件名。
- FS:输入字段分隔符。
- OFS:输出字段分隔符。
- RS:输入记录分隔符。
- ORS:输出记录分隔符。
- ARGC:命令行参数的个数。
- ARGV:数组,保存的是命令行所给定的各参数。
常用action
- print:打印指定内容到标准输出。
- printf:格式化输出。
- if/else:条件语句。
- while:while循环。
- for:for循环。
- next:跳过当前行。
- exit:退出。
- BEGIN和END是特殊的关键字,BEGIN在所有输入文本处理前执行,END在所有输入文本处理完后执行。
示例
- 打印指定列:假设access.log的字段依次为ip、time、method、url、http_version、status_code、body_bytes_sent,打印每行第1、4、7列:
awk '{print $1,$4,$7}' access.log
- 过滤日志:打印响应状态码为500或404的日志记录:
awk '$9~/^(500|404)$/{print $0}' access.log
- 按条件统计:统计访问量最高的10个IP:
awk '{count[$1]++}END{print "IP\tCount";for(ip in count)print ip,"\t",count[ip]}' access.log | sort -k2 -nr | head -10
- 指定多个分隔符:以冒号:或者斜杠/分隔/etc/passwd的每一行,打印第1、5列:
awk -F '[:/]' '{print $1,$5}' /etc/passwd
- 日志切割:将nginx.log按小时切割,小时精确到10位:
awk '{split($4,array,"[:/]");file=array[2]array[3]substr(array[4],1,2)".log";print $0 >> file}' nginx.log
- 匹配指定列:在student.txt中筛选第2列值为Tom的行:
awk '$2 ~ /^Tom$/' student.txt
- 统计文件大小:统计/home目录下用户目录的大小:
awk 'BEGIN{printf "%-15s %-15s %-15s ","User","Home","Size(MB)"}{split($2,path,"/");size=sprintf("%.2f",$3/1024/1024);printf "%-15s %-15s %-15s ", path[3],path[2]"/"path[3],size}' <(du -sb /home/*)
- 打印指定列:假设access.log的字段依次为ip、time、method、url、http_version、status_code、body_bytes_sent,打印每行第1、4、7列:
总结来说,AWK是一个功能强大的文本处理工具,通过灵活运用其参数和内置变量,可以高效地完成各种文本处理任务。