开发者学堂课程【Linux 文本管理入门:文本分析和处理 awk】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/790
文本分析和处理awk
内容简介:
一:工具简介
二:工具使用
三:常用场景
一:工具简介
●简介
AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。
GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。
l 与sed相比的优点:
◆方便的数值处理与计算
◆变量和流程控制
◆访问行之中域
◆灵活的打印
◆内置数值和市非数
◆类C语法
l 脚本结构
下图指出了一个awk程序脚本的结构:
以BEGIN开始,以END结束,这两个话句都是可选的。
每一个语句都是一个pattern-action对,和sed相似。当输入符合模式时,对相应的action 才会执行。
如果省略Pattern,则动作的每一行都执行默认的动作是打印当前行。
BEGIN--读第一行之前执行
END--处理完最后一行后执行
二:工具使用
l 运行方式
第一种:awk'script' input files
此时的脚本内容通过命令行参数传进去:
Awk’{print}’text1
第二种:awk -f script_ file input_ files
将脚本文件传进去awk1即为脚本)
Awk-f awk1 text1
l 模式
1.正则表达式/ pattert/:
将匹配text1,text2,text3
Is awk "/test[123]/{}print}’
2.!排除表达式:
不匹配text1,text2,text3
Is I awk ‘!/test[ 123]/{print}’
3.关系表达式:
超出一百字节的文件名
Is- HIlawk
$5>100{print $9}’
4. 匹配表达式:
$9==”text1”比较是否相等
$9-/”text”/是否和正对表达式匹配
下例匹配所有以向text开头的文件:/^text
Is -I |awk ‘$9~/^text*/{print}’
5.多个表达式:
多个表达式之间,可使用”||””&&"逻辑运算符
如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:
Is -l|awk’
$5>100 && $5 <200 && $9~text*/{print $9}’
6.变量
◆可以定义和使用变量
例如:
BEGIN {count=0}
{count++}
END {print count}
字符串变量初始化为null(即:\0)
数值变量初始化为0
变量不用声明
awk中定义变量并不需要声明,awk会根据上下文环境,自动判断类型。
7. 预定义变量
◆预定义变量
前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义
1.Record记录,默认为一行
2.RS( Record Separat)记录分割符,默认为”\n”
3.NR( Number of Record)指第几个记录
4.Fleid:域
5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)
6.NF( Number of Fields)当前说操的城总数
7.可通过一F或者在BEGIN action牛指定M例如Fs
8.$0整个记录,$1表示第一个记录,$2表示第二个,类推
8.变量操作一字符串类型
◆字符串串接
添加xt后缀
(last $".txt"}
字符串赋值
使用=直接赋值即可,如上例所示
(print $1,$2}
◆内置字符串函数
内置了一系列字符串处理函数,如substr(str.sn)从str的第s位开始至多截取。
9.简单输出
打印整个记录:
(printy/(print $O}
使用变量:
打印第一个域,第二个域
(print $1,$2)
使用字符串:
print "There are ",NF,fields")打印域总数,第一个域,和最后一个域
(print NF, $1,SNF)
添加行号(RS为n'时)
print NR,SO)
10.输出printf
◆printf更为精细的输出控制像C一样,Awk允许使用,printfi进行格式化输出
printf(format,val1,val2,...)
示例:
Is-I lawk'{
string ="hello world"
printf("%10d %sIn",NR,string)
}’
三:使用场景
1. 统计各国人口密度