文本分析和处理 awk|学习笔记

简介: 快速学习文本分析和处理 awk

开发者学堂课程【Linux 文本管理入门:文本分析和处理 awk】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/790



文本分析和处理awk

内容简介:

一:工具简介

二:工具使用

三:常用场景

一:工具简介

●简介

AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。

GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。

l 与sed相比的优点:

◆方便的数值处理与计算

◆变量和流程控制

◆访问行之中域

◆灵活的打印

◆内置数值和市非数

◆类C语法

l 脚本结构

下图指出了一个awk程序脚本的结构:

以BEGIN开始,以END结束,这两个话句都是可选的。

每一个语句都是一个pattern-action对,和sed相似。当输入符合模式时,对相应的action 才会执行。

如果省略Pattern,则动作的每一行都执行默认的动作是打印当前行。

BEGIN--读第一行之前执行

END--处理完最后一行后执行

image.png

二:工具使用

l 运行方式

第一种:awk'script' input files

此时的脚本内容通过命令行参数传进去:

Awk’{print}’text1

第二种:awk -f script_ file input_ files

将脚本文件传进去awk1即为脚本)

Awk-f awk1 text1

l 模式

1.正则表达式/ pattert/:

将匹配text1,text2,text3

Is awk "/test[123]/{}print}’

2.!排除表达式:

不匹配text1,text2,text3

Is I awk ‘!/test[ 123]/{print}’

3.关系表达式:

超出一百字节的文件名

Is- HIlawk

$5>100{print $9}’

4. 匹配表达式:

$9==”text1”比较是否相等

$9-/”text”/是否和正对表达式匹配

下例匹配所有以向text开头的文件:/^text

Is -I |awk ‘$9~/^text*/{print}’

5.多个表达式:

多个表达式之间,可使用”||””&&"逻辑运算符

如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:

Is -l|awk’

$5>100 && $5 <200 && $9~text*/{print $9}’

6.变量

◆可以定义和使用变量

例如:

BEGIN {count=0}

{count++}

END {print count}

字符串变量初始化为null(即:\0)

数值变量初始化为0

变量不用声明

awk中定义变量并不需要声明,awk会根据上下文环境,自动判断类型。

7. 预定义变量

◆预定义变量

前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义

1.Record记录,默认为一行

2.RS( Record Separat)记录分割符,默认为”\n”

3.NR( Number of Record)指第几个记录

4.Fleid:域

5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)

6.NF( Number of Fields)当前说操的城总数

7.可通过一F或者在BEGIN action牛指定M例如Fs

8.$0整个记录,$1表示第一个记录,$2表示第二个,类推

8.变量操作一字符串类型

◆字符串串接

添加xt后缀

(last $".txt"}

字符串赋值

使用=直接赋值即可,如上例所示

(print $1,$2}

◆内置字符串函数

内置了一系列字符串处理函数,如substr(str.sn)从str的第s位开始至多截取。

9.简单输出

打印整个记录:

(printy/(print $O}

使用变量:

打印第一个域,第二个域

(print $1,$2)

使用字符串:

print "There are ",NF,fields")打印域总数,第一个域,和最后一个域

(print NF, $1,SNF)

添加行号(RS为n'时)

print NR,SO)

10.输出printf

◆printf更为精细的输出控制像C一样,Awk允许使用,printfi进行格式化输出

printf(format,val1,val2,...)

示例:

Is-I lawk'{

string ="hello world"

printf("%10d %sIn",NR,string)

}’

三:使用场景

1. 统计各国人口密度

image.png

相关文章
|
Java API Maven
Java工具篇之反射框架Reflections
Reflections通过扫描classpath,索引元数据,并且允许在运行时查询这些元数据。 使用Reflections可以很轻松的获取以下元数据信息: - [x] 获取某个类型的全部子类 - [x] 只要类型、构造器、方法,字段上带有特定注解,便能获取带有这个注解的全部信息(类型、构造器、方法,字段) - [x] 获取所有能匹配某个正则表达式的资源 - [x] 获取所有带有特定签名的方法,包括参数,参数注解,返回类型 - [x] 获取所有方法的名字 - [x] 获取代码里所有字段、方法名、构造器的使用权
1813 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
《揭秘AI语音助手:从“听”到“说”的智能之旅》
在数字化时代,AI语音助手如Siri、Alexa、小爱同学等成为生活中的得力伙伴。它们通过自动语音识别(ASR)将语音转换为文本,利用自然语言处理(NLP)理解语义并生成回应,再通过文本到语音转换(TTS)输出自然语音。ASR捕捉、预处理和分析语音信号;NLP解析文本、理解意图;TTS合成流畅语音。这三项技术协同工作,使语音助手能听懂、理解并回应用户,为人机交互带来便利与创新。
1516 1
|
10月前
|
人工智能 自然语言处理 搜索推荐
《人工智能在鸿蒙元宇宙中的应用:数字鸿沟的加剧还是弥合》
在科技飞速发展的当下,鸿蒙元宇宙与人工智能的融合成为热门话题。这一融合带来诸多机遇和创新,但也引发对数字鸿沟加剧的担忧。技术与设备门槛、数字素养差距及数据隐私问题可能导致经济条件较差地区的人们难以享受先进体验,从而拉大数字鸿沟。然而,通过增加教育与培训机会、普及个性化体验以及促进经济发展与就业,可以有效弥合这一差距。政府、企业和教育机构应共同努力,确保技术发展造福更广泛人群,实现数字世界的公平与包容。
254 16
|
存储 数据库 对象存储
IOS的四种数据存储方式及优劣
IOS的四种数据存储方式及优劣
457 1
|
缓存 内存技术
深入理解AMBA总线(十六)AXI设计的关键问题(一)
深入理解AMBA总线(十六)AXI设计的关键问题
841 0
|
存储 人工智能 搜索推荐
VR与AR:沉浸式与交互式体验的对比
当谈到VR(虚拟现实)和AR(增强现实)时,它们都是与计算机图形和感知技术相关的创新技术。
1332 0
|
存储 SQL NoSQL
市面常见数据存储方式的简单介绍
下面是市面上一些存储方式概念的简单介绍,包含关系型数据库,非关系型数据库,内存数据库,数据仓库,对象存储,图数据库,时序数据库和多维数据库
2407 0
|
Arthas 监控 Java
阿里开源性能监控神器Arthas
阿里开源性能监控神器Arthas,帮助你快速排查线上问题
4543 0
阿里开源性能监控神器Arthas
|
前端开发 数据可视化 编译器
Unity跨平台UI解决方案:可能是最全的FairyGUI系列教程-第一天
众所周知,人生是一个漫长的流程,不断克服困难,不断反思前进的过程。在这个过程中会产生很多对于人生的质疑和思考,于是我决定将自己的思考,经验和故事全部分享出来,以此寻找共鸣!!!
1005 0