文本分析和处理 awk|学习笔记

简介: 快速学习文本分析和处理 awk

开发者学堂课程【Linux 文本管理入门:文本分析和处理 awk】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/790



文本分析和处理awk

内容简介:

一:工具简介

二:工具使用

三:常用场景

一:工具简介

●简介

AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。

GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。

l 与sed相比的优点:

◆方便的数值处理与计算

◆变量和流程控制

◆访问行之中域

◆灵活的打印

◆内置数值和市非数

◆类C语法

l 脚本结构

下图指出了一个awk程序脚本的结构:

以BEGIN开始,以END结束,这两个话句都是可选的。

每一个语句都是一个pattern-action对,和sed相似。当输入符合模式时,对相应的action 才会执行。

如果省略Pattern,则动作的每一行都执行默认的动作是打印当前行。

BEGIN--读第一行之前执行

END--处理完最后一行后执行

image.png

二:工具使用

l 运行方式

第一种:awk'script' input files

此时的脚本内容通过命令行参数传进去:

Awk’{print}’text1

第二种:awk -f script_ file input_ files

将脚本文件传进去awk1即为脚本)

Awk-f awk1 text1

l 模式

1.正则表达式/ pattert/:

将匹配text1,text2,text3

Is awk "/test[123]/{}print}’

2.!排除表达式:

不匹配text1,text2,text3

Is I awk ‘!/test[ 123]/{print}’

3.关系表达式:

超出一百字节的文件名

Is- HIlawk

$5>100{print $9}’

4. 匹配表达式:

$9==”text1”比较是否相等

$9-/”text”/是否和正对表达式匹配

下例匹配所有以向text开头的文件:/^text

Is -I |awk ‘$9~/^text*/{print}’

5.多个表达式:

多个表达式之间,可使用”||””&&"逻辑运算符

如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:

Is -l|awk’

$5>100 && $5 <200 && $9~text*/{print $9}’

6.变量

◆可以定义和使用变量

例如:

BEGIN {count=0}

{count++}

END {print count}

字符串变量初始化为null(即:\0)

数值变量初始化为0

变量不用声明

awk中定义变量并不需要声明,awk会根据上下文环境,自动判断类型。

7. 预定义变量

◆预定义变量

前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义

1.Record记录,默认为一行

2.RS( Record Separat)记录分割符,默认为”\n”

3.NR( Number of Record)指第几个记录

4.Fleid:域

5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)

6.NF( Number of Fields)当前说操的城总数

7.可通过一F或者在BEGIN action牛指定M例如Fs

8.$0整个记录,$1表示第一个记录,$2表示第二个,类推

8.变量操作一字符串类型

◆字符串串接

添加xt后缀

(last $".txt"}

字符串赋值

使用=直接赋值即可,如上例所示

(print $1,$2}

◆内置字符串函数

内置了一系列字符串处理函数,如substr(str.sn)从str的第s位开始至多截取。

9.简单输出

打印整个记录:

(printy/(print $O}

使用变量:

打印第一个域,第二个域

(print $1,$2)

使用字符串:

print "There are ",NF,fields")打印域总数,第一个域,和最后一个域

(print NF, $1,SNF)

添加行号(RS为n'时)

print NR,SO)

10.输出printf

◆printf更为精细的输出控制像C一样,Awk允许使用,printfi进行格式化输出

printf(format,val1,val2,...)

示例:

Is-I lawk'{

string ="hello world"

printf("%10d %sIn",NR,string)

}’

三:使用场景

1. 统计各国人口密度

image.png

相关文章
|
11月前
|
机器学习/深度学习 安全 网络安全
网络安全词云图与技术浅谈
### 网络安全词云图与技术浅谈 本文介绍了通过词云图展示网络安全关键术语的方法,并探讨了构建现代网络安全体系的关键要素。词云图利用字体大小和颜色突出高频词汇,如恶意软件、防火墙、入侵检测系统等。文中提供了生成词云图的Python代码示例,包括安装依赖库和调整参数。此外,文章详细讨论了恶意软件防护、加密技术、身份验证、DDoS防御、社会工程学防范及威胁情报等核心技术,强调了多层次、多维度的安全策略的重要性。
430 11
网络安全词云图与技术浅谈
|
数据采集 安全 测试技术
数据中心代理IP有哪些用途?
数据中心代理IP用于网站爬取、数据采集、SEO、市场竞争情报及广告验证,隐藏真实身份,防止被封禁,模拟全球用户行为,优化网站排名,检测广告效果,保障测试环境的多样性,并作为反爬虫工具保护信息安全。适用于多种场景,提升效率与竞争优势。
|
安全 Java 应用服务中间件
JVM常见面试题(三):类加载器,双亲委派模型,类装载的执行过程
什么是类加载器,类加载器有哪些;什么是双亲委派模型,JVM为什么采用双亲委派机制,打破双亲委派机制;类装载的执行过程
312 35
JVM常见面试题(三):类加载器,双亲委派模型,类装载的执行过程
|
11月前
|
存储 运维 前端开发
同城圈子搭子交友论坛系统/搭建圈子系统的常见问题
需求分析不明确 在系统设计初期,如果未能充分理解目标用户的需求,可能导致系统功能与实际需求脱节,进而影响用户体验。 解决方案:通过市场调研、用户访谈、问卷调查等方式深入了解用户需求,确保系统设计符合用户期望。 技术选型困难 选择合适的技术栈对于系统的稳定性和可扩展性至关重要。技术选型不当可能导致系统性能低下或开发周期延长。 解决方案:根据系统需求、开发团队的技术栈以及未来扩展性等因素综合考虑,选择适合的技术栈。例如,前端可以使用uinapp 等框架,后端可以选择PHP框架,数据库可以选择MySQL等。
364 0
|
12月前
|
运维 自然语言处理 安全
毕业设计校园网中通义灵码的使用分享
毕业项目校园网中通义灵码的使用分享
241 2
|
存储 缓存 内存技术
计算机硬件存储器中临时存储
【8月更文挑战第3天】
1931 7
计算机硬件存储器中临时存储
|
小程序 JavaScript
微信小程序学习之数据绑定,事件绑定,事件传参与数据同步的学习记录
本文介绍了微信小程序中的数据绑定、事件绑定、事件传参与数据同步的基本概念和使用方法,包括如何在data对象中定义数据、使用mustache语法在wxml中渲染数据、绑定和处理事件、事件对象属性、事件传参以及实现输入框与data数据的同步。
微信小程序学习之数据绑定,事件绑定,事件传参与数据同步的学习记录
|
小程序 测试技术 程序员
『软件工程12』软件工程实践方法——软件测试
该文章详细阐述了软件测试的重要性和基本原则,并按测试阶段顺序介绍了单元测试、集成测试、确认测试以及系统测试的具体内容和实施步骤。
『软件工程12』软件工程实践方法——软件测试
|
自然语言处理 关系型数据库 MySQL
match如何在mysql数据库里进行文本的相似度排序?
【9月更文挑战第1天】match如何在mysql数据库里进行文本的相似度排序?
398 1
|
人工智能 数据可视化 大数据
GIS前沿技术
GIS前沿技术
365 1