文本分析和处理 awk|学习笔记-阿里云开发者社区

开发者社区> -技术小能手-> 正文

文本分析和处理 awk|学习笔记

简介: 快速学习文本分析和处理 awk
+关注继续查看

开发者学堂课程【Linux 文本管理入门:文本分析和处理 awk】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/790



文本分析和处理awk

 

内容简介:

一:工具简介

二:工具使用

三:常用场景

 

 

一:工具简介

●简介

AMK是一种解析式编程语言,非常强大,是专门设计来进行文本处理的,名称是其三位创建者( Alfred Aho, Peter Weinberger. and Brian Kernighan)姓的首字母。

GNU/Linux分发的版本是由自由软件基金会(FSF)维护的,常常被叫做Gawk,Awk和Sed-样都是行编辑器,两者的工作流程很像,但Awk有很多更加强大的地方。

l  与sed相比的优点:

◆方便的数值处理与计算

◆变量和流程控制

◆访问行之中域

◆灵活的打印

◆内置数值和市非数

◆类C语法

 

 

 

l  脚本结构

下图指出了一个awk程序脚本的结构:

以BEGIN开始,以END结束,这两个话句都是可选的。

每一个语句都是一个pattern-action对,和sed相似。当输入符合模式时,对相应的action 才会执行。

如果省略Pattern,则动作的每一行都执行默认的动作是打印当前行。

   BEGIN--读第一行之前执行 

   END--处理完最后一行后执行 

 

image.png

 

 

 

二:工具使用

l  运行方式

第一种:awk'script' input files

此时的脚本内容通过命令行参数传进去:

Awk’{print}’text1

第二种:awk -f script_ file input_ files

将脚本文件传进去awk1即为脚本)

Awk-f awk1 text1

l  模式

1.正则表达式/ pattert/:

将匹配text1,text2,text3

Is awk "/test[123]/{}print}’

2.!排除表达式:

不匹配text1,text2,text3

Is I awk ‘!/test[ 123]/{print}’

3.关系表达式:

超出一百字节的文件名

Is- HIlawk

$5>100{print $9}’

4.    匹配表达式:

$9==”text1”比较是否相等

$9-/”text”/是否和正对表达式匹配

下例匹配所有以向text开头的文件:/^text

Is -I |awk ‘$9~/^text*/{print}’

 

 

5.多个表达式:

多个表达式之间,可使用”||””&&"逻辑运算符

如找出大于100字节小于200字节,且以text为开头的文件,可以这样做:

Is -l|awk’

$5>100 && $5 <200 && $9~text*/{print $9}’

 

6.变量

◆可以定义和使用变量

例如:

BEGIN {count=0}

{count++}

END {print count}

字符串变量初始化为null(即:\0)

数值变量初始化为0

变量不用声明

 

awk中定义变量并不需要声明,awk会根据上下文环境,自动判断类型。

 

7.    预定义变量

◆预定义变量

前面提到过两个概念:行和域。这是粗略的类比。实际上在AWk中有更精确的定义

1.Record记录,默认为一行

2.RS( Record Separat)记录分割符,默认为”\n”

3.NR( Number of Record)指第几个记录

4.Fleid:域

5 .FS(Field Separator)域分割符,默认是空白字符(个或多个空格或ab)

6.NF( Number of Fields)当前说操的城总数

7.可通过一F或者在BEGIN action牛指定M例如Fs

8.$0整个记录,$1表示第一个记录,$2表示第二个,类推

8.变量操作一字符串类型

◆字符串串接

添加xt后缀

(last $".txt"}

字符串赋值

使用=直接赋值即可,如上例所示

(print $1,$2}

◆内置字符串函数

内置了一系列字符串处理函数,如substr(str.sn)从str的第s位开始至多截取。

9.简单输出

打印整个记录:

(printy/(print $O}

使用变量:

打印第一个域,第二个域

(print $1,$2)

使用字符串:

print "There are ",NF,fields")打印域总数,第一个域,和最后一个域

(print NF, $1,SNF)

添加行号(RS为n'时)

print NR,SO)

10.输出printf

◆printf更为精细的输出控制像C一样,Awk允许使用,printfi进行格式化输出

printf(format,val1,val2,...)

示例:

Is-I lawk'{

string ="hello world"

printf("%10d %sIn",NR,string)

}’

 

三:使用场景

1.    统计各国人口密度

    image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
4843 0
玩转大数据系列之二:数据分析与处理
经过了数据采集和同步之后,就可以在阿里云上进行数据分析和处理,来玩转您的数据了。本文向您介绍在阿里云大数据各产品中,以及各产品之间怎样来完成您的数据处理和数据分析。
10594 0
文本分析和处理 awk|学习笔记
快速学习文本分析和处理 awk
31 0
从 0 到 1 通过 Flink + Tablestore 进行大数据处理与分析
阿里云实时计算Flink版是一套基于 Apache Flink 构建的⼀站式实时大数据分析平台。在大数据场景下,实时计算 Flink 可提供端到端亚秒级实时数据流批处理能力。表格存储 Tablestore (又名 OTS)是阿里云自研的多模型结构化数据存储,可提供海量结构化数据的存储、查询分析服务。表格存储的双引擎架构支持千万TPS和毫秒级延迟的服务能力,可作为大数据计算的极佳上下游存储。
340 0
独家 | 关于NLP和机器学习之文本处理的你需要知道的一切(附学习资源)
本文将介绍自然语言处理和机器学习中常见的文本预处理方法。
1850 0
基于对象存储 OSS 的智能数据分析处理框架和功能
今年参加了 2019 全球闪存峰会(Flash Memory World),分享了“基于云存储的智能数据分析处理架构”,重点介绍在对象存储 OSS 之上的数据处理功能,现整理相关内容和大家探讨。
2132 0
1727
文章
0
问答
来源圈子
更多
技术图谱:由专家组参与技术图谱的绘制与编写,知识与实践的结合让开发者们掌握学习路线与逻辑,快速提升技能 电子书:电子书由阿里内外专家打造,供开发者们下载学习,更与课程相结合,使用户更易理解掌握课程内容 训练营:学习训练营 深入浅出,专家授课,带领开发者们快速上云 精品课程:汇集知识碎片,解决技术难题,体系化学习场景,深入浅出,易于理解 技能自测:提供免费测试,摸底自查 体验实验室:学完即练,云资源免费使用
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载