正则表达式概述

简介: 正则表达式概述

一、正则表达式概述

正则表达式,又称规则表达式。(英语:Regular Expression),在代码中常简写为regex、regexp

或RE,计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合以某个模式(规则)的文本。


正则表达式不只有一种,而且 linux中不同的程序可能会使用不同的正则表达式,如:工具:grep sed awk egrep


正则表达式—通常用于判断语句中,用来检查某一字符串是否满足某一格式正则表达式是由普通宁字符与元宁符组成


普通字符包括大小写字母、数字、标点符号及一些其他符号

元字符是指在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式


LINUX 中常用的有两种正则表达式引擎


基础正则表达式:BRE

扩展正则表达式:ERE


1.1正则表达式定义

正则表达式,又称正规表达式、常规表达 式


使用字符串来描述、匹配一系列符合某个规则的字符串


正则表达式组成


普通字符

大小写字母、数字、标点符号及一些其他符号元字符

在正则表达式中具有特殊意义的专用字符


1.2正则表达式层次

基础正则表达式


扩展正则表达式


1.3Linux中文本处理工具

grep
egrep
sed
awk

1.4基础正则表达式元字符

基础正则表达式是常用的正则表达式部分

除了普通字符外,常见到以下元字符

\ :转义字符,\ ! 、\n等

^ :匹配字符串开始的位置例: ^ a、^ the、^#

$ :匹配字符串结束的位置例: word$

. :匹配除\n之外的任意的一个字符例: go.d 、g…d


常见元字符(续)

* :匹配前面子表达式o次或者多次

例: goo*d、’ go.*d

[list]:匹配list列表中的一个字符

例: go[ola]d,[abc]、[a-z]、[a-zO-9]

[^list]:匹配任意不在list列表中的一个字符

例:[^a-z]、[^O-9]、[^A-Z0-9]

\{n,m\}:匹配前面的子表达式n到m次,有\{n\}、\{n,\}、\{n,m\}三种格式

例: go\{2\}d、go\{2,3\}d、go\{2,\}d


扩展正则表达式元字符

扩展正则表达式是对基础正则表达式的扩充深化扩展元字符

+:匹配前面子表达式1次以上

例: go+d,将匹配至少一个o

?:匹配前面子表达式0次或者1次

例: go?d,将匹配gd或god

():将括号中的字符串作为一个整体

例:(xyz)+,将匹配xyz整体1次以上,如xyzxyz

|:以或的方式匹配字条串

例1: good|food,将匹配good或者food

例2: g(oo|la)d,将匹配good或者glad


二、演示

2.1 grep[选项]…查找条件目标文件

-E:开启扩展(Extend的正则表达式

-c : 计算找到”搜寻字符串“的次数

-i :忽略大小写的不同,所以大小写视为相同

-o :只显示被模式匹配到的字符串

-v﹔反向选择,亦即显示出没有‘搜寻字符串′内容的那一行!(反向查找,输出与查找条件不相符的行)

–color=auto :可以将找到的关键词部分加上颜色的显示喔!

-n :顺便输出行号

-c 只打印匹配的文本行的次数,不显示文本内容。

-h 当搜索多个文件,不显示匹配文件名前缀。

-l 只列出含义匹配的文本行的文件的文件名,不显示其具体匹配的内容

-s 不显示关于不存在或无法读取文件的错误信息

-w 匹配整个单词

-x 匹配整个文本行

-r 递归搜索,不仅搜索当前目录,还有各级子目录

–color=auto 可以将找到的关键词部分加上颜色的显示

2.1.1不区分大小写查找the所有的行




2.2 cut :列表截取工具

使用说明:cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一


常用选项


选项 说明
b 按字节截取
c 按字符截取,常用于中文
d 指定以什么为分隔符截取,默认为制表符
f 通常和-d一起



2.3 sort 排序工具

sort 是一个以行为单位对文件内容进行排序的工具,也可以根据不同的数据类型来排序。例如数据和字符的排序就不一样


格式

sort [选项] 参数


常用选项与说明


选项 说明
t 指定分隔符,默认使用[Tab]吧 键或空格分隔
k 指定排序区域,哪个区间排序
n 按照数字进行排序,默认是以文字形式排序
u 等同于 uniq,表示相同的数据仅显示一行,注意:如果行尾有空格去重就不成功
r 反向排序,默认是升序,-r就是降序
o 将排序后的结果转存至指定文件
f 忽略大小写,会将小写的字母都转换为大写字母来进行比较
b 忽略每行前面的空格


sort /etc/passwd 不加任何选项默认按第一列升序,字母的话就是从a到z由上而下显示



2.4 uniq :去重复工具

主要用于去除连续的重复行


注意:是连续的行,所以通常和sort结合使用先排序使之变成连续的行再执行去重操作,否则不连续的重复行他不能去重


格式

uniq 【选项】 参数


常用选项说明


选项 说明
c 对重复的行进行计数
d 仅显示重复行
u 仅显示出现一次的行

示例

[root@localhost ~]# cat shuiguo.txt | uniq -c ##统计重复行的次数,不连续的重复行他不算做重复行



比较实用的几个案例
[root@localhost ~]# who ##查看登陆用户
root pts/0 2022-05-06 14:32 (192.168.161.20)
[root@localhost ~]# who | awk ‘{print $ 1}’
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |uniq
root
[root@localhost ~]# who | awk ‘{print $ 1}’ |sort |uniq|grep -v “^$” |grep -v wtmp ##查看登陆过系统的用户
root
[root@localhost ~]# ss -nt |tr -s " "|cut -d " " -f5 |cut -d “:” -f1 |sort |uniq -c ##查看登陆ip和使用者个数
1 192.168.161.20
1 Address
[root@localhost ~]# ss -nta |grep -v ‘State’|cut -d " " -f1 |sort |uniq -c ##查看客户端和监听服务端个数
1 ESTAB
3 LISTEN


2.5 tr 修改工具

它可以用一个字符来替换另一个字符,或者可以完全除去一些字符,也可以用它来除去重复字符


用法:

tr [选项]… SET1 [SET2]


从标准输入中替换、缩减和/或删除字符,并将结果写到标准输出。


常用选项


-d 删除字符


-s 删除所有重复出现的字符,只保留第一个


示例:


[root@localhost ~]# cat shuiguo.txt | tr ‘a-z’ ‘A-Z’ ##小写字母全部替换成大写


总结

相关的文件操作,只是起到一个方便阅读的作用,并不会改变文件相关配置,可以放心使用

相关文章
|
4月前
|
数据采集 移动开发 Python
六:《智慧的网络爬虫》— 正则表达式概述
【8月更文挑战第7天】本文介绍了正则表达式的基本概念、用途,如表单验证和爬虫,以及Python中re模块的使用,包括match(),match()函数、元字符、预定义字符集、重复匹配、位置匹配、非贪婪模式和re模块的常用方法如compile(),search(),findall(),split(),sub()等。
76 1
六:《智慧的网络爬虫》— 正则表达式概述
|
6月前
|
人工智能 Java 数据格式
JavaSE——正则表达式(1/2):概述、初步使用(普通方法,正则表达式)、书写规则(字符类,预定义字符,数量词,其他,特殊案例)
JavaSE——正则表达式(1/2):概述、初步使用(普通方法,正则表达式)、书写规则(字符类,预定义字符,数量词,其他,特殊案例)
48 3
|
7月前
|
数据采集 自然语言处理 Unix
01. 正则表达式概述
01. 正则表达式概述
38 0
|
自然语言处理 Python
130 python高级 - 正则表达式概述
130 python高级 - 正则表达式概述
61 0
|
监控 测试技术
使用正则表达式找出不包含特定字符串的条目概述
概述 做日志分析工作的经常需要跟成千上万的日志条目打交道,为了在庞大的数据量中找到特定模式的数据,常常需要编写很多复杂的正则表达式。例如枚举出日志文件中不包含某个特定字符串的条目,找出不以某个特定字符串打头的条目,等等。
742 0
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r'string'`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
|
6月前
|
数据库 Python
Python网络数据抓取(8):正则表达式
Python网络数据抓取(8):正则表达式
64 2
|
6月前
|
自然语言处理 JavaScript 前端开发
Python高级语法与正则表达式(二)
正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
|
6月前
|
安全 算法 Python
Python高级语法与正则表达式(一)
Python提供了 with 语句的写法,既简单又安全。 文件操作的时候使用with语句可以自动调用关闭文件操作,即使出现异常也会自动关闭文件操作。
|
6月前
|
Python
Python使用正则表达式分割字符串
在Python中,你可以使用re模块的split()函数来根据正则表达式分割字符串。这个函数的工作原理类似于Python内置的str.split()方法,但它允许你使用正则表达式作为分隔符。