Go 语言入门很简单:正则表达式(上)

简介: 在计算中,我们经常需要将特定模式的字符或字符子集匹配为另一个字符串中的字符串。此技术用于使用特别的语法来搜索给定字符串中的特定字符集。比如邮件、手机号、身份证号等等。如果搜索到的模式匹配,或者在目标字符串中找到给定的子集,则搜索被称为成功;否则被认为是不成功的。那么此时该用到正则表达式了。

网络异常,图片无法展示
|


前言

在计算中,我们经常需要将特定模式的字符或字符子集匹配为另一个字符串中的字符串。此技术用于使用特别的语法来搜索给定字符串中的特定字符集。比如邮件、手机号、身份证号等等。

如果搜索到的模式匹配,或者在目标字符串中找到给定的子集,则搜索被称为成功;否则被认为是不成功的。

那么此时该用到正则表达式了。

什么是正则表达式

正则表达式(或 RegEx)是一个特殊的字符序列,它定义了用于匹配特定文本的搜索模式。在 Golang 中,有一个内置的正则表达式包:  regexp  包,其中包含所有操作列表,如过滤、修改、替换、验证或提取。

正则表达式可以用于文本搜索和更高级的文本操作。正则表达式内置于 grep 和 sed 等工具,vi 和 emacs 等文本编辑器,Go、Java 和 Python 等编程语言中。


表达式的语法主要遵循这些流行语言中使用的已建立的 RE2 语法。 RE2 语法是 PCRE 的一个子集,有各种注意事项。


以下是正则表达式模式表格:


网络异常,图片无法展示
|


Go 语言的 regexp 包中有几个典型的函数:

  • MatchString()
  • Compile()
  • FindString()
  • FindAllString()
  • FindStringIndex()
  • FindAllStringIndex()
  • FindStringSubmatch()
  • Split()
  • ReplaceAllString
  • ReplaceAllStringFunc()


现在来一一看看这些函数的使用

MatchString 函数

MatchString() 函数报告作为参数传递的字符串是否包含正则表达式模式的任何匹配项。

 package main
 ​
 import (
   "fmt"
   "log"
   "regexp"
 )
 ​
 func main() {
 ​
   words := [...]string{"Seven", "even", "Maven", "Amen", "eleven"}
 ​
   for _, word := range words {
 ​
     found, err := regexp.MatchString(".even", word)
 ​
     if err != nil {
       log.Fatal(err)
     }
 ​
     if found {
 ​
       fmt.Printf("%s matches\n", word)
     } else {
 ​
       fmt.Printf("%s does not match\n", word)
     }
   }
 }
 ​

运行该代码:

 Seven matches
 even does not match
 Maven does not match
 Amen does not match
 eleven matches

但同时我们能看到编辑器有提示:

网络异常,图片无法展示
|

编译器已经开始提醒我们,MatchString 直接使用性能很差,所以考虑使用 regexp.Compile 函数。

Compile 函数

Compile 函数解析正则表达式,如果成功,则返回可用于匹配文本的 Regexp 对象。编译的正则表达式产生更快的代码。

MustCompile 函数是一个便利函数,它编译正则表达式并在无法解析表达式时发生 panic。

 package main
 ​
 import (
   "fmt"
   "log"
   "regexp"
 )
 ​
 func main() {
 ​
   words := [...]string{"Seven", "even", "Maven", "Amen", "eleven"}
 ​
   re, err := regexp.Compile(".even")
 ​
   if err != nil {
     log.Fatal(err)
   }
 ​
   for _, word := range words {
 ​
     found := re.MatchString(word)
 ​
     if found {
 ​
       fmt.Printf("%s matches\n", word)
     } else {
 ​
       fmt.Printf("%s does not match\n", word)
     }
   }
 }
 ​

在代码示例中,我们使用了编译的正则表达式。

 re, err := regexp.Compile(".even")

即使用 Compile 编译正则表达式。然后在返回的正则表达式对象上调用 MatchString 函数:

 found := re.MatchString(word)

运行程序,能看到同样的代码:

 Seven matches
 even does not match
 Maven does not match
 Amen does not match
 eleven matches

MustCompile 函数

 package main
 ​
 import (
   "fmt"
   "regexp"
 )
 ​
 func main() {
 ​
   words := [...]string{"Seven", "even", "Maven", "Amen", "eleven"}
 ​
   re := regexp.MustCompile(".even")
 ​
   for _, word := range words {
 ​
     found := re.MatchString(word)
 ​
     if found {
 ​
       fmt.Printf("%s matches\n", word)
     } else {
 ​
       fmt.Printf("%s does not match\n", word)
     }
   }
 }

FindAllString 函数

FindAllString 函数返回正则表达式的所有连续匹配的切片。

 package main
 ​
 import (
     "fmt"
     "os"
     "regexp"
 )
 ​
 func main() {
 ​
     var content = `Foxes are omnivorous mammals belonging to several genera 
 of the family Canidae. Foxes have a flattened skull, upright triangular ears, 
 a pointed, slightly upturned snout, and a long bushy tail. Foxes live on every 
 continent except Antarctica. By far the most common and widespread species of 
 fox is the red fox.`
 ​
     re := regexp.MustCompile("(?i)fox(es)?")
 ​
     found := re.FindAllString(content, -1)
 ​
     fmt.Printf("%q\n", found)
 ​
     if found == nil {
         fmt.Printf("no match found\n")
         os.Exit(1)
     }
 ​
     for _, word := range found {
         fmt.Printf("%s\n", word)
     }
 ​
 }

在代码示例中,我们找到了单词 fox 的所有出现,包括它的复数形式。

 re := regexp.MustCompile("(?i)fox(es)?")

使用 (?i) 语法,正则表达式不区分大小写。 (es)?表示“es”字符可能包含零次或一次。

 found := re.FindAllString(content, -1)

我们使用 FindAllString 查找所有出现的已定义正则表达式。第二个参数是要查找的最大匹配项; -1 表示搜索所有可能的匹配项。

运行结果:

 ["Foxes" "Foxes" "Foxes" "fox" "fox"]
 Foxes
 Foxes
 Foxes
 fox
 fox

FindAllStringIndex 函数

 package main
 ​
 import (
     "fmt"
     "regexp"
 )
 ​
 func main() {
 ​
     var content = `Foxes are omnivorous mammals belonging to several genera 
 of the family Canidae. Foxes have a flattened skull, upright triangular ears, 
 a pointed, slightly upturned snout, and a long bushy tail. Foxes live on every 
 continent except Antarctica. By far the most common and widespread species of 
 fox is the red fox.`
 ​
     re := regexp.MustCompile("(?i)fox(es)?")
 ​
     idx := re.FindAllStringIndex(content, -1)
 ​
     for _, j := range idx {
         match := content[j[0]:j[1]]
         fmt.Printf("%s at %d:%d\n", match, j[0], j[1])
     }
 }

在代码示例中,我们在文本中找到所有出现的 fox 单词及其索引。

 Foxes at 0:5
 Foxes at 81:86
 Foxes at 196:201
 fox at 296:299
 fox at 311:314
相关文章
|
17天前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
61 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
1月前
|
存储 Go 索引
go语言中数组和切片
go语言中数组和切片
42 7
|
1月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
1月前
|
程序员 Go
go语言中结构体(Struct)
go语言中结构体(Struct)
105 71
|
1月前
|
存储 Go 索引
go语言中的数组(Array)
go语言中的数组(Array)
109 67
|
2天前
|
监控 安全 算法
深度剖析核心科技:Go 语言赋能局域网管理监控软件进阶之旅
在局域网管理监控中,跳表作为一种高效的数据结构,能显著提升流量索引和查询效率。基于Go语言的跳表实现,通过随机化索引层生成、插入和搜索功能,在高并发场景下展现卓越性能。跳表将查询时间复杂度优化至O(log n),助力实时监控异常流量,保障网络安全与稳定。示例代码展示了其在实际应用中的精妙之处。
24 9
|
12天前
|
算法 安全 Go
Go 语言中实现 RSA 加解密、签名验证算法
随着互联网的发展,安全需求日益增长。非对称加密算法RSA成为密码学中的重要代表。本文介绍如何使用Go语言和[forgoer/openssl](https://github.com/forgoer/openssl)库简化RSA加解密操作,包括秘钥生成、加解密及签名验证。该库还支持AES、DES等常用算法,安装简便,代码示例清晰易懂。
46 12
|
1月前
|
存储 Go
go语言中映射
go语言中映射
42 11
|
15天前
|
监控 算法 安全
解锁企业计算机监控的关键:基于 Go 语言的精准洞察算法
企业计算机监控在数字化浪潮下至关重要,旨在保障信息资产安全与高效运营。利用Go语言的并发编程和系统交互能力,通过进程监控、网络行为分析及应用程序使用记录等手段,实时掌握计算机运行状态。具体实现包括获取进程信息、解析网络数据包、记录应用使用时长等,确保企业信息安全合规,提升工作效率。本文转载自:[VIPShare](https://www.vipshare.com)。
23 0
|
29天前
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数

相关实验场景

更多