Go 正则表达式

简介: Go 正则表达式

目录

@[toc]

1. 正则表达式语法

正则表达式是一种用于匹配和操作文本的强大工具,它使用特殊的字符和语法来定义模式。在 Golang 的 regexp 包中,使用的正则表达式语法是基于标准的 POSIX 正则表达式语法的一个子集。

以下是一些常用的正则表达式元字符:

  • . :匹配任意单个字符,除了换行符。
  • * :匹配前面的元素零次或多次。
  • + :匹配前面的元素一次或多次。
  • ? :匹配前面的元素零次或一次。
  • ^ :匹配字符串的开头。
  • $ :匹配字符串的结尾。
  • [] :字符类,匹配方括号中的任意字符。
  • [^] :否定字符类,匹配除方括号中字符以外的任意字符。
  • | :逻辑或,匹配两个模式之一。
  • () :捕获组,用于分组和提取匹配的子字符串。

示例代码:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"
 re := regexp.MustCompile(`H.llo`)

 fmt.Println(re.MatchString(str)) // true
}

在上面的示例中,我们创建了一个正则表达式对象 re,它使用了.元字符来匹配 H 后面的任意字符,然后是 llo。我们使用 MatchString 方法来检查字符串 str 是否匹配该正则表达式,它将返回 true。

2. 创建正则表达式对象

在 Golang 中,要使用正则表达式进行匹配,首先需要创建一个正则表达式对象。可以使用 regexp.Compile 函数或正则表达式字面量来创建对象。

示例代码:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"
 re := regexp.MustCompile(`[aeiou]`)

 fmt.Println(re.MatchString(str)) // true
}

当我们运行上述代码时,它将打印出 true,因为正则表达式 [aeiou] 匹配字符串中的任何一个元音字母。

在上面的示例中,我们使用 regexp.MustCompile 函数创建了一个正则表达式对象 re,该函数接受一个字符串参数,表示正则表达式的模式。这个函数会编译正则表达式并返回一个可用于匹配的正则表达式对象。

另外,你还可以使用正则表达式字面量来创建正则表达式对象,如下所示:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"
 re := `[aeiou]`

 match, _ := regexp.MatchString(re, str)
 fmt.Println(match) // true
}

在这个示例中,我们直接将正则表达式模式作为字符串赋值给变量 re,然后使用 regexp.MatchString 函数检查字符串 str 是否与正则表达式匹配。这个函数返回一个布尔值表示匹配结果。

无论是使用 regexp.MustCompile 函数还是正则表达式字面量,都会创建一个正则表达式对象,该对象可以在后续的匹配操作中使用。

3. 字符串匹配

使用 Golang 的 regexp 包,你可以对字符串进行正则表达式匹配操作。下面是一些常用的方法:

  • MatchString(pattern, s string) bool:检查字符串 s 是否与正则表达式模式 pattern 匹配,返回一个布尔值表示匹配结果。
  • Match(pattern string, b []byte) (matched bool, err error):检查字节切片 b 是否与正则表达式模式 pattern 匹配,返回一个布尔值表示匹配结果。

示例代码:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"
 re := regexp.MustCompile(`^Hello`)

 fmt.Println(re.MatchString(str)) // true
}

在上面的示例中,我们使用 MatchString 方法检查字符串 str 是否以 Hello 开头。由于 str 的开头确实是 Hello,所以匹配结果为 true。

另外,你也可以使用 Match 方法来检查字节切片是否与正则表达式匹配。例如:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := []byte("Hello, World!")
 re := regexp.MustCompile(`^Hello`)

 matched, _ := re.Match(str)
 fmt.Println(matched) // true
}

在这个示例中,我们将字符串 str 转换为字节切片,并使用 Match 方法来检查它是否以 Hello 开头。同样,由于匹配成功,所以输出为 true。

通过使用这些方法,你可以轻松地检查字符串是否符合特定的正则表达式模式。

4. 字符串替换

在 Golang 的 regexp 包中,你可以使用正则表达式来进行字符串替换操作。以下是常用的方法:

  • ReplaceAllString(src, repl, pattern string) string:将字符串 src 中所有匹配正则表达式模式 pattern 的部分替换为 repl,并返回替换后的新字符串。
  • ReplaceAllStringFunc(src string, repl func(string) string, pattern string) string:根据匹配的正则表达式模式 pattern,使用 repl 函数对字符串 src 进行替换,并返回替换后的新字符串。repl 函数接收匹配的字符串作为参数,并返回替换后的字符串。

示例代码:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, Golang!"
 re := regexp.MustCompile(`Golang`)

 newStr := re.ReplaceAllString(str, "World")
 fmt.Println(newStr) // Hello, World!
}

在上面的示例中,我们使用 ReplaceAllString 方法将字符串 str 中的 Golang 替换为 World。替换后的新字符串存储在变量 newStr 中,并打印输出结果为 Hello, World!。

如果你想根据匹配的字符串来动态替换内容,可以使用 ReplaceAllStringFunc 方法。例如:

package main

import (
 "fmt"
 "regexp"
 "strings"
)

func main() {
   
 str := "Hello, Golang!"
 re := regexp.MustCompile(`\w+`)

 newStr := re.ReplaceAllStringFunc(str, strings.ToUpper)
 fmt.Println(newStr) // HELLO, GOLANG!
}

在这个示例中,我们使用 ReplaceAllStringFunc 方法将字符串 str 中的每个单词转换为大写。我们提供了 strings.ToUpper 函数作为替换函数,该函数将匹配的字符串转换为大写形式。结果输出为 HELLO, GOLANG!。

通过这些方法,你可以对字符串进行灵活的替换操作,根据正则表达式模式来实现各种替换需求。

5. 捕获组

在正则表达式中,捕获组是用括号括起来的子表达式,它们允许你在匹配中提取特定的子字符串。Golang 的 regexp 包提供了多个方法来处理捕获组。

  • FindStringSubmatch(s string) []string:返回一个字符串切片,其中包含与正则表达式模式匹配的子字符串及其对应的捕获组。
  • FindAllStringSubmatch(s string, n int) string:返回一个字符串切片的切片,其中包含与正则表达式模式匹配的所有子字符串及其对应的捕获组。可指定 n 来限制匹配的数量。

示例代码:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "John Doe, jane@example.com"
 re := regexp.MustCompile(`(\w+)\s(\w+),\s(\w+@\w+.\w+)`)

 match := re.FindStringSubmatch(str)
 fmt.Println(match) // [John Doe, John Doe, jane@example.com]
 fmt.Println("Name:", match[1], match[2])  // Name: John Doe
 fmt.Println("Email:", match[3]) // Email: jane@example.com
}

在上面的示例中,我们使用正则表达式 (\w+)\s(\w+),\s(\w+@\w+.\w+) 匹配形如 "John Doe, jane@example.com" 的字符串。该正则表达式包含了三个捕获组,分别用于提取名字、姓氏和电子邮件地址。我们使用 FindStringSubmatch 方法来获取匹配的结果,并通过索引访问捕获组中的子字符串。

当我们打印 match 时,可以看到它是一个字符串切片,其中第一个元素是整个匹配的字符串,后续元素是捕获组中的子字符串。

7. 标志(Flags)

Golang 的 regexp 包还提供了一些标志(flags)选项,用于修改正则表达式的行为。这些标志可以通过在正则表达式模式中添加标志参数来设置。

以下是一些常用的标志:

  • i:忽略大小写,使匹配对大小写不敏感。
  • m:多行模式,允许 ^ 和 $ 匹配文本的每一行的开头和结尾。
  • s:单行模式,使点号 . 可以匹配换行符。
  • U:非贪婪模式,使匹配尽可能少地进行。

示例代码:

package main

import (
"fmt"
"regexp"
)

func main() {
   
 str := "Hello\nworld"
 re := regexp.MustCompile((?m)^(\w+))
 matches := re.FindAllStringSubmatch(str, -1)
 for _, match := range matches {
   
 fmt.Println("Matched:", match[0])
 fmt.Println("Capture Group 1:", match[1])
 }
}

在上面的示例中,我们使用正则表达式 (?m)^(\w+) 匹配多行字符串中的每一行的第一个单词。标志 (?m) 启用多行模式,^ 匹配每行的开头,(\w+) 是一个捕获组,用于匹配一个或多个字母数字字符。我们使用 FindAllStringSubmatch 方法来获取所有匹配的结果,并迭代输出每个匹配的字符串和捕获组。

当我们运行该代码时,输出将是:

Matched: Hello
Capture Group 1: Hello
Matched: world
Capture Group 1: world

通过设置适当的标志,你可以调整正则表达式的行为,以满足特定的匹配需求。

8. 常见正则表达式技巧

当使用正则表达式时,有一些常见的技巧可以帮助你更有效地处理模式匹配。以下是一些常见的正则表达式技巧。

8.1 使用限定符

限定符用于指定匹配元素的数量。以下是一些常见的限定符:

  • *:匹配前一个元素零次或多次。
  • +:匹配前一个元素一次或多次。
  • ?:匹配前一个元素零次或一次。
  • {n}:匹配前一个元素恰好 n 次。
  • {n,}:匹配前一个元素至少 n 次。
  • {n,m}:匹配前一个元素至少 n 次,但不超过 m 次。
package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "aaaabbbbcccc"

 re := regexp.MustCompile(`a{2,}b{2,}c{2,}`)
 match := re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,我们使用正则表达式 a{2,}b{2,}c{2,} 匹配连续出现两次或更多次的字母 "a"、"b" 和 "c"。通过使用限定符,我们可以定义所需的匹配次数。

8.2 使用字符类

字符类用于匹配一组特定的字符。以下是一些常见的字符类:

  • [abc]:匹配字符 "a"、"b" 或 "c"。
  • [0-9]:匹配任意一个数字。
  • [^0-9]:匹配除数字以外的任意字符。
package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "a1b2c3"

 re := regexp.MustCompile(`[0-9]`)
 matches := re.FindAllString(str, -1)
 fmt.Println(matches) // [1 2 3]
}

在上面的示例中,我们使用正则表达式 [0-9] 匹配字符串中的数字字符。通过使用字符类,我们可以定义需要匹配的字符范围。

8.3 使用元字符

元字符具有特殊的含义。以下是一些常见的元字符:

  • .:匹配除换行符以外的任意字符。
  • \w:匹配字母、数字或下划线字符。
  • \d:匹配数字字符。
  • \s:匹配空白字符。
package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"

 re := regexp.MustCompile(`\w+`)
 matches := re.FindAllString(str, -1)
 fmt.Println(matches) // [Hello World]
}

8.4 使用捕获组

捕获组允许你提取匹配的子字符串。通过使用括号将子表达式括起来,你可以将其作为捕获组。以下是一个示例:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, Golang!"

 re := regexp.MustCompile(`(\w+), (\w+)!`)
 matches := re.FindStringSubmatch(str)
 fmt.Println(matches[0])   // Hello, Golang!
 fmt.Println(matches[1])   // Hello
 fmt.Println(matches[2])   // Golang
}

在上面的示例中,我们使用正则表达式 (\w+), (\w+)! 匹配以逗号分隔的两个单词,并将它们作为捕获组。通过使用 FindStringSubmatch 方法,我们可以提取整个匹配的子字符串以及每个捕获组的内容。

8.5 使用反向引用

反向引用允许你在正则表达式中引用先前匹配的捕获组。通过使用 \n,其中 n 是捕获组的索引,你可以引用先前的捕获组。以下是一个示例:

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "hello hello"

 re := regexp.MustCompile(`(\w+) \1`)
 match := re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,我们使用正则表达式 (\w+) \1 匹配重复的单词。\1 表示引用第一个捕获组的内容。通过使用反向引用,我们可以匹配重复出现的模式。

8.6 使用锚点

锚点用于指定匹配发生的位置。以下是一些常见的锚点:

  • ^:匹配字符串的开头。
  • $:匹配字符串的结尾。
  • \b:匹配单词的边界。
package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, Golang!"

 re := regexp.MustCompile(`^Hello`)
 match := re.MatchString(str)
 fmt.Println(match) // true

 re = regexp.MustCompile(`Golang!$`)
 match = re.MatchString(str)
 fmt.Println(match) // true

 re = regexp.MustCompile(`\bGolang\b`)
 match = re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,我们使用不同的锚点来匹配字符串的开头、结尾和单词边界。通过使用锚点,我们可以限定匹配发生的位置。

8.7 使用修饰符

修饰符是用于修改正则表达式的行为的特殊标记。它们可以影响匹配的方式和规则。以下是一些常见的修饰符。

8.7.1 i 修饰符(不区分大小写)

使用 i 修饰符可以使匹配过程对大小写不敏感。

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello, World!"

 re := regexp.MustCompile(`hello`)
 match := re.MatchString(str)
 fmt.Println(match) // false

 re = regexp.MustCompile(`(?i)hello`)
 match = re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,正则表达式 (?i)hello 使用了 i 修饰符,使匹配过程不区分大小写。

8.7.2 m 修饰符(多行模式)

使用 m 修饰符可以使 ^ 和 $ 锚点匹配每一行的开头和结尾,而不仅仅是整个字符串的开头和结尾。

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := `Line 1
Line 2
Line 3`

 re := regexp.MustCompile(`^Line \d+$`)
 match := re.MatchString(str)
 fmt.Println(match) // false

 re = regexp.MustCompile(`(?m)^Line \d+$`)
 match = re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,正则表达式 (?m)^Line \d+使用了m修饰符,使和使用了 m 修饰符,使 ^ 和使用了m修饰符,使和 锚点匹配每一行的开头和结尾。

8.7.3 s 修饰符(单行模式)

使用 s 修饰符可以使 . 元字符匹配包括换行符在内的任意字符。

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello\nWorld!"

 re := regexp.MustCompile(`Hello.World!`)
 match := re.MatchString(str)
 fmt.Println(match) // false

 re = regexp.MustCompile(`(?s)Hello.World!`)
 match = re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,正则表达式 (?s)Hello.World! 使用了 s 修饰符,使 . 元字符可以匹配包括换行符在内的任意字符。

修饰符可以在正则表达式中使用括号和 ? 符号的形式,如 (?i)、(?m) 和 (?s)。它们可以单独使用,也可以组合使用,以适应特定的匹配需求。

8.7.4 x 修饰符(忽略空白字符)

使用 x 修饰符可以在正则表达式中忽略空白字符,包括空格、制表符和换行符。这样可以使正则表达式更易读和维护。

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello World!"

 re := regexp.MustCompile(`Hello   World!`)
 match := re.MatchString(str)
 fmt.Println(match) // false

 re = regexp.MustCompile(`(?x)Hello   World!`)
 match = re.MatchString(str)
 fmt.Println(match) // true
}

在上面的示例中,正则表达式 (?x)Hello World! 使用了 x 修饰符,忽略了正则表达式中的空白字符。这样可以使正则表达式更易读,减少了空格的影响。

8.7.5 U 修饰符(非贪婪模式)

使用 U 修饰符可以将匹配模式设置为非贪婪模式,即尽可能少地匹配字符。

package main

import (
 "fmt"
 "regexp"
)

func main() {
   
 str := "Hello World!"

 re := regexp.MustCompile(`H.*o`)
 match := re.FindString(str)
 fmt.Println(match) // Hello World!

 re = regexp.MustCompile(`H.*?o`)
 match = re.FindString(str)
 fmt.Println(match) // Hello
}

在上面的示例中,正则表达式 H.o 使用了贪婪模式,匹配了从 "H" 到最后一个 "o" 的最长字符串。而正则表达式 H. ?o 使用了 U 修饰符,将匹配模式设置为非贪婪模式,只匹配了从 "H" 到第一个 "o" 的最短字符串。

目录
相关文章
|
7月前
|
存储 Go 索引
Go 正则表达式
Go 正则表达式
74 0
|
Java 编译器 Go
Go 语言入门很简单:正则表达式(上)
在计算中,我们经常需要将特定模式的字符或字符子集匹配为另一个字符串中的字符串。此技术用于使用特别的语法来搜索给定字符串中的特定字符集。比如邮件、手机号、身份证号等等。 如果搜索到的模式匹配,或者在目标字符串中找到给定的子集,则搜索被称为成功;否则被认为是不成功的。 那么此时该用到正则表达式了。
|
Go 数据安全/隐私保护 Python
Go 编程 | 连载 27 - 正则表达式
Go 编程 | 连载 27 - 正则表达式
|
程序员 Go
Go 语言入门很简单:正则表达式(下)
在计算中,我们经常需要将特定模式的字符或字符子集匹配为另一个字符串中的字符串。此技术用于使用特别的语法来搜索给定字符串中的特定字符集。比如邮件、手机号、身份证号等等。 如果搜索到的模式匹配,或者在目标字符串中找到给定的子集,则搜索被称为成功;否则被认为是不成功的。 那么此时该用到正则表达式了。
|
数据采集 Go
在Go中使用正则表达式
在Go中使用正则表达式
157 0
在Go中使用正则表达式
|
2天前
|
存储 Go 索引
go语言使用for循环遍历
go语言使用for循环遍历
16 7
|
2天前
|
开发框架 Go 计算机视觉
纯Go语言开发人脸检测、瞳孔/眼睛定位与面部特征检测插件-助力GoFly快速开发框架
开发纯go插件的原因是因为目前 Go 生态系统中几乎所有现有的人脸检测解决方案都是纯粹绑定到一些 C/C++ 库,如 OpenCV 或 dlib,但通过 cgo 调用 C 程序会引入巨大的延迟,并在性能方面产生显著的权衡。此外,在许多情况下,在各种平台上安装 OpenCV 是很麻烦的。使用纯Go开发的插件不仅在开发时方便,在项目部署和项目维护也能省很多时间精力。
|
5天前
|
存储 Go
go语言 遍历映射(map)
go语言 遍历映射(map)
18 2
|
6天前
|
Go 调度 开发者
Go语言中的并发编程:深入理解goroutines和channels####
本文旨在探讨Go语言中并发编程的核心概念——goroutines和channels。通过分析它们的工作原理、使用场景以及最佳实践,帮助开发者更好地理解和运用这两种强大的工具来构建高效、可扩展的应用程序。文章还将涵盖一些常见的陷阱和解决方案,以确保在实际应用中能够避免潜在的问题。 ####
|
6天前
|
测试技术 Go 索引
go语言使用 range 关键字遍历
go语言使用 range 关键字遍历
14 3