Split 函数
Split
函数将字符串切割成由定义的正则表达式分隔的子字符串。它返回这些表达式匹配之间的子字符串切片。
package main import ( "fmt" "log" "regexp" "strconv" ) func main() { var data = `22, 1, 3, 4, 5, 17, 4, 3, 21, 4, 5, 1, 48, 9, 42` sum := 0 re := regexp.MustCompile(",\s*") vals := re.Split(data, -1) for _, val := range vals { n, err := strconv.Atoi(val) sum += n if err != nil { log.Fatal(err) } } fmt.Println(sum) }
在代码示例中,我们有一个逗号分隔的值列表。我们从字符串中截取值并计算它们的总和。
re := regexp.MustCompile(",\s*")
正则表达式包括一个逗号字符和任意数量的相邻空格。
vals := re.Split(data, -1)
我们得到了值的一部分。
for _, val := range vals { n, err := strconv.Atoi(val) sum += n if err != nil { log.Fatal(err) } }
我们遍历切片并计算总和。切片包含字符串;因此,我们使用 strconv.Atoi
函数将每个字符串转换为整数。
运行代码:
189
Go 正则表达式捕获组
圆括号 () 用于创建捕获组。这允许我们将量词应用于整个组或将交替限制为正则表达式的一部分。为了找到捕获组(Go 使用术语子表达式),我们使用 FindStringSubmatch
函数。
package main import ( "fmt" "regexp" ) func main() { websites := [...]string{"webcode.me", "zetcode.com", "freebsd.org", "netbsd.org"} re := regexp.MustCompile("(\w+)\.(\w+)") for _, website := range websites { parts := re.FindStringSubmatch(website) for i, _ := range parts { fmt.Println(parts[i]) } fmt.Println("---------------------") } }
在代码示例中,我们使用组将域名分为两部分。
re := regexp.MustCompile("(\w+)\.(\w+)")
我们用括号定义了两个组。
parts := re.FindStringSubmatch(website)
FindStringSubmatch
返回包含匹配项的字符串切片,包括来自捕获组的字符串。
运行代码:
$ go run capturegroups.go webcode.me webcode me --------------------- zetcode.com zetcode com --------------------- freebsd.org freebsd org --------------------- netbsd.org netbsd org ---------------------
正则表达式替换字符串
可以用 ReplaceAllString
替换字符串。该方法返回修改后的字符串。
package main import ( "fmt" "io/ioutil" "log" "net/http" "regexp" "strings" ) func main() { resp, err := http.Get("http://webcode.me") if err != nil { log.Fatal(err) } defer resp.Body.Close() body, err := ioutil.ReadAll(resp.Body) if err != nil { log.Fatal(err) } content := string(body) re := regexp.MustCompile("<[^>]*>") replaced := re.ReplaceAllString(content, "") fmt.Println(strings.TrimSpace(replaced)) }
复制代
package main import ( "fmt" "io/ioutil" "log" "net/http" "regexp" "strings" ) func main() { resp, err := http.Get("http://webcode.me") if err != nil { log.Fatal(err) } defer resp.Body.Close() body, err := ioutil.ReadAll(resp.Body) if err != nil { log.Fatal(err) } content := string(body) re := regexp.MustCompile("<[^>]*>") replaced := re.ReplaceAllString(content, "") fmt.Println(strings.TrimSpace(replaced)) }
该示例读取网页的 HTML 数据并使用正则表达式去除其 HTML 标记。
resp, err := http.Get("http://webcode.me")
我们使用 http 包中的 Get 函数创建一个 GET 请求。
body, err := ioutil.ReadAll(resp.Body)
我们读取响应对象的主体。
re := regexp.MustCompile("<[^>]*>")
这个模式定义了一个匹配 HTML 标签的正则表达式。
replaced := re.ReplaceAllString(content, "")
我们使用 ReplaceAllString 方法删除所有标签。
ReplaceAllStringFunc 函数
ReplaceAllStringFunc
返回一个字符串的副本,其中正则表达式的所有匹配项都已替换为指定函数的返回值。
package main import ( "fmt" "regexp" "strings" ) func main() { content := "an old eagle" re := regexp.MustCompile(`[^aeiou]`) fmt.Println(re.ReplaceAllStringFunc(content, strings.ToUpper)) }
在代码示例中,我们将 strings.ToUpper
函数应用于字符串的所有字符。
$ go run replaceallfunc.go aN oLD eaGLe
总结
模式匹配在根据基于正则表达式和语法的特定搜索模式在字符串中搜索某些字符集时起着重要作用。匹配的模式允许我们从字符串中提取所需的数据并以我们喜欢的方式对其进行操作。理解和使用正则表达式是处理文本的关键。
在实际过程中,程序员会保留一组常用的正则表达式来匹配电子邮件、电话号码等,并在需要时使用和重用它。
本文只是简单挑选了一些常见的函数进行介绍,其实 regexp
包还有更多的函数,留给读者自己去探索和研究。