Go 语言入门很简单：正则表达式（下）-阿里云开发者社区

Go 语言入门很简单：正则表达式（下）

2022-10-21 297

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在计算中，我们经常需要将特定模式的字符或字符子集匹配为另一个字符串中的字符串。此技术用于使用特别的语法来搜索给定字符串中的特定字符集。比如邮件、手机号、身份证号等等。如果搜索到的模式匹配，或者在目标字符串中找到给定的子集，则搜索被称为成功；否则被认为是不成功的。那么此时该用到正则表达式了。

Split 函数

Split 函数将字符串切割成由定义的正则表达式分隔的子字符串。它返回这些表达式匹配之间的子字符串切片。

 package main
 
 import (
     "fmt"
     "log"
     "regexp"
     "strconv"
 )
 
 func main() {
 
     var data = `22, 1, 3, 4, 5, 17, 4, 3, 21, 4, 5, 1, 48, 9, 42`
 
     sum := 0
 
     re := regexp.MustCompile(",\s*")
 
     vals := re.Split(data, -1)
 
     for _, val := range vals {
 
         n, err := strconv.Atoi(val)
 
         sum += n
 
         if err != nil {
             log.Fatal(err)
         }
     }
 
     fmt.Println(sum)
 }

在代码示例中，我们有一个逗号分隔的值列表。我们从字符串中截取值并计算它们的总和。

 re := regexp.MustCompile(",\s*")

正则表达式包括一个逗号字符和任意数量的相邻空格。

 vals := re.Split(data, -1)

我们得到了值的一部分。

 for _, val := range vals {
 
     n, err := strconv.Atoi(val)
 
     sum += n
 
     if err != nil {
         log.Fatal(err)
     }
 }

我们遍历切片并计算总和。切片包含字符串；因此，我们使用 strconv.Atoi 函数将每个字符串转换为整数。

运行代码：

Go 正则表达式捕获组

圆括号 () 用于创建捕获组。这允许我们将量词应用于整个组或将交替限制为正则表达式的一部分。为了找到捕获组（Go 使用术语子表达式），我们使用 FindStringSubmatch 函数。

 package main
 
 import (
     "fmt"
     "regexp"
 )
 
 func main() {
 
     websites := [...]string{"webcode.me", "zetcode.com", "freebsd.org", "netbsd.org"}
 
     re := regexp.MustCompile("(\w+)\.(\w+)")
 
     for _, website := range websites {
 
         parts := re.FindStringSubmatch(website)
 
         for i, _ := range parts {
             fmt.Println(parts[i])
         }
 
         fmt.Println("---------------------")
     }
 }

在代码示例中，我们使用组将域名分为两部分。

 re := regexp.MustCompile("(\w+)\.(\w+)")

我们用括号定义了两个组。

 parts := re.FindStringSubmatch(website)

FindStringSubmatch 返回包含匹配项的字符串切片，包括来自捕获组的字符串。

运行代码：

 $ go run capturegroups.go 
 webcode.me
 webcode
 me
 ---------------------
 zetcode.com
 zetcode
 com
 ---------------------
 freebsd.org
 freebsd
 org
 ---------------------
 netbsd.org
 netbsd
 org
 ---------------------

正则表达式替换字符串

可以用 ReplaceAllString 替换字符串。该方法返回修改后的字符串。

package main  import (     "fmt"     "io/ioutil"     "log"     "net/http"     "regexp"     "strings" )  func main() {      resp, err := http.Get("http://webcode.me")      if err != nil {         log.Fatal(err)     }      defer resp.Body.Close()      body, err := ioutil.ReadAll(resp.Body)      if err != nil {          log.Fatal(err)     }      content := string(body)      re := regexp.MustCompile("<[^>]*>")     replaced := re.ReplaceAllString(content, "")      fmt.Println(strings.TrimSpace(replaced)) }

复制代

 package main
 
 import (
     "fmt"
     "io/ioutil"
     "log"
     "net/http"
     "regexp"
     "strings"
 )
 
 func main() {
 
     resp, err := http.Get("http://webcode.me")
 
     if err != nil {
         log.Fatal(err)
     }
 
     defer resp.Body.Close()
 
     body, err := ioutil.ReadAll(resp.Body)
 
     if err != nil {
 
         log.Fatal(err)
     }
 
     content := string(body)
 
     re := regexp.MustCompile("<[^>]*>")
     replaced := re.ReplaceAllString(content, "")
 
     fmt.Println(strings.TrimSpace(replaced))
 }

该示例读取网页的 HTML 数据并使用正则表达式去除其 HTML 标记。

 resp, err := http.Get("http://webcode.me")

我们使用 http 包中的 Get 函数创建一个 GET 请求。

 body, err := ioutil.ReadAll(resp.Body)

我们读取响应对象的主体。

 re := regexp.MustCompile("<[^>]*>")

这个模式定义了一个匹配 HTML 标签的正则表达式。

 replaced := re.ReplaceAllString(content, "")

我们使用 ReplaceAllString 方法删除所有标签。

ReplaceAllStringFunc 函数

ReplaceAllStringFunc 返回一个字符串的副本，其中正则表达式的所有匹配项都已替换为指定函数的返回值。

 package main
 
 import (
     "fmt"
     "regexp"
     "strings"
 )
 
 func main() {
 
     content := "an old eagle"
 
     re := regexp.MustCompile(`[^aeiou]`)
 
     fmt.Println(re.ReplaceAllStringFunc(content, strings.ToUpper))
 }

在代码示例中，我们将 strings.ToUpper 函数应用于字符串的所有字符。

 $ go run replaceallfunc.go 
 aN oLD eaGLe

总结

模式匹配在根据基于正则表达式和语法的特定搜索模式在字符串中搜索某些字符集时起着重要作用。匹配的模式允许我们从字符串中提取所需的数据并以我们喜欢的方式对其进行操作。理解和使用正则表达式是处理文本的关键。

在实际过程中，程序员会保留一组常用的正则表达式来匹配电子邮件、电话号码等，并在需要时使用和重用它。

本文只是简单挑选了一些常见的函数进行介绍，其实 regexp 包还有更多的函数，留给读者自己去探索和研究。

Go 语言入门很简单：正则表达式（下）

Split 函数

Go 正则表达式捕获组

正则表达式替换字符串

ReplaceAllStringFunc 函数

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Go 语言入门很简单：正则表达式（下）

Split 函数

Go 正则表达式捕获组

正则表达式替换字符串

ReplaceAllStringFunc 函数

总结

热门文章

最新文章

相关课程

相关电子书