Go语言核心手册-1.字符串

简介: ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。

1.1 基础概念


ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。


Unicode编码规范为世界上现存的所有自然语言中的每一个字符,都设定了一个唯一的二进制编码。它 以ASCII 编码集为出发点,并突破了ASCII只能对拉丁字母进行编码的限制。Unicode编码规范通常使用十六进制表示法来表示Unicode代码的整数值,并提供了三种不同的编码格式,即:UTF-8、UTF-16 和 UTF-32。


UTF-8以8个比特(一个字节)作为一个编码单元,它是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。对于一个英文字符,它仅用一个字节的二进制数就可以表示,而对于一个中文字符,它需要使用三个字节才能够表示。rune是Go语言特有的一个基本数据类型,它的一个值就代表一个Unicode字符,比如'吕'、'M'。一个rune类型的值会由四个字节宽度的空间来存储,它的存储空间总是能够存下一个UTF-8编码值。


1.2 字符串编码


一个rune类型的值在底层其实就是一个UTF-8编码值,前者是(便于我们人类理解的)外部展现,后者是(便于计算机系统理解的)内在表达,请看下面代码:

str := "Go爱好者"fmt.Printf("The string: %q\n", str)fmt.Printf("runes(char): %q\n", []rune(str))   //['G' 'o' '爱' '好' '者']fmt.Printf("runes(hex): %x\n", []rune(str))    //[47 6f 7231 597d 8005]fmt.Printf("bytes(hex): [% x]\n", []byte(str)) //[47 6f e7 88 b1 e5 a5 bd e8 80 85]

对于第3行输出,前面解释的比较清楚,就不赘述。对于第4行输出,就是通过UTF-8编码,3个字节的16进制展现。第5行输出,把每个字符的UTF-8编码值都拆成相应的字节序列。

image.png

一句话总结一下:一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。


1.3 遍历字符串


range遍历:

str := "Go爱好者"fmt.Printf("range 遍历:\n")for i, c := range str { fmt.Printf("%d: %q [% x]\n", i, c, []byte(string(c)))}fmt.Printf("for 遍历:\n")for i :=0; i < len(str); i++ { fmt.Printf("%d: [%c] [%x]\n", i, str[i], str[i])}

输出如下:

range 遍历:0: 'G' [47]1: 'o' [6f]2: '爱' [e7 88 b1]5: '好' [e5 a5 bd]8: '者' [e8 80 85]for 遍历:0: [G] [47]1: [o] [6f]2: [ç] [e7]3: [ˆ] [88]4: [±] [b1]5: [å] [e5]6: [¥] [a5]7: [½] [bd]8: [è] [e8]9: [€] [80]10: […] [85]

由此可以看出,通过range方式的遍历,是以rune为单位,但是相邻字符的索引值并不一定是连续的;通过for方式的遍历,是以byte为单位。


1.4 类型转换


字符串是不能直接修改的,如果需要修改,需要转换为可变类型([]rune和[]bype),待修改完后再转换回来。但不管如何转换,都需要重新分配内存,并复制数据.

str := "hello, world!"bs := []byte(str)  // string转bytestr2 := string(bs) // byte转stringrs := []rune(str)  // string转runestr3 := string(rs) // rune转string

前面已经讲解string、rune和byte的区别和联系,这里再理解他们的转换,是不是就轻松很多了呢。


1.5 总结


Go语言的代码是由Unicode字符组成的,它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储,Unicode编码规范中的编码格式定义的是:字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。Go语言中的一个string类型值会由若干个Unicode 字符组成,每个 Unicode 字符都可以由一个rune类型的值来承载。这些字符在底层都会被转换为UTF-8编码值,而这些UTF-8编码值又会以字节序列的形式表达和存储。因此,一个string类型的值在底层就是一个能够表达若干个UTF-8 编码值的字节序列。对于通过for range方式遍历字符串,会先把被遍历的字符串值拆成一个字节序列,然后再试图找出这个字节序列中包含的每一个UTF-8编码值,或者说每一个Unicode 字符。相邻的 Unicode 字符的索引值并不一定是连续的,这取决于前一个Unicode 字符是否为单字节字符,一旦我们清楚了这些内在机制就不会再困惑了。对于 Go 语言来说,Unicode编码规范和UTF-8编码格式算是基础之一,我们应该了解到它们对 Go 语言的重要性,这对于正确理解Go语言中的相关数据类型以及日后的相关程序编写都会很有好处。

相关文章
|
12天前
|
存储 安全 Java
【Golang】(4)Go里面的指针如何?函数与方法怎么不一样?带你了解Go不同于其他高级语言的语法
结构体可以存储一组不同类型的数据,是一种符合类型。Go抛弃了类与继承,同时也抛弃了构造方法,刻意弱化了面向对象的功能,Go并非是一个传统OOP的语言,但是Go依旧有着OOP的影子,通过结构体和方法也可以模拟出一个类。
64 1
|
2月前
|
Cloud Native Go API
Go:为云原生而生的高效语言
Go:为云原生而生的高效语言
288 0
|
2月前
|
Cloud Native Java Go
Go:为云原生而生的高效语言
Go:为云原生而生的高效语言
200 0
|
2月前
|
Cloud Native Java 中间件
Go:为云原生而生的高效语言
Go:为云原生而生的高效语言
167 0
|
2月前
|
Cloud Native Java Go
Go:为云原生而生的高效语言
Go:为云原生而生的高效语言
259 0
|
Go 索引
golang 字符串操作实例
package main import s "strings" import "fmt" var p = fmt.Println func main() { p("Contains: ", s.
973 0
|
2月前
|
Cloud Native 安全 Java
Go:为云原生而生的高效语言
Go:为云原生而生的高效语言
250 1
|
8月前
|
编译器 Go
揭秘 Go 语言中空结构体的强大用法
Go 语言中的空结构体 `struct{}` 不包含任何字段,不占用内存空间。它在实际编程中有多种典型用法:1) 结合 map 实现集合(set)类型;2) 与 channel 搭配用于信号通知;3) 申请超大容量的 Slice 和 Array 以节省内存;4) 作为接口实现时明确表示不关注值。此外,需要注意的是,空结构体作为字段时可能会因内存对齐原因占用额外空间。建议将空结构体放在外层结构体的第一个字段以优化内存使用。
|
8月前
|
运维 监控 算法
监控局域网其他电脑:Go 语言迪杰斯特拉算法的高效应用
在信息化时代,监控局域网成为网络管理与安全防护的关键需求。本文探讨了迪杰斯特拉(Dijkstra)算法在监控局域网中的应用,通过计算最短路径优化数据传输和故障检测。文中提供了使用Go语言实现的代码例程,展示了如何高效地进行网络监控,确保局域网的稳定运行和数据安全。迪杰斯特拉算法能减少传输延迟和带宽消耗,及时发现并处理网络故障,适用于复杂网络环境下的管理和维护。

热门文章

最新文章