Go语言核心手册-1.字符串

简介: ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。

1.1 基础概念


ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。


Unicode编码规范为世界上现存的所有自然语言中的每一个字符,都设定了一个唯一的二进制编码。它 以ASCII 编码集为出发点,并突破了ASCII只能对拉丁字母进行编码的限制。Unicode编码规范通常使用十六进制表示法来表示Unicode代码的整数值,并提供了三种不同的编码格式,即:UTF-8、UTF-16 和 UTF-32。


UTF-8以8个比特(一个字节)作为一个编码单元,它是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。对于一个英文字符,它仅用一个字节的二进制数就可以表示,而对于一个中文字符,它需要使用三个字节才能够表示。rune是Go语言特有的一个基本数据类型,它的一个值就代表一个Unicode字符,比如'吕'、'M'。一个rune类型的值会由四个字节宽度的空间来存储,它的存储空间总是能够存下一个UTF-8编码值。


1.2 字符串编码


一个rune类型的值在底层其实就是一个UTF-8编码值,前者是(便于我们人类理解的)外部展现,后者是(便于计算机系统理解的)内在表达,请看下面代码:

str := "Go爱好者"fmt.Printf("The string: %q\n", str)fmt.Printf("runes(char): %q\n", []rune(str))   //['G' 'o' '爱' '好' '者']fmt.Printf("runes(hex): %x\n", []rune(str))    //[47 6f 7231 597d 8005]fmt.Printf("bytes(hex): [% x]\n", []byte(str)) //[47 6f e7 88 b1 e5 a5 bd e8 80 85]

对于第3行输出,前面解释的比较清楚,就不赘述。对于第4行输出,就是通过UTF-8编码,3个字节的16进制展现。第5行输出,把每个字符的UTF-8编码值都拆成相应的字节序列。

image.png

一句话总结一下:一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。


1.3 遍历字符串


range遍历:

str := "Go爱好者"fmt.Printf("range 遍历:\n")for i, c := range str { fmt.Printf("%d: %q [% x]\n", i, c, []byte(string(c)))}fmt.Printf("for 遍历:\n")for i :=0; i < len(str); i++ { fmt.Printf("%d: [%c] [%x]\n", i, str[i], str[i])}

输出如下:

range 遍历:0: 'G' [47]1: 'o' [6f]2: '爱' [e7 88 b1]5: '好' [e5 a5 bd]8: '者' [e8 80 85]for 遍历:0: [G] [47]1: [o] [6f]2: [ç] [e7]3: [ˆ] [88]4: [±] [b1]5: [å] [e5]6: [¥] [a5]7: [½] [bd]8: [è] [e8]9: [€] [80]10: […] [85]

由此可以看出,通过range方式的遍历,是以rune为单位,但是相邻字符的索引值并不一定是连续的;通过for方式的遍历,是以byte为单位。


1.4 类型转换


字符串是不能直接修改的,如果需要修改,需要转换为可变类型([]rune和[]bype),待修改完后再转换回来。但不管如何转换,都需要重新分配内存,并复制数据.

str := "hello, world!"bs := []byte(str)  // string转bytestr2 := string(bs) // byte转stringrs := []rune(str)  // string转runestr3 := string(rs) // rune转string

前面已经讲解string、rune和byte的区别和联系,这里再理解他们的转换,是不是就轻松很多了呢。


1.5 总结


Go语言的代码是由Unicode字符组成的,它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储,Unicode编码规范中的编码格式定义的是:字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。Go语言中的一个string类型值会由若干个Unicode 字符组成,每个 Unicode 字符都可以由一个rune类型的值来承载。这些字符在底层都会被转换为UTF-8编码值,而这些UTF-8编码值又会以字节序列的形式表达和存储。因此,一个string类型的值在底层就是一个能够表达若干个UTF-8 编码值的字节序列。对于通过for range方式遍历字符串,会先把被遍历的字符串值拆成一个字节序列,然后再试图找出这个字节序列中包含的每一个UTF-8编码值,或者说每一个Unicode 字符。相邻的 Unicode 字符的索引值并不一定是连续的,这取决于前一个Unicode 字符是否为单字节字符,一旦我们清楚了这些内在机制就不会再困惑了。对于 Go 语言来说,Unicode编码规范和UTF-8编码格式算是基础之一,我们应该了解到它们对 Go 语言的重要性,这对于正确理解Go语言中的相关数据类型以及日后的相关程序编写都会很有好处。

相关文章
|
8天前
|
存储 JSON 监控
Viper,一个Go语言配置管理神器!
Viper 是一个功能强大的 Go 语言配置管理库,支持从多种来源读取配置,包括文件、环境变量、远程配置中心等。本文详细介绍了 Viper 的核心特性和使用方法,包括从本地 YAML 文件和 Consul 远程配置中心读取配置的示例。Viper 的多来源配置、动态配置和轻松集成特性使其成为管理复杂应用配置的理想选择。
28 2
|
6天前
|
Go 索引
go语言中的循环语句
【11月更文挑战第4天】
16 2
|
6天前
|
Go C++
go语言中的条件语句
【11月更文挑战第4天】
19 2
|
6天前
|
Go
go语言中的 跳转语句
【11月更文挑战第4天】
15 4
|
6天前
|
JSON 安全 Go
Go语言中使用JWT鉴权、Token刷新完整示例,拿去直接用!
本文介绍了如何在 Go 语言中使用 Gin 框架实现 JWT 用户认证和安全保护。JWT(JSON Web Token)是一种轻量、高效的认证与授权解决方案,特别适合微服务架构。文章详细讲解了 JWT 的基本概念、结构以及如何在 Gin 中生成、解析和刷新 JWT。通过示例代码,展示了如何在实际项目中应用 JWT,确保用户身份验证和数据安全。完整代码可在 GitHub 仓库中查看。
28 1
|
12天前
|
JavaScript Java Go
探索Go语言在微服务架构中的优势
在微服务架构的浪潮中,Go语言以其简洁、高效和并发处理能力脱颖而出。本文将深入探讨Go语言在构建微服务时的性能优势,包括其在内存管理、网络编程、并发模型以及工具链支持方面的特点。通过对比其他流行语言,我们将揭示Go语言如何成为微服务架构中的一股清流。
105 53
|
11天前
|
Ubuntu 编译器 Linux
go语言中SQLite3驱动安装
【11月更文挑战第2天】
35 7
|
11天前
|
关系型数据库 Go 网络安全
go语言中PostgreSQL驱动安装
【11月更文挑战第2天】
42 5
|
11天前
|
安全 Go
用 Zap 轻松搞定 Go 语言中的结构化日志
在现代应用程序开发中,日志记录至关重要。Go 语言中有许多日志库,而 Zap 因其高性能和灵活性脱颖而出。本文详细介绍如何在 Go 项目中使用 Zap 进行结构化日志记录,并展示如何定制日志输出,满足生产环境需求。通过基础示例、SugaredLogger 的便捷使用以及自定义日志配置,帮助你在实际开发中高效管理日志。
28 1
|
10天前
|
程序员 Go
go语言中的控制结构
【11月更文挑战第3天】
87 58