Go语言核心手册-1.字符串

简介: ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。

1.1 基础概念


ASCII是英文“American Standard Code for Information Interchange”的缩写,中文译为美国信息交换标准代码,它是由美国国家标准学会(ANSI)制定的单字节字符编码方案,它使用单个字节(byte)的二进制数来编码一个字符。


Unicode编码规范为世界上现存的所有自然语言中的每一个字符,都设定了一个唯一的二进制编码。它 以ASCII 编码集为出发点,并突破了ASCII只能对拉丁字母进行编码的限制。Unicode编码规范通常使用十六进制表示法来表示Unicode代码的整数值,并提供了三种不同的编码格式,即:UTF-8、UTF-16 和 UTF-32。


UTF-8以8个比特(一个字节)作为一个编码单元,它是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。对于一个英文字符,它仅用一个字节的二进制数就可以表示,而对于一个中文字符,它需要使用三个字节才能够表示。rune是Go语言特有的一个基本数据类型,它的一个值就代表一个Unicode字符,比如'吕'、'M'。一个rune类型的值会由四个字节宽度的空间来存储,它的存储空间总是能够存下一个UTF-8编码值。


1.2 字符串编码


一个rune类型的值在底层其实就是一个UTF-8编码值,前者是(便于我们人类理解的)外部展现,后者是(便于计算机系统理解的)内在表达,请看下面代码:

str := "Go爱好者"fmt.Printf("The string: %q\n", str)fmt.Printf("runes(char): %q\n", []rune(str))   //['G' 'o' '爱' '好' '者']fmt.Printf("runes(hex): %x\n", []rune(str))    //[47 6f 7231 597d 8005]fmt.Printf("bytes(hex): [% x]\n", []byte(str)) //[47 6f e7 88 b1 e5 a5 bd e8 80 85]

对于第3行输出,前面解释的比较清楚,就不赘述。对于第4行输出,就是通过UTF-8编码,3个字节的16进制展现。第5行输出,把每个字符的UTF-8编码值都拆成相应的字节序列。

image.png

一句话总结一下:一个string类型的值在底层就是一个能够表达若干个UTF-8编码值的字节序列。


1.3 遍历字符串


range遍历:

str := "Go爱好者"fmt.Printf("range 遍历:\n")for i, c := range str { fmt.Printf("%d: %q [% x]\n", i, c, []byte(string(c)))}fmt.Printf("for 遍历:\n")for i :=0; i < len(str); i++ { fmt.Printf("%d: [%c] [%x]\n", i, str[i], str[i])}

输出如下:

range 遍历:0: 'G' [47]1: 'o' [6f]2: '爱' [e7 88 b1]5: '好' [e5 a5 bd]8: '者' [e8 80 85]for 遍历:0: [G] [47]1: [o] [6f]2: [ç] [e7]3: [ˆ] [88]4: [±] [b1]5: [å] [e5]6: [¥] [a5]7: [½] [bd]8: [è] [e8]9: [€] [80]10: […] [85]

由此可以看出,通过range方式的遍历,是以rune为单位,但是相邻字符的索引值并不一定是连续的;通过for方式的遍历,是以byte为单位。


1.4 类型转换


字符串是不能直接修改的,如果需要修改,需要转换为可变类型([]rune和[]bype),待修改完后再转换回来。但不管如何转换,都需要重新分配内存,并复制数据.

str := "hello, world!"bs := []byte(str)  // string转bytestr2 := string(bs) // byte转stringrs := []rune(str)  // string转runestr3 := string(rs) // rune转string

前面已经讲解string、rune和byte的区别和联系,这里再理解他们的转换,是不是就轻松很多了呢。


1.5 总结


Go语言的代码是由Unicode字符组成的,它们都必须由Unicode编码规范中的UTF-8编码格式进行编码并存储,Unicode编码规范中的编码格式定义的是:字符与字节序列之间的转换方式。其中的UTF-8是一种可变宽的编码方案,它会用一个或多个字节的二进制数来表示某个字符,最多使用四个字节。Go语言中的一个string类型值会由若干个Unicode 字符组成,每个 Unicode 字符都可以由一个rune类型的值来承载。这些字符在底层都会被转换为UTF-8编码值,而这些UTF-8编码值又会以字节序列的形式表达和存储。因此,一个string类型的值在底层就是一个能够表达若干个UTF-8 编码值的字节序列。对于通过for range方式遍历字符串,会先把被遍历的字符串值拆成一个字节序列,然后再试图找出这个字节序列中包含的每一个UTF-8编码值,或者说每一个Unicode 字符。相邻的 Unicode 字符的索引值并不一定是连续的,这取决于前一个Unicode 字符是否为单字节字符,一旦我们清楚了这些内在机制就不会再困惑了。对于 Go 语言来说,Unicode编码规范和UTF-8编码格式算是基础之一,我们应该了解到它们对 Go 语言的重要性,这对于正确理解Go语言中的相关数据类型以及日后的相关程序编写都会很有好处。

相关文章
|
9天前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
44 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
28天前
|
存储 Go 索引
go语言中的数组(Array)
go语言中的数组(Array)
104 67
|
3天前
|
算法 安全 Go
Go 语言中实现 RSA 加解密、签名验证算法
随着互联网的发展,安全需求日益增长。非对称加密算法RSA成为密码学中的重要代表。本文介绍如何使用Go语言和[forgoer/openssl](https://github.com/forgoer/openssl)库简化RSA加解密操作,包括秘钥生成、加解密及签名验证。该库还支持AES、DES等常用算法,安装简便,代码示例清晰易懂。
29 16
|
6天前
|
监控 算法 安全
解锁企业计算机监控的关键:基于 Go 语言的精准洞察算法
企业计算机监控在数字化浪潮下至关重要,旨在保障信息资产安全与高效运营。利用Go语言的并发编程和系统交互能力,通过进程监控、网络行为分析及应用程序使用记录等手段,实时掌握计算机运行状态。具体实现包括获取进程信息、解析网络数据包、记录应用使用时长等,确保企业信息安全合规,提升工作效率。本文转载自:[VIPShare](https://www.vipshare.com)。
19 0
|
20天前
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数
|
8月前
|
开发框架 安全 中间件
Go语言开发小技巧&易错点100例(十二)
Go语言开发小技巧&易错点100例(十二)
82 1
|
1月前
|
开发框架 Go 计算机视觉
纯Go语言开发人脸检测、瞳孔/眼睛定位与面部特征检测插件-助力GoFly快速开发框架
开发纯go插件的原因是因为目前 Go 生态系统中几乎所有现有的人脸检测解决方案都是纯粹绑定到一些 C/C++ 库,如 OpenCV 或 dlib,但通过 cgo 调用 C 程序会引入巨大的延迟,并在性能方面产生显著的权衡。此外,在许多情况下,在各种平台上安装 OpenCV 是很麻烦的。使用纯Go开发的插件不仅在开发时方便,在项目部署和项目维护也能省很多时间精力。
|
2月前
|
Go 数据安全/隐私保护 开发者
Go语言开发
【10月更文挑战第26天】Go语言开发
43 3
|
2月前
|
Java 程序员 Go
Go语言的开发
【10月更文挑战第25天】Go语言的开发
39 3
|
5月前
|
JSON 中间件 Go
go语言后端开发学习(四) —— 在go项目中使用Zap日志库
本文详细介绍了如何在Go项目中集成并配置Zap日志库。首先通过`go get -u go.uber.org/zap`命令安装Zap,接着展示了`Logger`与`Sugared Logger`两种日志记录器的基本用法。随后深入探讨了Zap的高级配置,包括如何将日志输出至文件、调整时间格式、记录调用者信息以及日志分割等。最后,文章演示了如何在gin框架中集成Zap,通过自定义中间件实现了日志记录和异常恢复功能。通过这些步骤,读者可以掌握Zap在实际项目中的应用与定制方法
176 1
go语言后端开发学习(四) —— 在go项目中使用Zap日志库