Go语言:SliceHeader,slice 如何高效处理数据?

简介: 数组被声明之后,它的大小和内部元素的类型就不能再被改变因为在 Go 语言中,函数之间的参数传递是值传递,数组作为参数的时候,会将其复制一份,如果它非常大,会造成大量的内存浪费

数组

Go 语言中,数组类型包括两部分:数组大小、数组内部元素类型

a1 := [1]string("微客鸟窝")
a2 := [2]string("微客鸟窝")
复制代码

示例中变量 a1 的类型是 [1]string,变量 a2 的类型是 [2]string,因为它们大小不一致,所以不是同一类型。

数组局限性

  • 数组被声明之后,它的大小和内部元素的类型就不能再被改变
  • 因为在 Go 语言中,函数之间的参数传递是值传递,数组作为参数的时候,会将其复制一份,如果它非常大,会造成大量的内存浪费

正是因为数组有这些局限性,Go 又设计了 slice !

slice 切片

slice 切片的底层数据是存储在数组中的,可以说是数组的改良版,slice 是对数组的抽象和封装,它可以动态的添加元素,容量不足时可以自动扩容。

动态扩容

通过内置的 append 方法,可以对切片追加任意多个元素:

func main() {
  s := []string{"微客鸟窝","无尘"}
  s = append(s,"wucs")
  fmt.Println(s) //[微客鸟窝 无尘 wucs]
}
复制代码

append 方法追加元素时,如果切片的容量不够,会自动进行扩容:

func main() {
   s := []string{"微客鸟窝","无尘"}
   fmt.Println("切片长度:",len(s),";切片容量:",cap(s))
   s = append(s,"wucs")
   fmt.Println("切片长度:",len(s),";切片容量:",cap(s))
   fmt.Println(s) //
}
复制代码

运行结果:

切片长度: 2 ;切片容量: 2
切片长度: 3 ;切片容量: 4
[微客鸟窝 无尘 wucs]
复制代码

通过运行结果我们发现,在调用 append 之前,容量是 2,调用之后容量是 4,说明自动扩容了。

扩容原理是新建一个底层数组,把原来切片内的元素拷贝到新的数组中,然后返回一个指向新数组的切片。

切片结构体

切片其实是一个结构体,它的定义如下:

type SliceHeader struct {
   Data uintptr
   Len  int
   Cap  int
}
复制代码
  • Data 用来指向存储切片元素的数组。
  • Len 代表切片的长度。
  • Cap 代表切片的容量。 通过这三个字段,就可以把一个数组抽象成一个切片,所以不同切片对应的底层 Data 指向的可能是同一个数组。
    示例:
func main() {
  a1 := [2]string{"微客鸟窝","无尘"}
  s1 := a1[0:1]
  s2 := a1[:]
  fmt.Println((*reflect.SliceHeader)(unsafe.Pointer(&s1)).Data)
  fmt.Println((*reflect.SliceHeader)(unsafe.Pointer(&s2)).Data)
}
复制代码

运行结果:

824634892120
824634892120
复制代码

我们发现打印出s1和s2的Data值是一样的,说明两个切片共用一个数组。所以在对切片进行操作时,使用的还是同一个数组,没有复制原来的元素,减少内存的占用,提高效率。

多个切片共用一个底层数组虽然可以减少内存占用,但是如果一个切片修改了内部元素,其他切片也会受到影响,所以切片作为参数传递的时候要小心,尽可能不要修改远切片内的元素。 切片的本质是 SliceHeader,又因为函数的参数是值传递,所以传递的是 SliceHeader 的副本,而不是底层数组的副本,这样就可以大大减少内存的使用。

获取切片数组结果的三个字段的值,除了使用 SliceHeader,也可以自定义一个结构体,只有包子字段和 SliceHeader 一样就可以了:

func main() {
  s := []string{"微客鸟窝","无尘","wucs"}
  s1 := (*any)(unsafe.Pointer(&s))
  fmt.Println(s1.Data,s1.Len,s1.Cap) //824634892104 3 3
}
type any struct {
  Data uintptr
  Len int
  Cap int
}
复制代码

高效

对于Go 语言中的集合类型:数组、切片、map,数组和切片的取值和赋值操作相比 map 要更高效,因为它们是连续的内存操作,可以通过索引就能快速地找到元素存储的地址。在函数传参中,切片相比数组要高效,因为切片作为参数,不会把所有的元素都复制一遍,只是复制 SliceHeader 的三个字段,共用的仍是同一个底层数组。

示例:

func main() {
  a := [2]string{"微客鸟窝", "无尘"}
  fmt.Printf("函数main数组指针:%p\n", &a)
  arrayData(a)
  s := a[0:1]
  fmt.Println((*reflect.SliceHeader)(unsafe.Pointer(&s)).Data)
  sliceData(s)
}
func arrayData(a [2]string) {
  fmt.Printf("函数arrayData数组指针:%p\n", &a)
}
func sliceData(s []string) {
  fmt.Println("函数sliceData数组指针:", (*reflect.SliceHeader)(unsafe.Pointer(&s)).Data)
}
复制代码

运行结果:

函数main数组指针:0xc0000503c0
函数arrayData数组指针:0xc000050400
824634049472
函数sliceData数组指针: 824634049472
复制代码

可以发现:

  • 同一个数组传到 arrayData 函数中指针发生了变化,说明数组在传参的时候被复制了,产生了一个新的数组。
  • 切片作为参数传递给 sliceData 函数,指针没有发生变化,因为 slice 切片的底层 Data 是一样的,切片共用的是一个底层数组,底层数组没有被复制。

string 和 []byte 互转

string 底层结构 StringHeader:

// StringHeader is the runtime representation of a string.
type StringHeader struct {
   Data uintptr
   Len  int
}
复制代码

StringHeader 和 SliceHeader 一样,代表的是字符串在程序运行时的真实结构,可以看到字段仅比切片少了一个Cap属性。

[]byte(s) 和 string(b) 强制转换:

func main() {
   s := "微客鸟窝"
   fmt.Printf("s的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&s)).Data)
   b := []byte(s)
   fmt.Printf("b的内存地址:%d\n", (*reflect.SliceHeader)(unsafe.Pointer(&b)).Data)
   c := string(b)
   fmt.Printf("c的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&c)).Data)
}
复制代码

运行结果:

s的内存地址:8125426
b的内存地址:824634892016
c的内存地址:824634891984
复制代码

通过上面示例发现打印出的内存地址都不一样,可以看出[]byte(s) 和 string(b) 这种强制转换会重新拷贝一份字符串。若字符串非常大,这样重新拷贝的方式会很影响性能。

优化

[]byte 转 string,就等于通过 unsafe.Pointer 把 *SliceHeader 转为 *StringHeader,也就是 *[]byte 转 *string。

零拷贝示例:

func main() {
  s := "微客鸟窝"
  fmt.Printf("s的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&s)).Data)
  b := []byte(s)
  fmt.Printf("b的内存地址:%d\n", (*reflect.SliceHeader)(unsafe.Pointer(&b)).Data)
  //c1 :=string(b)
  c2 := *(*string)(unsafe.Pointer(&b))
  fmt.Printf("c2的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&c2)).Data)
}
复制代码

运行结果:

s的内存地址:1899506
b的内存地址:824634597104
c2的内存地址:824634597104
复制代码

示例中,c1 和 c2 的内容是一样的,不一样的是 c2 没有申请新内存(零拷贝),c2 和变量b使用的是同一块内存,因为它们的底层 Data 字段值相同,这样就节约了内存,也达到了 []byte 转 string 的目的。

SliceHeader 有 Data、Len、Cap 三个字段,StringHeader 有 Data、Len 两个字段,所以 *SliceHeader 通过 unsafe.Pointer 转为 *StringHeader 的时候没有问题,但是反过来却不行了,因为 *StringHeader 缺少 *SliceHeader 所需的 Cap 字段,需要我们自己补上一个默认值:

func main() {
  s := "微客鸟窝"
  fmt.Printf("s的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&s)).Data)
  b := []byte(s)
  fmt.Printf("b的内存地址:%d\n", (*reflect.SliceHeader)(unsafe.Pointer(&b)).Data)
  sh := (*reflect.SliceHeader)(unsafe.Pointer(&s))
  sh.Cap = sh.Len
  b1 := *(*[]byte)(unsafe.Pointer(sh))
  fmt.Printf("b1的内存地址:%d\n", (*reflect.StringHeader)(unsafe.Pointer(&b1)).Data)
}
复制代码

运行结果:

s的内存地址:1309682
b的内存地址:824634892008
b1的内存地址:1309682
复制代码
  1. b1 和 b 的内容是一样的,不一样的是 b1 没有申请新内存,而是和变量 s 使用同一块内存,因为它们底层的 Data 字段相同,所以也节约了内存。
  2. 通过 unsafe.Pointer 把 string 转为 []byte 后,不能对 []byte 修改,比如不可以进行 b1[0]=10 这种操作,会报异常,导致程序崩溃。因为在 Go 语言中 string 内存是只读的。
相关文章
|
1天前
|
安全 Java Go
探索Go语言在高并发环境中的优势
在当今的技术环境中,高并发处理能力成为评估编程语言性能的关键因素之一。Go语言(Golang),作为Google开发的一种编程语言,以其独特的并发处理模型和高效的性能赢得了广泛关注。本文将深入探讨Go语言在高并发环境中的优势,尤其是其goroutine和channel机制如何简化并发编程,提升系统的响应速度和稳定性。通过具体的案例分析和性能对比,本文揭示了Go语言在实际应用中的高效性,并为开发者在选择合适技术栈时提供参考。
|
5天前
|
人工智能 Go
go slice 扩容实现
go slice 扩容实现
14 3
|
5天前
|
运维 Kubernetes Go
"解锁K8s二开新姿势!client-go:你不可不知的Go语言神器,让Kubernetes集群管理如虎添翼,秒变运维大神!"
【8月更文挑战第14天】随着云原生技术的发展,Kubernetes (K8s) 成为容器编排的首选。client-go作为K8s的官方Go语言客户端库,通过封装RESTful API,使开发者能便捷地管理集群资源,如Pods和服务。本文介绍client-go基本概念、使用方法及自定义操作。涵盖ClientSet、DynamicClient等客户端实现,以及lister、informer等组件,通过示例展示如何列出集群中的所有Pods。client-go的强大功能助力高效开发和运维。
22 1
|
5天前
|
人工智能 编译器 Go
go slice 基本用法
go slice 基本用法
14 1
|
5天前
|
SQL 关系型数据库 MySQL
Go语言中使用 sqlx 来操作 MySQL
Go语言因其高效的性能和简洁的语法而受到开发者们的欢迎。在开发过程中,数据库操作不可或缺。虽然Go的标准库提供了`database/sql`包支持数据库操作,但使用起来稍显复杂。为此,`sqlx`应运而生,作为`database/sql`的扩展库,它简化了许多常见的数据库任务。本文介绍如何使用`sqlx`包操作MySQL数据库,包括安装所需的包、连接数据库、创建表、插入/查询/更新/删除数据等操作,并展示了如何利用命名参数来进一步简化代码。通过`sqlx`,开发者可以更加高效且简洁地完成数据库交互任务。
13 1
|
5天前
|
算法 NoSQL 中间件
go语言后端开发学习(六) ——基于雪花算法生成用户ID
本文介绍了分布式ID生成中的Snowflake(雪花)算法。为解决用户ID安全性与唯一性问题,Snowflake算法生成的ID具备全局唯一性、递增性、高可用性和高性能性等特点。64位ID由符号位(固定为0)、41位时间戳、10位标识位(含数据中心与机器ID)及12位序列号组成。面对ID重复风险,可通过预分配、动态或统一分配标识位解决。Go语言实现示例展示了如何使用第三方包`sonyflake`生成ID,确保不同节点产生的ID始终唯一。
go语言后端开发学习(六) ——基于雪花算法生成用户ID
|
6天前
|
JSON 缓存 监控
go语言后端开发学习(五)——如何在项目中使用Viper来配置环境
Viper 是一个强大的 Go 语言配置管理库,适用于各类应用,包括 Twelve-Factor Apps。相比仅支持 `.ini` 格式的 `go-ini`,Viper 支持更多配置格式如 JSON、TOML、YAML
go语言后端开发学习(五)——如何在项目中使用Viper来配置环境
|
3天前
|
NoSQL Go Redis
Go语言中如何扫描Redis中大量的key
在Redis中,遍历大量键时直接使用`KEYS`命令会导致性能瓶颈,因为它会一次性返回所有匹配的键,可能阻塞Redis并影响服务稳定性。为解决此问题,Redis提供了`SCAN`命令来分批迭代键,避免一次性加载过多数据。本文通过两个Go语言示例演示如何使用`SCAN`命令:第一个示例展示了基本的手动迭代方式;第二个示例则利用`Iterator`简化迭代过程。这两种方法均有效地避免了`KEYS`命令的性能问题,并提高了遍历Redis键的效率。
10 0
|
4天前
|
监控 Serverless Go
Golang 开发函数计算问题之Go 语言中切片扩容时需要拷贝原数组中的数据如何解决
Golang 开发函数计算问题之Go 语言中切片扩容时需要拷贝原数组中的数据如何解决
|
4天前
|
关系型数据库 MySQL 数据库连接
Go语言中使用sqlx来操作事务
在应用中,数据库事务保证操作的ACID特性至关重要。`github.com/jmoiron/sqlx`简化了数据库操作。首先安装SQLX和MySQL驱动:`go get github.com/jmoiron/sqlx`和`go get github.com/go-sql-driver/mysql`。导入所需的包后,创建数据库连接并使用`Beginx()`方法开始事务。通过`tx.Commit()`提交或`tx.Rollback()`回滚事务以确保数据一致性和完整性。
8 0