RUST 学习日记 第14课 ——字符串(下)

简介: RUST 学习日记 第14课 ——字符串(下)

0x00 回顾与开篇


最近工作比较忙,更新频率慢了下来,希望大家谅解下。上节课初步了解了Rust的字符串,在Rust中有两种字符串类型,一种是可变长度字符串,也叫字符串切片,另一种则是不可变长度的字符串。也熟悉了简单使用它们的方法。这节课继续讲解字符串,深入到内存剖析Rust字符串。


0x01 可变长度字符串String和向量Vector


联系和区别


上节提到过,可变长度字符串String其实是一个结构体,里面封装了Vec<T>,那么它跟向量又存在什么样的联系和区别呢?具体看下面的表格。


image.png

String的构成


String*类型的分别由三部分构成,分别与其三个方法相对应:

1、as_ptr():指向堆中字节虚了的指针

2、len():堆中字节序列的字节长度

3、capacity():在堆上分配的容量


示例代码如下:

let mut hello = String::with_capacity(15);
    hello.push('h');
    hello.push('e');
    hello.push('l');
    hello.push('l');
    hello.push('o');
    println!("hello 字符串的内容 -> {}", hello);
    println!("hello 堆上的指针 -> {:p}", hello.as_ptr());
    println!("hello 的容量 -> {}", hello.capacity());
    println!("hello 的字节长度 -> {}", hello.len());
    println!("hello 栈上的指针 -> {:p}", &hello);

代码运行结果:

hello 字符串的内容 -> hello
hello 堆上的指针 -> 0x1f20a76cd00
hello 的容量 -> 15
hello 的字节长度 -> 5
hello 栈上的指针 -> 0x76a26ff7c0

上面代码首先初始化了一个容量15的字符串hello。然后使用push方法,向其中添加了5个char类型的字符。


然后输出字符串的内容,指针,容量,字节长度。注意最后的&hellohello.as_ptr()两个地址是不一样的。&hello获取的是字符串变量在栈上的指针地址,而hello.as_ptr()获取的是hello字符串在堆中字节序列的指针地址。具体内存模型,下面会讲到。 


0x02 字符串在内存的表示


为什么Rust要设计两种字符串?它们有什么区别?前面讲了那么多,也都是概念,真正要搞明白它们之间的关系,还要深入到内存里面去剖析。下面就一起来剖析String&strstr,字面量的关系。

以下面这几个变量为例:

let hello_string = String::from("hello");
let hello_str = &hello_string[1..];
let hello_literal = "world";

0a2653c851af460fa595bd959398a8f1.png


hello_string是一个可变长度的字符串,它在内存中的结果与向量类似,真正的字符串则存放在堆上。在堆上给String分配一个可伸缩缓冲区,因此可以按需来调整其大小。


hello_str是一个字符串切片,是对其它变量拥有的一段UTF-8文本的引用。它只是“借用”了这些文本而已。&str其实也是一个胖指针(Fat Pointer),包含实际数据的地址和其长度。可以把&str想象成一个&[u8],只不过他能存储格式完好的UTF-8。


hello_literal是一个字符串字面量,它通常跟程序的机器码存储在预分配的只读内存区,当程序执行的时候创建,程序退出时会自动释放。


扩展:什么是胖指针(Fat Pointer)?


定义:胖指针(Fat Pointer)是一个双字宽的值,它除了指向对象的地之外,还会额外存储长度信息。


通俗点说,普通指针通常是占内存8个字节,而胖指针则是占内存16个字节,因为它比较宽,所以叫胖指针。如切片(Slice)类型,它保存着指向堆上的地址和长度。


如何理解str类型?


在Rust中是没有GC的,程序的内存由编译器去分配,代码最终编译为LLVM IR,其携带了内存分配的信息。因此,要更合理的分配内存,编译器必须预先知道类型的大小。


然而str则是无固定大小的字符串,它仅仅是个类型而已,无法确定其大小,在运行时之前没有人知道它的大小。而在Rust中,大部分的类型都是可以在编译期确定大小的类型(Sized Type),如:i32占4个字节,i64占8个字节,在程序编译期就可以确定它的大小。当然也存在动态大小的类型(Dynamic Sized Type),经常简称为DST,如:str,由于它无法在编译期确定大小,因此就不能声明。对于这种情况,在Rust则提供了引用类型,字符串切片的引用类型&str。因为它是胖指针,可以在编译期确定大小哦。


0x03 小结


str字符串序列存储于程序的堆内存中或者静态只读区。而&strString都存储在栈上,指针指向strstr在Rust中仅仅作为一个类型存在。那么在一个程序中到底是使用&str还是String呢?由于所有权的知识还没介绍过,所以这里先不讨论这个问题。现在只需知道&str可以引用任何字符串的任意切片即可。在这节课里涉及了很多关于内存的知识,后面我也会抽时间讲下有关内存的一些概念。下节课主要讲解下字符串的简单常用方法。 


相关文章
|
4天前
|
Rust 算法 安全
学习Rust
【10月更文挑战第13天】学习Rust
28 8
|
5天前
|
Rust 安全 算法
Rust的学习
【10月更文挑战第12天】Rust的学习
13 2
|
5天前
|
Rust 算法 安全
如何学习Rust编程?
【10月更文挑战第12天】如何学习Rust编程?
17 1
|
17天前
|
Rust API
【Rust学习】09_方法语法
结构体让你可以创建出在你的领域中有意义的自定义类型。通过结构体,我们可以将相关联的数据片段联系起来并命名它们,这样可以使得代码更加清晰。在 impl 块中,你可以定义与你的类型相关联的函数,而方法是一种相关联的函数,允许您指定结构体的实例具有的行为。 但是结构体并不是创建自定义类型的唯一方式:让我们转向 Rust 的 enum 功能,将另一个工具添加到你的工具箱中。
10 0
|
1月前
|
Rust 索引
【Rust学习】08_使用结构体代码示例
为了了解我们何时可能想要使用结构体,让我们编写一个计算长方形面积的程序。我们将从使用单个变量开始,然后重构程序,直到我们改用结构体。
72 2
|
1月前
|
存储 Rust 编译器
【Rust学习】07_结构体说明
**struct**或 ***structure***是一种自定义数据类型,允许您命名和包装多个相关的值,从而形成一个有意义的组合。如果您熟悉面向对象的语言,那么**struct**就像对象中的数据属性。在本章中,我们将比较和对比元组与结构体,在您已经知道的基础上,来演示结构体是对数据进行分组的更好方法。
21 1
|
1月前
|
Rust Linux Go
Rust/Go语言学习
Rust/Go语言学习
|
1月前
|
存储 Rust 安全
30天拿下Rust之字符串
在Rust中,字符串是一种非常重要的数据类型,用于处理文本数据。Rust的字符串是以UTF-8编码的字节序列,主要有两种类型:&str和String。其中,&str是一个对字符数据的不可变引用,更像是对现有字符串数据的“视图”,而String则是一个独立、可变更的字符串实体。
40 0
|
2月前
|
存储 Rust 安全
【Rust学习】06_切片
所有权、借用和切片的概念确保了 Rust 程序在编译时的内存安全。Rust 语言提供了跟其他系统编程语言相同的方式来控制你使用的内存,但拥有数据所有者在离开作用域后自动清除其数据的功能意味着你无须额外编写和调试相关的控制代码。
21 1
|
3月前
|
存储 Rust 安全
【Rust学习】04_所有权
所有权是 Rust 最独特的特性,对语言的其余部分有着深远的影响。它使 Rust 能够在不需要垃圾收集器的情况下保证内存安全,因此了解所有权的运作方式非常重要。在本章中,我们将讨论所有权以及几个相关功能:借用、切片以及 Rust 如何在内存中布局数据。
21 1