【Linux】多线程——线程概念|进程VS线程|线程控制(上)

简介: 【Linux】多线程——线程概念|进程VS线程|线程控制(上)

> 作者:დ旧言~

> 座右铭:松树千年终是朽,槿花一日自为荣。

> 目标:理解【Linux】多线程——线程概念|进程VS线程|线程控制

> 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安!

> 专栏选自:Linux初阶

> 望小伙伴们点赞👍收藏✨加关注哟💕💕



🌟前言

早期我们的计算机还只能单个进程运行,这样的话每个进程就只能独立存在,不可以进行每个进程交互,在这个基础上我们的先人(大佬)看看能不能多个进程同时运行,也就有了现在的多进程,那对比单个进程,多进程有什么优势呢?值不值得我们学习呢?咱们带上这两个问题来康康Linux下的多线程。


⭐主体

学习【Linux】多线程——线程概念|进程VS线程|线程控制咱们按照下面的图解:



🌙 地址空间和页表

地址空间是进程能看到的资源窗口:一个进程能看到代码区、共享区、内核区、堆栈区,大部分的资源都是在地址空间上看到的。


页表决定进程真正拥有资源的情况:当前进程认为自己有了4GB,可是实际上用了多少由页表决定最终能用多少物理资源。


合理的对地址空间与页表进行资源划分,我们就可以对一个进程所有的资源进行分类:通过地址空间分为栈区、堆区…通过页表映射到不同的物理内存。


💫 页表的映射

在32位平台下一共有2³²个地址,也就意味着有2³²个地址需要被映射:


地址空间一共有2³²个地址,每个地址单位都是1字节,而页表也得有2³²个条目,每个地址都得经过页表映射,都是页表的每个条目(包括物理地址,包括是否命中,包括RWX权限,包括U/K权限,一个条目,假设为6个字节,样例数据),所以,光保存页表所需空间为24GB(4GB约为40亿字节)。



每一个表项中除了要有虚拟地址和与其映射的物理地址以外,实际还需要有一些权限相关的信息,如用户级页表和内核级页表,实际就是通过权限进行区分的:



每个应表项中存储一个物理地址和一个虚拟地址就需要8个字节,考虑到还需要包含权限相关的各种信息,这里每一个表项就按10个字节计算:


  • 这里一共有2³²个表项,也就意味着存储这张页表需要用2³² * 10个字节,也就是40GB
  • 而在32位平台下我们的内存可能一共就只有4GB,也就是说我们根本无法存储这样的一张页表

💫 二级页表

  • 虚拟地址在被转化的过程中,不是直接转化的!而是拆分成了10 + 10 + 12
  • 以32位平台为例,其页表的映射过程如下:
  1. 选择虚拟地址的前10个比特位在页目录当中进行查找,找到对应的页表。
  2. 再选择虚拟地址的10个比特位在对应的页表当中进行查找,找到物理内存中对应页框的起始地址。
  3. 最后将虚拟地址中剩下的12个比特位作为偏移量从对应页框的起始地址处向后进行偏移,找到物理内存中某一个对应的字节数据。


  • 相关说明:
  1. 物理内存实际是被划分成一个个4KB大小的页框的,而磁盘上的程序也是被划分成一个个4KB大小的页帧的,当内存和磁盘进行数据交换时也是以4KB大小为单位进行加载和保存的。
  2. 4KB = 2¹²个字节,一个页框中有2¹²个字节,而访问内存的基本大小是1字节,因此一个页框中就有2¹²个地址,于是就可以将剩下的12个比特位作为偏移量,从页框的起始地址处开始向后进行偏移,从而找到物理内存中某一个对应字节数据。  


  • 这实际上就是所谓的二级页表,其中页目录项是一级页表,页表项是二级页表
  1. 每一个表项还是按10字节计算,页目录和页表的表项都是2¹º个,因此一个表的大小就是2¹º也就是10个字节,也就是10KB
  2. 页目录有2¹º个表项也就意味着页表有2¹º个,也就是说一级页表有1张,二级页表有2¹º张,总共算下来大概就是10MB,内存消耗并不高,因此Linux中实际就是这样映射的。  


  • **注意:**Linux中,32位平台用的是二级页表,64位平台用的是多级页表


🌙 进程基础概念

💫 线程是什么

概念:

在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一个进程内部的控制序列 ”一切进程至少都有一个执行线程;线程在进程内部运行,本质是在进程地址空间内运行在Linux系统中,在CPU眼中,看到的PCB都要比传统的进程更加轻量化透过进程虚拟地址空间,可以看到进程的大部分资源,将进程资源合理分配给每个执行流,就形成了线程执行流不同平台的多线程底层实现策略不一样,我们讨论Linux平台。


进程对应的模型:进程的创建实际上伴随着其进程控制块(task_struct)、进程地址空间(mm_struct)以及页表的创建,虚拟地址和物理地址就是通过页表建立映射的:



进程=内核数据结构+代码和数据,每个进程都有自己独立的进程地址空间和独立的页表,也就意味着所有进程在运行时本身就具有独立性,我们在创建“进程”时,只创建PCB,并要求创建出来的PCB不在独立创建,与父进程同享PCB,那么创建的结果就是下面这样的



因为我们可以通过虚拟地址空间+页表的方式对进程进行资源划分,单个“进程”执行力度一定要比之前的进程要细。上图中每个线程都是当前进程里的一个执行流,线程在进程内部运行,线程在进程的地址空间内运行,拥有该进程的一部分资源。


💫 如何理解线程

  • 每个进程都有自己独立的进程地址空间和独立的页表,也就意味着所有进程在运行时本身就具有独立性。
  1. 在创建进程时,它要创建PCB,页表,建立代码和数据的映射关系…
  2. 所以创建一个进程的成本非常高。


  • 如果创建"进程"时,只创建task_struct,并要求创建出来的task_struct和父task_struct共享进程地址空间和页表。
  1. 现在创建的进程不再给你独立分配地址空间和页表,而是都指向同一块地址空间,共享同一块页表。
  2. 所以这四个task_struct看到的资源都是一样的,后续可以通过某种方式把代码区拆分成4块,让这四个task_struct执行不同的代码区域。
  3. 上述的区域(数据区,堆区,栈区)也是类似处理方式。
  4. 换言之,后续创建的3个task_struct都各自有自己的一小份代码和数据,把这样的一份task_struct称之为线程。
  5. 其中每一个线程都是当前进程里面的一个执行流,也就是常说的"线程是进程内部的一个执行分支"。



  • 线程在进程内部运行,本质就是线程在进程地址空间内运行,也就是说曾经这个进程申请的所有资源,几乎都是被所有线程共享的。
  1. 线程比进程更细,是因为其执行的代码和数据更小了。
  2. 线程的调度成本更低了,是因为它将来在调度的时候,核心数据结构(地址空间和页表)均不用切换了。
  • 上述线程仅仅是在Linux下的实现,不同平台对线程管理可能不一样。
  1. 如Windows有真正的有关多线程的数据结构。
  2. 而Linux并没有真正的对线程创建对应的数据结构。
  3. Linux的线程是用进程PCB模拟的。
  4. 所以Linux并不能直接提供线程相关的接口,只能提供轻量级进程的接口。

             💦在用户层实现了一套用户层多线程方案,以库的方式提供给用户进行使用。

             💦pthread线程库。

  • CPU视角下,Linux下,PCB <= 其他OS内的PCB。
  1. Linux下的进程,统一称之为:轻量级进程。


💫 线程优点

  • 创建一个新线程的代价要比创建一个新进程小得多。
  • 与进程之间的切换相比,线程之间的切换需要操作系统做的工作要少很多。
  • 线程占用的资源要比进程少很多。
  • 能充分利用多处理器的可并行数量。
  • 在等待慢速I/O操作结束的同时,程序可执行其他的计算任务。
  • 计算密集型应用,为了能在多处理器系统上运行,将计算分解到多个线程中实现。
  • I/O密集型应用,为了提高性能,将I/O操作重叠。线程可以同时等待不同的I/O操作。


💫 线程缺点

  • 性能损失:
  1. 一个很少被外部事件阻塞的计算密集型线程往往无法与其他线程共享同一个处理器。
  2. 如果计算密集型线程的数量比可用的处理器多,那么可能会有较大的性能损失。
  3. 这里的性能损失指的是增加了额外的同步和调度开销,而可用的资源不变。


  • 健壮性降低:编写多线程需要更全面更深入的考虑,在一个多线程程序里,因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的,换句话说线程之间是缺乏保护的。
  • 缺乏访问控制:进程是访问控制的基本粒度,在一个线程中调用某些OS函数会对整个进程造成影响。
  • 编程难度提高:编写与调试一个多线程程序比单线程程序困难得多。


💫 线程异常

  • 线程一旦异常,会导致整个进程整体退出:
  1. 单个线程如果出现除零,野指针问题导致线程崩溃,进程也会随着崩溃。
  2. 线程是进程的执行分支,线程出异常,就类似进程出异常,进而触发信号机制,终止进程,进程终止,该进程内的所有线程也就随即退出。


💫 线程用途

  • 合理的使用多线程,能提高CPU密集型程序的执行效率
  • 合理的使用多线程,能提高IO密集型程序的用户体验
  • 如:一边写代码一边下载开发工具,就是多线程运行的一种表现




【Linux】多线程——线程概念|进程VS线程|线程控制(下)     https://developer.aliyun.com/article/1565757

目录
相关文章
|
1月前
|
调度 开发者 Python
深入浅出操作系统:进程与线程的奥秘
在数字世界的底层,操作系统扮演着不可或缺的角色。它如同一位高效的管家,协调和控制着计算机硬件与软件资源。本文将拨开迷雾,深入探索操作系统中两个核心概念——进程与线程。我们将从它们的诞生谈起,逐步剖析它们的本质、区别以及如何影响我们日常使用的应用程序性能。通过简单的比喻,我们将理解这些看似抽象的概念,并学会如何在编程实践中高效利用进程与线程。准备好跟随我一起,揭开操作系统的神秘面纱,让我们的代码运行得更加流畅吧!
|
7天前
|
消息中间件 调度
如何区分进程、线程和协程?看这篇就够了!
本课程主要探讨操作系统中的进程、线程和协程的区别。进程是资源分配的基本单位,具有独立性和隔离性;线程是CPU调度的基本单位,轻量且共享资源,适合并发执行;协程更轻量,由程序自身调度,适合I/O密集型任务。通过学习这些概念,可以更好地理解和应用它们,以实现最优的性能和资源利用。
40 11
|
6天前
|
Java Linux 调度
硬核揭秘:线程与进程的底层原理,面试高分必备!
嘿,大家好!我是小米,29岁的技术爱好者。今天来聊聊线程和进程的区别。进程是操作系统中运行的程序实例,有独立内存空间;线程是进程内的最小执行单元,共享内存。创建进程开销大但更安全,线程轻量高效但易引发数据竞争。面试时可强调:进程是资源分配单位,线程是CPU调度单位。根据不同场景选择合适的并发模型,如高并发用线程池。希望这篇文章能帮你更好地理解并回答面试中的相关问题,祝你早日拿下心仪的offer!
25 6
|
28天前
|
NoSQL Redis
单线程传奇Redis,为何引入多线程?
Redis 4.0 引入多线程支持,主要用于后台对象删除、处理阻塞命令和网络 I/O 等操作,以提高并发性和性能。尽管如此,Redis 仍保留单线程执行模型处理客户端请求,确保高效性和简单性。多线程仅用于优化后台任务,如异步删除过期对象和分担读写操作,从而提升整体性能。
62 1
|
1月前
|
消息中间件 Unix Linux
【C语言】进程和线程详解
在现代操作系统中,进程和线程是实现并发执行的两种主要方式。理解它们的区别和各自的应用场景对于编写高效的并发程序至关重要。
68 6
|
1月前
|
算法 调度 开发者
深入理解操作系统:进程与线程的管理
在数字世界的复杂编织中,操作系统如同一位精明的指挥家,协调着每一个音符的奏响。本篇文章将带领读者穿越操作系统的幕后,探索进程与线程管理的奥秘。从进程的诞生到线程的舞蹈,我们将一起见证这场微观世界的华丽变奏。通过深入浅出的解释和生动的比喻,本文旨在揭示操作系统如何高效地处理多任务,确保系统的稳定性和效率。让我们一起跟随代码的步伐,走进操作系统的内心世界。
|
1月前
|
调度 开发者
核心概念解析:进程与线程的对比分析
在操作系统和计算机编程领域,进程和线程是两个基本而核心的概念。它们是程序执行和资源管理的基础,但它们之间存在显著的差异。本文将深入探讨进程与线程的区别,并分析它们在现代软件开发中的应用和重要性。
66 4
|
存储 IDE Unix
用了这么久 Linux ,才知道这些概念。。。
我们大家应该知道,Linux 和 UNIX 中的文件系统是一个以 / 为根的树状式文件结构,/ 是 Linux 和 UNIX 中的根目录,同样它也是文件系统的起点。所有的文件和目录都位于 / 路径下,包括我们经常听到的 /usr、/etc、/bin、/home 等。在早期的 UNIX 系统中,各个厂家都定义了自己文件系统的命名构成,比较混乱,而且难以区分。
用了这么久 Linux ,才知道这些概念。。。
|
2月前
|
Linux 网络安全 数据安全/隐私保护
Linux 超级强大的十六进制 dump 工具:XXD 命令,我教你应该如何使用!
在 Linux 系统中,xxd 命令是一个强大的十六进制 dump 工具,可以将文件或数据以十六进制和 ASCII 字符形式显示,帮助用户深入了解和分析数据。本文详细介绍了 xxd 命令的基本用法、高级功能及实际应用案例,包括查看文件内容、指定输出格式、写入文件、数据比较、数据提取、数据转换和数据加密解密等。通过掌握这些技巧,用户可以更高效地处理各种数据问题。
223 8
|
2月前
|
监控 Linux
如何检查 Linux 内存使用量是否耗尽?这 5 个命令堪称绝了!
本文介绍了在Linux系统中检查内存使用情况的5个常用命令:`free`、`top`、`vmstat`、`pidstat` 和 `/proc/meminfo` 文件,帮助用户准确监控内存状态,确保系统稳定运行。
891 6