LINUX系统编程 LINUX 虚拟内存-阿里云开发者社区

LINUX系统编程 LINUX 虚拟内存

2016-11-25 1298

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： LINUX 虚拟内存以32位操作系统为例子，因为64位系统虚拟地址过大为2^64,32位仅仅为2^32=4G更利于描述，但是原理东西都一样这首先要从程序和进程之间的关系开始，我们一般写好一段C\C++代码编译后仅仅为可执行文件假设为a.out，我们运行a.out的时候，这个才叫进程，进程是OS级别抽象的实体(PCB task_struct结构体),为程序运行进行各种检查和系统资源分配，一个PCB包含部分信息如下： (摘至刑文鹏LINUX系统编程讲义) * 进程id。

LINUX 虚拟内存
以32位操作系统为例子，因为64位系统虚拟地址过大为2^64,32位仅仅为2^32=4G更利于描述，但是原理东西都一样

这首先要从程序和进程之间的关系开始，我们一般写好一段C\C++代码编译后仅仅为可执行文件假设为a.out，我们
运行a.out的时候，这个才叫进程，进程是OS级别抽象的实体(PCB task_struct结构体),为程序运行进行各种检查和
系统资源分配，一个PCB包含部分信息如下：
(摘至刑文鹏LINUX系统编程讲义)
* 进程id。系统中每个进程有唯一的id，在C语言中用pid_t类型表示，其实就是一个非
负整数。
* 进程的状态，有运行、挂起、停止、僵尸等状态。
* 进程切换时需要保存和恢复的一些CPU寄存器。
* 描述虚拟地址空间的信息。
* 描述控制终端的信息。
* 当前工作目录（Current Working Directory）。
* umask掩码。
* 文件描述符表，包含很多指向file结构体的指针。
* 和信号相关的信息。
* 用户id和组id。
* 控制终端、Session和进程组。
* 进程可以使用的资源上限（Resource Limit）

每个进程分配的内存包含很多称之为段的部分组成并且放到0-3G用户态虚拟地址空间中，3-4G为kernel太虚拟地址(注意我们以32位为列)，
PCB就存放在我们的kernel态中。
下面描述0-3G用户态虚拟内存段
由下向上分别是
1、代码段，是程序运行的机器代码，一个程序代码可以多个程序
同时运行，那么这个代码段可以同时存在于不同进程的不同
虚拟内存地址中，等会用图说明
2、初始化数据段，这个就是C\C++已经初始化的全局变量和静态变量
我们知道静态变量是存在于程序结束，而全局变量(非静态)的作用
域也是全部代码块，那么这些变量需要放到一个非栈空间中
(关于静态变量可以查看如下链接
http://blog.itpub.net/7728585/viewspace-2119670/
)
3、未初始化数据段，为初始化的全局变量和静态变量，未初始化本
段的内容初始化为0
4 、堆(heap)段，是在运行的时候动态进程分配的内存区域，比如malloc
下面以一段简单代码说明，目的仅仅在于说明上面说的：
(未分配虚拟内存地址)
5、栈(stack)段，我们知道栈是一个后进先出的数据结构，用于存储局部
变量，实参和返回值。它由栈帧组成(stack frames), 每次新的函数调用
都会分配一个新的栈帧比如下面的getv rev都在main函数栈帧里面。
而没有使用到局部变量t 则在add函数栈帧里面
6、argc,environ 数组信息，固定大小

点击(此处)折叠或打开

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
typedef unsigned int uint;
static uint step=1024;//全局初始化静态变量,初始化数据段
uint iniv=1; //全局初始化非静态变量，可以使用extern访问，初始化数据段
static uint zero;//全局未初始化静态变量，未初始化数据段
uint add(uint inv) //值传递栈 for add funcation stack frame
{
int t; // 栈 for add funcation stack frames
return inv*step+zero; //栈 for add funcation stack frames
}
int main(void)
{
uint getv = 10; //栈 for main funcation stack frame
uint rev; //栈 for main funcation stack frames
char* p; //栈 for main funcation stack frames
rev = add(getv);
p = calloc(6,1); //堆
strcpy(p,"test:");
printf("%s%u\n",p,rev);
return 0;
}

本来很多图像自己画，但是发现比较麻烦，并且效果可能并不如原图好，所以直接
摘录.
关于进程各段组织如下(摘自UNIX/LINUX系统编程手册)

关于进程用户态和内核态的关系如下(摘自刑文鹏LINUX系统编程讲义)

为了方便管理LINUX将内存分为叫做页帧的单元(我们熟悉的4K)，然后内核中就需要保存一份进程虚拟地址到实际地址的映射表，如果访问的数据不再物理内存
中就发生page fault，将磁盘中的数据复制到物理内存，建立虚拟地址到物理内存的映射关系，一个进程访问数据是通过虚拟地址进行访问，然后通过映射表对应
到实际的物理内存。
由于64位系统需要管理的内存页非常巨大在LINUX中使用三级或者四级(内核2.6.11以上使用四级)映射表，关于映射表实际实现这里没有过多讨论，因为这个属于
LINUX内核原理的东西，我也没有能力研究。
(实际是虚拟地址--》线性地址--》物理地址，但是LINUX中虚拟地址和线性地址是相同的。)

映射表直观图(摘自UNIX/LINUX系统编程手册)

四级映射表(摘自pdf内存寻址)

最后我们需要牢牢的记住的就是每个进程都有0-4G的虚拟地址空间可供分配，当然没有分配就是未使用的，进程访问的是内存虚拟地址，虚拟地址空间的数据可能并不
在实际内存中，当进程访问到虚拟地址的数据并不在内存中，那么发生page fault，将磁盘中的数据复制到物理内存，建立虚拟地址到物理内存的映射关系，如果在实际内存不足的情况下启用swap做为物理内存的补充，将部分曾经使用过的数据而当前没有使用的数据拷贝到SWAP中。而数据的过期处理一般为用户程序自己控制比如LRU链表。
(这也是为什么某些数据库比如ORACLE MYSQL，在一台64G的内存的机器上同时跑2个实例都分配64G左右内存能够起来，但是过一段时间可能报内存不足的原因)

某些观点为作者自己观点如果有误请指出
参考资料：
1、UNIX/LINUX系统编程手册
2、LINUX操作系统原理与应用
3、刑文鹏LINUX系统编程讲义
4、pdf内存寻址

LINUX系统编程 LINUX 虚拟内存

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

LINUX系统编程 LINUX 虚拟内存

热门文章

最新文章

相关课程

相关电子书

推荐镜像