00. 目录


文章目录


01. Linux可执行程序结构

在 Linux 下,程序是一个普通的可执行文件,以下列出一个二进制可执行文件的基本情况:

【Linux系统编程】进程内存模型_进程模型

可以看出,此可执行文件在存储时(没有调入到内存前)分为代码区(text)、数据区(data)和未初始化数据区(bss)3 个部分。各段基本内容说明如下:

代码区

存放 CPU 执行的机器指令。通常代码区是可共享的(即另外的执行程序可以调用它),使其可共享的目的是​对于频繁被执行的程序,只需要在内存中有一份代码即可​。代码区通常是只读的,使其只读的原因是防止程序意外地修改了它的指令。另外,代码区还规划了局部变量的相关信息。

代码区的指令包括操作码和操作对象(或对象地址引用)。如果是立即数(即是具体的数值),将直接包含在代码中,如果是局部数据,将在运行时在栈区分配空间,然后再引用该数据的地址,如果是未初始化数据区和数据区,在代码中同样将引用该数据的地址。

全局初始化数据区/静态数据区(数据段)

该区包含了在程序中明确被初始化的全局变量、已经初始化的静态变量(包括全局静态变量和局部静态变量)和常量数据(如字符串常量)。

例如,一个不在任何函数内声明(全局变量),如下:

int count = 100;
使得变量 count 根据其初始值被存储初始化数据区中。

在任意位置定义静态变量方式如下:

static int count = 200;
这声明了一个静态数据并初始化,如果在任意函数体外声明,则表示其为一个静态全局变量,如果在函数体内
(局部),则表示其为一个局部静态变量。另外,如果在一个函数名前加上 static,则表示此函数只能再当
前文件中被调用。

未初始化数据区

存入的是全局未初始化变量和未初始化静态变量。未初始化数据区的数据在程序开始执行之前被内核初始化为 0 或者空(NULL)。

例如,一个不在任何函数内声明的未初始化变量。

long num[1000];
将 num 存储到未初始化数据区。

02. Linux进程结构

在 Linux 系统下,如果将某个可执行文件加载到内存运行,则将演变成一个或多个进程(多个进程的原因是进程在运行时可以再创建新的进程,但加载时只有一个进程)。**进程是 Linux 事务管理的基本单元,所有的进程均拥有自己独立的处理环境和系统资源。**进程的环境由当前系统状态及其父进程信息决定和组成的。

下图为可执行文件存储结构和 Linux 进程基本结构(部分)的对照图。

【Linux系统编程】进程内存模型_代码段_02

一个进程是一个运行着的程序段,一个进程主要包括在内存中申请的空间,代码(加载的程序,包括代码段,数据段,BSS),堆,栈,以及内核提供的内核进程信息结构体

task_struct (位置在 /usr/include/linux/sched.h)、打开的文件、上下文(指进程执行活动全过程的静态描述)信息以及挂起的信号等。

(1)​代码区​(text segment)。加载的是可执行文件代码段,其加载到内存中的位置由加载器完成。

(2)​全局初始化数据区/静态数据区(Data Segment)​。加载的是可执行文件数据段,存储于数据段(全局初始化,静态初始化数据)的数据的生存周期为整个程序运行过程。

(3)​未初始化数据区(BSS)​。加载的是可执行文件BSS段,位置可以分开亦可以紧靠数据段,存储于数据段的数据(全局未初始化,静态未初始化数据)的生存周期为整个程序运行过程。

(4)​栈区(stack)​。由编译器自动分配释放,存放函数的参数值、返回值、局部变量等。在程序运行过程中实时加载和释放,因此,局部变量的生存周期为申请到释放该段栈空间。

(5)​堆区(heap)​。用于动态内存分配。堆在内存中位于BSS区和栈区之间。一般由程序员分配和释放,若程序员不释放,程序结束时有可能由OS回收。

系统之所以分成这么多个区域,主要基于以下考虑​:


  • 代码段和数据段分开,运行时便于分开加载,在哈佛体系结构的处理器将取得更好得流水线效率。
  • 代码时依次执行的,是由处理器 PC 指针依次读入,而且代码可以被多个程序共享,数据在整个运行过程中有可能多次被调用,如果将代码和数据混合在一起将造成空间的浪费。
  • 临时数据以及需要再次使用的代码在运行时放入栈中,生命周期短,便于提高资源利用率。
  • 堆区可以由程序员分配和释放,以便用户自由分配,提高程序的灵活性。

03. 存储类型总结

【Linux系统编程】进程内存模型_数据段_03

04. 附录

4.1 参考博客:​​【Linux系统编程】Linux 可执行文件结构与进程结构​

4.2 参考:百度百科