1、fork()作用

我们已知fork()可以用于进程的创建

那首先我们来了解一下fork函数原型和基本的两种用法才真正的了解我们何时才会用到fork来进行进程的创建

1.1、fork()函数原型

fork()函数 需要引入头文件#include<unistd.h>,fork函数原型为:

pid_t fork(void)

参数含义:无参传入,返回pid_t类型的数值。pid_t 的实质是int类型的。


1.2、用法一

  • 一个父进程希望复制自己,使父、子进程同时执行不同的代码段。
  • 这在网络服务进程中是最常见的一种处理,父进程等待客户端的服务请求,当达到请求到达时,父进程调用fork,使子进程处理此请求。父进程则等待下一个服务请求到达。


1.3、用法二

  • 一个进程要执行一个不同的程序
  • 这个用法对shell是常见的情况。在这种情况下,子进程从fork返回后立即调用exec。此概念我会在后续的博文中持续更新。


【注意】

  • 在某些操作系统中会把fork和exec这两个操作组合成一个,并称其为spawn。
  • 但是在UNIX系统中是将两个操作分开的,因为在很多场合需要单独使用fork,后面不跟随exec操作,使得子进程在这两个操作之间可以更改自己的属性,例如I/O重定向,用户ID、信号安排等等。


2、fork()特性

2.1父子进程之间的关系

  • 当我们执行fork函数时用fork()函数生成一个进程,调用fork函数的进程为父进程,新生成的进程为子进程,可以理解为复制一份一样的代码;
  • 创建后父子进程是两个独立的进程,各自拥有一份代码。fork()方法调用之后,父,子进程都从fork()调用之后的代码开始运行。

【Linux】进程创建--fork()_父子进程

实例:父子进程之间的关系验证

int main()
{
	pid_t n = fork();
	assert(-1 != n);

	if(0 == n)
	{
		printf("Hello: mypid = %d,  myppid = %d\n", getpid(), getppid());
	}
	else
	{
		sleep(1);  // 保证新进程先执行完
		printf("World: n = %d, mypid = %d\n", n, getpid());
	}

	
	exit(0);
}

运行结果:

【Linux】进程创建--fork()_子进程_02


2.2、父子进程返回情况

  • fork()函数被调用一次,但是返回两次
  • 进程返回的是0,而进程返回值则是新子进程的进程ID

【注意】父进程返回值是新进程的ID

因为一个进程的子进程可以有多个,并且没有一个函数是一个进程可以获得其所有子进程的进程ID。父进程中没有记录子进程的PID。所以为了方便父进程知道和处理子进程,fork()返回最新子进程的pid。

实例:

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <unistd.h>
#include <string.h>

int main()
{
	pid_t n = fork();
	assert(-1 != n);

	if(0 == n)
	{
		printf("Hello\n");
	}
	else
	{
		printf("World\n");
	}
	
	exit(0);
}

结果:

【Linux】进程创建--fork()_子进程_03

分析:这个结果就和fork的返回值有关,调用一次有两个返回结果,首先打印world,因为子进程返回的值是0,所以打印hello.


2.3、父子进程执行情况

  • fork之后是两个独立的进程,所以两个进程会被交给操作系统,然后操作系统进行调度,调度到谁就运行谁,故父子进程并发执行,不是按顺序的,父进程和子进程输出的结果是交替的,随机的。

实例:

# include<stdio.h>
# include<stdlib.h>
# include<unistd.h>
# include<string.h>
# include<assert.h>

int main()
{
    pid_t pid=fork();
    assert(pid!=-1);

    if(pid==0)//子进程
    {
        printf("child:PPID=%d,PID=%d\n",getppid(),getpid());
        int i=0;
        for(;i<5;i++)
        {
            printf("child\n");
            sleep(1);
        }
    }
    else//父进程
    {
        printf("father:PPID=%d,PID=%d\n",getppid(),getpid());
        int i=0;
        for(;i<5;i++)
        {
             printf("father\n");
              sleep(1);
        }
    }
    exit(0);
}

根据上述的执行情况,该程序的运行结果是不定的,父子进程谁先执行谁后执行都是随机的,如下图所示为执行两次该程序的不同结果:

【Linux】进程创建--fork()_父进程_04

结果分析:

  • 父子进程均从fork()之后的代码开始执行,也就是执行 if 判断。
  • 父进程打印father,子进程打印child,我们可以看到输出的顺序不是固定的,而是随机的,每一次运行的结果是不一样的,这就是我们说的fork()之后父子进程并发执行


2.4、父子进程的存储空间

我们已经知道了内存空间布局,主要由数据段,堆栈空间等组成,那么我们现在用代码来测试一下父子进程的内存空间:

  • 代码定义全局初始化变量,局部初始化变量,动态开辟指针,那么它们分别在==.data段,栈,堆==存储。
  • 子进程对这三个变量修改数值,子进程中输出数值和地址,父进程也输出三个变量的值和地址
  • 我们用sleep来保证父进程在子进程修改数值之后执行,先让父进程睡眠,这样我们就可以根据父进程输出的数值判断子进程的修改是否影响父进程。
  • 进而判断父子进程的三个变量是否存储在一块存储空间中。

实例:

# include<stdio.h>
# include<stdlib.h>
# include<assert.h>
# include<unistd.h>

int gdata=10;//全局初始化

int main()
{
    int ldata=10;
    int *hdata=(int*)malloc(4);
    *hdata=10;

    pid_t pid=fork();
    assert(pid!=-1);
    
    //子进程
    if(pid==0)
    {
        printf("child:%d,%d,%d\n",gdata,ldata,*hdata);
        printf("child addr:0x%x,0x%x,0x%x\n",&gdata,&ldata,hdata);
        gdata=20;
        ldata=20;
        *hdata=20;
        printf("change num after:\n");
        printf("child:%d,%d,%d\n",gdata,ldata,*hdata);
        printf("child addr:0x%x,0x%x,0x%x\n",&gdata,&ldata,hdata);
        sleep(3);
    }
    else
    {
        sleep(3);//保证子进程先修改了变量值
        printf("father:%d,%d,%d\n",gdata,ldata,*hdata);
        printf("father addr:0x%x,0x%x,0x%x\n",&gdata,&ldata,hdata);
    }

    free(hdata);
}

结果分析:

【Linux】进程创建--fork()_父进程_05

得:

  • 输出变量的地址是一样的,但是子进程修改了变量的值,父进程的值没有改变。这表示父子进程中的变量存储不在一个空间,是独立的两个存储空间

【🤔】为啥输出变量的地址一样但是值却没有被修改呢?

涉及到我们之前所讲的逻辑地址和物理地址。我们在程序中输出的地址都是逻辑地址,需要通过映射表才能真正的得出在内存上的物理地址。因为操作系统为每一个进程维护一个页表所以即使逻辑地址一样页表不一样对应的物理地址也就不一样,数据就在不同的存储空间。

  • 我们开辟动态内存,malloc只调用一次,但是free会调用两次,是因为父进程开辟了空间,然后拷贝给了子进程,子进程拥有了独立的堆空间,所以调用两次free.