Linux以文件的形式对计算机中的数据和硬件资源进行管理,也就是彻底的一切皆文件,反映在Linux的文件类型上就是:普通文件、目录文件(也就是文件夹)、设备文件、链接文件、管道文件、套接字文件(数据通信的接口)等等。而这些种类繁多的文件被Linux使用目录树进行管理, 所谓的目录树就是以根目录(/)为主,向下呈现分支状的一种文件结构。不同于纯粹的ext2之类的文件系统,我把它称为文件体系,一切皆文件和文件目录树的资源管理方式一起构成了Linux的文件体系,让Linux操作系统可以方便使用系统资源。

一、文件系统概述

1、linux文件系统模型

由上而下主要分为用户层、VFS层、文件系统层、缓存层、块设备层、磁盘驱动层、磁盘物理层。

文件系统和目录结构_stat

2、文件I/O与标准I/O

文件IO又被称为不带缓冲的IO,“不带缓冲“是指每个读写操作都调用系统内核的一个系统调用。文件IO与标准IO的区别在于:

  • 标准IO默认采用缓冲机制,打开文件的同时,在内存中建立一个缓冲区;而文件IO一般不会建立缓冲区,需要手动创建;
  • 标准IO针对的是控制台、打印输出到屏幕等;文件IO主要是对文件操作、读写硬盘等;
  • 标准IO是跨平台的,二文件IO只适用于Unix/Linux平台。

3、文件描述符

对内核而言,所打开的文件都是通过文件描述符引用,当打开一个现有文件或者创建一个新文件时,内核向进程返回一个文件描述符,该文件描述符对文件进行读写操作。
  通过将文件描述符0与标准输入相关联,将文件描述符1与标准输出相关联,将文件描述符2与标准错误相关联(STDIN_FILENO、STDOUT_FILENO、STDERR_FILENO)。

4、缓冲机制

基于流的操作最终都会以系统调用的形式进行IO操作,为了通过程序的运行效率,流对象通常会提供缓冲区,以减少系统调用的次数。

1. 全缓冲:直到缓冲区被填满,才调用系统IO函数。

2. 行缓冲:直到遇到换行符’\n’,才调用系统IO函数。

3. 无缓冲:没有缓冲区,数据立即读入或者输出到外存文件或设备上。

二、文件类型

UNIX系统的大多数文件是普通文件或目录,但是也有另外一些文件类型。文件类型包括如下几种:

1、普通文件(-)

  • 从Linux的角度来说,类似mp4、pdf、html这样应用层面上的文件类型都属于普通文件;
  • Linux用户可以根据访问权限对普通文件进行查看、更改和删除。

2、目录文件(d,directory file)

  • 目录文件对于用惯Windows的用户来说不太容易理解,目录也是文件的一种;
  • 目录文件包含了各自目录下的文件名和指向这些文件的指针,打开目录事实上就是打开目录文件,只要有访问权限,你就可以随意访问这些目录下的文件(普通文件的执行权限就是目录文件的访问权限),但是只有内核的进程能够修改它们;
  • 虽然不能修改,但是我们能够通过vim去查看目录文件的内容。

3、块设备文件(b,block)和字符设备文件(c,char)

  • 这些文件一般隐藏在/dev目录下,在进行设备读取和外设交互时会被使用到;
  • 比如磁盘光驱就是块设备文件,串口设备则属于字符设备文件;
  • 系统中的所有设备要么是块设备文件,要么是字符设备文件,无一例外。

4、符号链接(l,symbolic link)

  • 这种类型的文件类似Windows中的快捷方式,是指向另一个文件的间接指针,也就是我们常说的软链接。

5、FIFO(p,pipe)

  • 管道文件主要用于进程间通讯。比如使用mkfifo命令可以创建一个FIFO文件,启用一个进程A从FIFO文件里读数据,启动进程B往FIFO里写数据,先进先出,随写随读。

6、套接字(s,socket)

  • 用于进程间的网络通信,也可以用于本机之间的非网络通信;
  • 这些文件一般隐藏在/var/run目录下,证明着相关进程的存在。

使用ls -l 命令 也可以查看文件的类型:

# ls -l
总用量 40
drwxr-xr-x 2 root   root    4096 Mar 30 16:42 test
-rw-r--r-- 1 root   root     872 Mar 30 15:04 test.c

三、文件系统结构与工作原理

ext4文件系统的结构:

文件系统和目录结构_目录结构_02

引导块:为磁盘分区的第一个块,记录文件系统分区的一些信息,,引导加载当前分区的程序和数据被保存在这个块中,一般占用2kB。

超级块:用于存储文件系统全局的配置参数(譬如:块大小,总的块数和inode数)和动态信息(譬如:当前空闲块数和inode数),其处于文件系统开始位置的1k处,所占大小为1k。为了系统的健壮性,最初每个块组都有超级块和组描述符表(以下将用GDT)的一个拷贝,但是当文件系统很大时,这样浪费了很多块(尤其是GDT占用的块多),后来采用了一种稀疏的方式来存储这些拷贝,只有块组号是3, 5 ,7的幂的块组(譬如说1,3,5,7,9,25,49…)才备份这个拷贝。通常情况下,只有主拷贝(第0块块组)的超级块信息被文件系统使用,其它拷贝只有在主拷贝被破坏的情况下才使用。

块组描述符:GDT用于存储块组描述符,其占用一个或者多个数据块,具体取决于文件系统的大小。它主要包含块位图,inode位图和inode表位置,当前空闲块数,inode数以及使用的目录数(用于平衡各个块组目录数),具体定义可以参见ext3_fs.h文件中struct ext3_group_desc。每个块组都对应这样一个描述符,目前该结构占用32个字节,因此对于块大小为4k的文件系统来说,每个块可以存储128个块组描述符。由于GDT对于定位文件系统的元数据非常重要,因此和超级块一样,也对其进行了备份。GDT在每个块组(如果有备份)中内容都是一样的,其所占块数也是相同的。从上面的介绍可以看出块组中的元数据譬如块位图,inode位图,inode表其位置不是固定的,当然默认情况下,文件系统在创建时其位置在每个块组中都是一样的,如图2所示(假设按照稀疏方式存储,且n不是3,5,7的幂)

块组:每个块组包含一个块位图块,一个 inode 位图块,一个或多个块用于描述 inode 表和用于存储文件数据的数据块,除此之外,还有可能包含超级块和所有块组描述符表(取决于块组号和文件系统创建时使用的参数)。下面将对这些元数据作一些简要介绍。

块位图:块位图用于描述该块组所管理的块的分配状态。如果某个块对应的位未置位,那么代表该块未分配,可以用于存储数据;否则,代表该块已经用于存储数据或者该块不能够使用(譬如该块物理上不存在)。由于块位图仅占一个块,因此这也就决定了块组的大小。

Inode位图:Inode位图用于描述该块组所管理的inode的分配状态。我们知道inode是用于描述文件的元数据,每个inode对应文件系统中唯一的一个号,如果inode位图中相应位置位,那么代表该inode已经分配出去;否则可以使用。由于其仅占用一个块,因此这也限制了一个块组中所能够使用的最大inode数量。

Inode表:Inode表用于存储inode信息。它占用一个或多个块(为了有效的利用空间,多个inode存储在一个块中),其大小取决于文件系统创建时的参数,由于inode位图的限制,决定了其最大所占用的空间。

以上这几个构成元素所处的磁盘块成为文件系统的元数据块,剩余的部分则用来存储真正的文件内容,称为数据块,而数据块其实也包含数据和目录。

读取文件的过程:

1. 根据文件所在目录的inode信息,找到目录文件对应数据块;

2. 根据文件名从数据块中找到对应的inode节点信息;

3. 从文件inode节点信息中找到文件内容所在数据块块号;

4. 读取数据块内容。

文件系统和目录结构_linux_03

四、目录结构

/ (root 文件系统) : root 文件系统是文件系统的顶级目录。它必须包含在挂载其它文件系统前需要用来启动 Linux 系统的全部文件。它必须包含需要用来启动剩余文件系统的全部可执行文件和库。文件系统启动以后,所有其他文件系统作为 root 文件系统的子目录挂载到标准的、预定义好的挂载点上。

/bin :目录包含用户的可执行文件。

/boot:包含启动 Linux 系统所需要的静态引导程序和内核可执行文件以及配置文件。

/dev:该目录包含每一个连接到系统的硬件设备的设备文件。这些文件不是设备驱动,而是代表计算机上的每一个计算机能够访问的设备。

/etc:包含主机计算机的本地系统配置文件。

/home:主目录存储用户文件,每一个用户都有一个位于 /home 目录中的子目录(作为其主目录)。

/lib:包含启动系统所需要的共享库文件。

/media:一个挂载外部可移动设备的地方,比如主机可能连接了一个 USB 驱动器。

/mnt:一个普通文件系统的临时挂载点(如不可移动的介质),当管理员对一个文件系统进行修复或在其上工作时可以使用。

/opt:可选文件,比如供应商提供的应用程序应该安装在这儿。

/sbin:系统二进制文件。这些是用于系统管理的可执行文件。

/tmp:临时目录。被操作系统和许多程序用来存储临时文件。用户也可能临时在这儿存储文件。注意,存储在这儿的文件可能在任何时候在没有通知的情况下被删除。

/usr:该目录里面包含可共享的、只读的文件,包括可执行二进制文件和库、man 文件以及其他类型的文档。

/var:可变数据文件存储在这儿。这些文件包括日志文件、MySQL 和其他数据库的文件、Web 服务器的数据文件、邮件以及更多。

五、与目录结构相关的函数

struct stat
{
	dev_t         st_dev;      //文件的设备编号
    ino_t         st_ino;      //节点
    mode_t        st_mode;     //文件的类型和存取的权限
    nlink_t       st_nlink;    //连到该文件的硬连接数目,刚建立的文件值为1
    uid_t         st_uid;       //用户ID
    gid_t         st_gid;       //组ID
    dev_t         st_rdev;   //若此文件为设备文件,则为其设备编号
    off_t         st_size;      //文件字节数(文件大小)
    unsigned long st_blksize;   //块大小(文件系统的I/O 缓冲区大小)
    unsigned long st_blocks;    //块数
    time_t        st_atime;     //最后一次访问时间
    time_t        st_mtime;     //最后一次修改时间
    time_t        st_ctime;     //最后一次改变时间(指属性)
};
#include <sys/stat.h>
#include <unistd.h>
#include <dirent.h>
/*
功能:通过文件名file_name获取文件信息,并保存在buf所指的结构体stat中。
返回值:执行成功则返回0,失败返回-1。
*/
int stat(const char *file_name, struct stat *buf);

/*
功能:打开一个目录。
返回值:成功则返回DIR*型态的目录流, 打开失败则返回NULL。
*/
DIR* opendir(constchar * path );

/*
功能:读取目录,需要循环读取dp中的文件和目录,
	每读取一个文件或目录都返回一个dirent结构体指针。
返回值:dirent结构体指针。
*/
struct dirent* readdir(DIR* dp);  

/*
功能:用来设置参数dp目录流目前的读取位置为原来开头的读取位置。
*/
void rewinddir(DIR *dp);

/*
功能:关闭参数dp所指的目录流。
返回值:关闭成功则返回0,,失败返回-1。
*/
int closedir(DIR*dp);

/*
功能:获取当前dp位置。
返回值:返回目录流dp的当前位置,
		此返回值代表距离目录文件开头的偏移量,有错误发生时返回-1。
*/
long int telldir(DIR *dp);

/*
功能:用来设置参数dp目录流当前的读取位置,在调用readdir()时便从此
	新位置开始读取。参数loc代表距离目录文件开头的偏移量。
*/
void seekdir(DIR *dp,long int loc);

【Demo(遍历目录下的所有文件和文件夹)】:

#include <stdio.h>
#include <dirent.h>
#include <sys/types.h>
int main(int argc, char *argv[])
{    
	if (2 != argc)    
	{        
		printf("Usage: ListFile SourceFolder ");
		return 1;    
	}    
	DIR* pDir = NULL;    
	struct dirent* ent = NULL;    
	pDir = opendir(argv[1]);    
	if (NULL == pDir)
	{        
		printf("Source folder not exists!");
		return 1;    
	}    
	while (NULL != (ent=readdir(pDir)))    
	{      
	    printf("%s ", ent->d_name);  
	}    
	closedir(pDir);  
	pDir = NULL;    
	ent = NULL;    
	return 1;
}