1. 简介
C/C++中对文件的操作分以二进制文件方式读写和以文本文件方式读写两种。例如,
/*以读方式打开文本文件*/
FILE *fp = fopen("test.txt","r");
/*以写方式打开二进制文件*/
FILE *fp = fopen("test.txt","wb");
二者的根本区别在哪儿?答案是:二者唯一的区别就在于对换行符的处理上。
2. 换行符和回车符
历史:
在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的玩意,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是在这0.2秒里面,又有新的字符传过来,那么这个字符将丢失。
于是,研制人员想了个办法解决这个问题,就是在每行后面加两个表示结束的字符。一个叫做“回车”,告诉打字机把打印头定位在左边界;另一个叫做“换行”,告诉打字机把纸向下移一行。
这就是“换行”和“回车”的来历,从它们的英语名字上也可以看出一二。
后来,计算机发明了,这两个概念也就被般到了计算机上。那时,存储器很贵,一些科学家认为在每行结尾加两个字符太浪费了,加一个就可以。于是,就出现了分歧。
Unix 系统里,每行结尾只有“<换行>”,即“\n”;Windows系统里面,每行结尾是“ <回车><换 行>”,即“\r\n”;Mac系统里,每行结尾是“<回车>”。一个直接后果是,Unix/Mac系统下的文件在Windows里打 开的话,所有文字会变成一行;而Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会多出一个^M符号。
总结:
- 回车符 Carrier Return (CR):’\r’; 功能:将打字机头定位在左边界
- 换行符 Line Feed (LF):’\n’功能:打字机把纸下移一行。
- 现在这两个功能完全没必要分,我们通常所说的“换行”都是指:光标移动到行首+光标移动到下一行。注:后面的换行都是指通常意义的换行,即光标移动到下一行的行首。
- 文本文件的行结束符,windows系统用’\r\n’;Mac系统用’\r’;Unix系统用’\n’。
- C语言用’\n’表示换行。
3. C语言处理二进制文件和文本文件的区别
不同计算机上c语言统一规定为:
文本文件的行结束符一律变成一个符号LF,也就是换行符,也就是new line符,也就是’\n’。
前面已经说过,C语言读写二进制文件和文本文件的唯一在于对换行符的处理上。
3.1 读写文本文件
windows平台下,C语言,
1. 在向文本文件写入’\n’时,实际上写入了’\r\n’(因为windows平台用’\r\n’表示换行);
2. 从文本文件读到换行时(’\r\n’)会自动将’\r’舍去,只保留’\n’.
例如,执行下面的代码,
FILE *fp = fopen("test.txt","w+");
fprintf(fp, "abc\ndef");/*写入7个字符*/
得到的文件大小为8字节,用winhex打开结果为:
可以看到文件里有8个字符,包括ASCII码为0x0D的’\r’和0x0A的’\n’。
同理,重新打开这个文件进行读取,会发现无法读取到’\r’字符只能读到’\n’。
3.2 读写二进制文件
写二进制文件,写入的是什么就是什么,并不会增加任何东西。
例如,执行下面的代码,
FILE *fp = fopen("test.txt","wb+");
fprintf(fp, "abc\ndef");/*写入7个字符*/
得到的文件大小为7字节,用winhex打开结果为:
可以看到文件里仅有写入的7个字符。
同理,读二进制文件,读到的是什么就是什么,并不会舍去任何东西。例如,打开3.1中的文件,是可以同时读到’\r’字符和’\n’字符的。
3.3 小结
- windows系统下,读写文本文件都要对换行符做特殊处理,而读写二进制文件则不需要。
- 读写文本文件用fprintf和fscanf等,这两个函数会默认处理的数据都是ASCII码;读写二进制文件用fwrite和fread。
- 写文本文件,是将数据先转换成了字符串,再写入到文本中。 而写二进制文件,则是将内存里面的数据直接写入文本中。
- 文本文件是为了让人阅读;二进制文件是为了让机器阅读。
- 一般情况下二进制文件占用空间更小(后面会给出例证),计算机处理更快。例如,保存整数1144201745(4个字节的int)。
- 以文本文件方式存储:
int num = 1144201745;
FILE *fp = fopen("test.txt","w+");
fprintf(fp, "%d", num);/*十进制方式写入*/
得到的文件大小为10字节:num有10位。用winhex打开结果为:
可看到,内存中存储的是num各位的ASCII码。
- 以二进制方式存储:
int num = 1144201745;
FILE *fp = fopen("test.txt","wb+");
fprintf(fp, "%d", num);/*十进制方式写入*/
得到的文件大小为4字节:num是int只占4字节。用winhex打开结果为:
可看到,内存中存储的是num的二进制表示。
- 顺便提一下,fprintf和fscan
4. 按下Enter键,读取字符函数读到什么
键盘上的enter键对应的字符是’\r’,而enter键还有额外很多功能,例如,将控制台输入写入缓冲区,并将’\n’写入缓冲区。因此有如下结论:
- 使用getch(), getche()获取键盘输入时,如果按enter键,得到的是’\r’,原因就在于enter键对应的字符是’\r’,而这两个函数是直接获得键盘输入;
- 使用getchar()或scanf(“%c”, &ch)读取字符,如果按enter键,得到的是’\n’,原因在于这两个函数是从缓冲区获取输入,而按enter键的作用是将控制台输入写入缓冲区,并将’\n’写入缓冲区(扔掉’\n’)。