一、Shell脚本:while read line无法读取最后一行的问题
今天利用shell脚本处理园区bucket信息时,发现在脚本中使用while read line循环逐行读取文件时总是无法处理到最后一行,脚本大致执行流程源码如下,通过while循环逐行读取命令行第一个参数指定的文件,并对数据进行处理后输出。
#!bin/bash
while read line
do
data=`...line...`
echo "${data}" >> $2.txt
done < $1
经过简单的查询学习后,将该问题的背景、原因、解决方案整理如下第二章节。
二、背景、原因及解决方案
1、背景
在计算机出现之前,使用的电传打字机(Teletype Model)每秒可以打10个字符。但是它的问题是打完一行后换行要用去0.2秒,正好可以打两个字符。若在这0.2秒内又有新的字符传过来,那么这个字符将丢失。
于是研发人员想了个办法,就是在每行后面加两个表示结束的字符。一个叫做"回车"(Carriage Return),告诉打字机把打印头定位在左边界;另一个叫做"换行"(Linefeed),告诉打字机把纸向下移一行。这就是"换行"和"回车"的来历。
计算机发明后这两个概念也就被采用,但那时存储器很贵,部分研究人员认为在每行结尾加两个字符太浪费了,加一个就可以,于是就出现了分歧。
Unix及Unix系统里,每行结尾只有"<换行>",即"\n";Windows系统里面,每行结尾是"<回车><换行>",即"\r\n"。一个直接后果是,Unix系统下的文件在Windows里打开的话,所有文字会变成一行;而Windows里的文件在Unix下打开的话,在每行的结尾可能会多出一个^M符号。
Windows下新建文件,最后一行不会添加回车符或换行符;而linux新建的文件,最后一行还会添加1个换行符。
2、原因:
因为我的目标文件是在windows下创建然后传到服务器上的,这样在利用while read line读取文件时,如果文件最后一行之后没有换行符\n,则read读取最后一行时遇到文件结束符EOF时循环即终止。上面代码中,虽然此时$line内存有最后一行的内容,但程序已经没有机会再处理此行内容,因此导致了最后一行无法读取。
3、方案一:
修改while循环,增加 [[ -n ${line} ]],这样当文件没有到最后一行时不会测试-n $line,当遇到文件结束(最后一行)时,仍然可以通过测试$line是否有内容来进行继续处理。
#!bin/bash
while read line || [[ -n ${line} ]]
do
data=`...line...`
echo "${data}" >> $2.txt
done < $1
4、方案二:
通过分析原因可知,本质原因是因为文件格式不是unix导致的,可以直接通过设置文件格式来处理,该方式则脚本代码不需改动。
# 在服务器上vim编辑目标文件
vim target_file
# 然后执行如下指令,用于查看当前文件是dos格式还是unix格式
:set ff?
# 强制切换为unix格式,然后保存即可
:set ff=unix
:wq