在文件中查找内容时,一般使用grep命令,感觉它的功能足够强大了
但近期在处理一些有格式的文件(每行用“\t”分隔成多列,每列有对应的含义,类似表格)时,以下问题用grep不太好解决了:
1.打印出第二列等于“XXX”的行;
2.数量统计类,如第二列等于“xxx”的数据有多少行;
1.打印出第二列等于“XXX”的行
这类问题,使用grep也可以解决,如在当前目录下所有文件中搜索“XXX”
grep -Frn "XXX" ./*
这其实是搜索行里包含“XXX”的数据,若其他字段(列)也含有这个关键词,则搜索结果不准确了。
若用awk则很方便,如下:
awk -F“\t” '$2=="XXX"{print $0}' ./*
这个命令的意思是:把当前目录下的文件按行依次读取,用"\t”分隔开若干个字段,若第二个字段值等于“XXX”,则把这行数据打印出来。下面是详细解释
-F"\t" 是设置行的分隔符为“\t”, -F 可以设置一个字符或多个字符为分隔符。但多个字符时有两种写发,其意义完全不一样
-F“:\t” 是以“:\t”这个字符串为整体作为分隔符,会吧字符串“123:\t345”分割成“123” 和 “345”两个字段
-F“[:\t]” 用中括号括起来意思是用“:”或“\t”做分隔符,会把字符串“123:\t345”分割成“123”,“”和“345”三个字段,会把“12:34\t56”分割成“12”、“34”和“56”
若没有-F参数,默认是按空格或“\t”分割的。虽然大部分时候-F后面的参数不加引号效果也一样,但在一些特殊情况下还是有问题的,所以最好养成加引号的习惯
‘$2==""XXX’{print $0}' 这个awk脚本代码部分,一般用单引号括起来,因为里面的字符串需要用双引号括起来。
$2 是对应分割后的第二个部分,$0比较特殊是对应整个一行字符串。其余大于0的数字,都是一一对应被分割后的字符串
在awk脚本是有 pattern {action} (模式{操作})组成的,模式有以下种类:
/正则表达式/:使用通配符的扩展集,对$0进行匹配。 如 找含有数字的行 : awk '/\d+/'{print $0} ./*
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如 $2>%1选择第二个字段比第一个字段长的行。
模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
END:让用户在最后一条输入记录被读取之后发生的动作。
多条件判断
awk -F"\t" '$1=="a"&&$2=="1"'{print $0} ./*
更复杂的逻辑判断可以使用括号
awk '($2=="1"&&$3=="a")||$4<100{print NR,$0}' ./test.txt
使用变量,用于统计数据
awk -F"\t" 'BEGIN{n1=0;n2=0}{$4=="1"?n1++:n2++}END{print n1+n2 " , " n1/(n1+n2) " , "n1 " , " n2}' ./*
awk的变量可以不初始化直接使用,并且可以使用字符串做key.以下命令是列出原始数据中,地域id和名称的对应关系
$ awk -F"\t" 'BEGIN{}{if($13){arr["a_"$13]=$14;if($15){arr["a_"$13"_"$15]=$14"_"$16;if($17){arr["a_"$13"_"$15"_"$17]=$14"_"$16"_"$18}}}}END{for(k in arr){print k"\t"arr[k]}}' ./*
原始数据格式$13~$18
1 中国 15 山东 5 东营
输出结果
a_1_7_7 中国_吉林_松原
a_1_7_8 中国_吉林_白城
a_169_60 泰国_phangnga
a_1_7_9 中国_吉林_延边
a_169_61 泰国_phuket
a_169_62 泰国_krabi
a_169_21 泰国_khon kaen