这一章断断续续的看了2周,还看的似懂非懂。没有办法,先把笔记写出来。

 

 

第五章   文本过滤

 
 
这则表达式
find
grep
awk
sed
sort uniq join cut paste split
 
 
 
~~~~~~
基本元字符
 
^ 只匹配行首
$ 之匹配行尾
* 多个或者零个字符匹配或者重复序列
[] 只匹配[]内的字符
\  屏蔽元字符的含义
.  匹配任意的单字符
patten \{n\} 匹配前面pattern出现的次数
 
 
 
匹配举例:
 
 
 
^$ 匹配空行
^.$ 匹配单个字符
 
 
\*.\pas 匹配以*.pas 结尾的字符,其中* . 都为特殊字符,所以用\匹配。
 
[0-9] 表示匹配任意一个数字
 
[A-Z a-z] 匹配任意大小写字母
 
[A-Z a-z 0-9]匹配任意字母大小写字符
 
[S,s] 匹配大、小写S
 
 
A\{2\}B  A出现两次,AAB
A\{4,\}B A至少出现四次  AAAAB AAAAAAB AAAAAAB............
A\{2,4\}B A出现的范围在2-4次之间  AAB AAAB AAAAB
[0-9]\{3\}.[0-9]\{3\}.[0-9]\{3\}.[0-9]\{3\} 匹配ip地址
 
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
正则表达式的命令
 
 
 
 
find命令  
 
 
 
ex:
 
find -name "*.txt" -print
 
 
 
find . -perm 755 -print   查找当前目录下755权限的文件打印到屏幕上
 
 
find `pwd` -user root -print  查找当前目录下user是root的文件
 
nohup find -nouser -print >nouser.out & 后台查找nouser文件,目录定向到nouser.out文件
 
find /var -mtime -5 -print  查找var目录下,5天以内的文件打印出来
find /var -mtime +3 -print  查找var目录下,3天以前的文件打印出来
 
find `pwd` -newer "myfile" ! -newer "myfileeee" -print  
当前目录下查找比myfile文件新,比myfileeee文件旧的文件
 
 
find /etc -type l -print 查找etc目录下的链接文件 
 
find . -size 1000000c -print
 
 
 
~~~~~~~~~~~~~~~~~
用exec ok 执行shell命令
 
find . -type f -exec ls -l {} \;       
查找当前目录下f类型文件,并执行ls -l 命令详细列出文件信息( 其中{}和\之间有 空格 )
 
find /var/log -name "*.log" -mtime +5 -ok rm {} \;
查找/var/log目录下5天前的.log结尾文件并删除之。
 
 
 
 
exec 无法解决内存溢出的问题,xargs可以:
find ./ -perm -7 -print |xargs chmod 777 
 
 
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
grep 
 
 
-i 区分大小写
-v 过滤
-c 输出行号
 
 
Grep 标准的grep命令
Egrep 扩展grep命令
Fgrep 快速grep命令
 
 
 
 
ex:
 
grep "file" *.txt   在当前目录下的所有.txt结尾文件中搜索file字眼
grep "the" *        在当前目录下的所有文件中搜索the字眼
 
grep "2004:22:5[0-9]" myfile  抓取出2004:22:50到2004:22:59这之间的字段
grep "^[^201]" myfile  
 
grep "^$" myfile  过滤出没有内容的文件 ^表示行首  $表示行尾
 
ls -l >lsout.txt
grep "^d" lsout.txt 过滤出行首为d的内容(即为目录)
 
grep "5[[digit:]][[digit:]] lsout.txt  过滤出500-599的文件内容 [[digit:]]表示0-9的数字
 
grep "[0-9]\{1,3\}.[0-9]\{1,3\}.[0-9]\{1,3\}.[0-9]\{1,3\}" /etc/resolv.conf
过滤出/etc/resolv.conf中的产品地址。
 
grep "/htm/call_info.php" myfile|wc -l 
查看call_info.php页面有多少的访问量
 
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~
~~~~~~~~~~
awk命令  
 
由操作和模式组成
 
模式决定何时触发(BEGIN,END)
动作对数据进行处理如   {print} 
 
分隔符 域 记录 $0表示所有域,分隔符默认是空格
 
 
awk所有的模式操作都是有' '之间括起来的
 
 
ex:
 
[root@host ~]# awk 'BEGIN {print"that is what I am talking about\n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~"} {print$1"\t"$4} END {print"end-of-report"}' lsout.out |more
 
 
意思为:打印出三部分:
 
 
一,打印出"that is what I am talking about"后换行,在打印出
" ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ "
 
二,打印出lsout.out文件中的$1域 和$4域
 
三,打印出"end-of-report"
 
 
 
~~~~~~~~~~~~~~~~~~~~~~
 
awk中的特殊元字符
 
+ 表示匹配任意字符
? 表示匹配单个字符
 
 
匹配操作字符
 
~  表示匹配
!~ 表示不匹配
 
 
 
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
sed 命令
 
 
不操作原始文件,操作的只是原本文件的一个副本,如果结果没有重新定向到一个文件,则输出到屏幕。
 
 
x,y  表示行号范围从x到y
/pattern/ 查询包含模式的行
x,y! 查询不包含制定行号x和y的行
 
 
基本shell编辑命令
 
p   打印匹配行号
=   显示文件行号
d   删除定位行
-n  不打印没有匹配到的
=    显示文件行号
 
sed -n '2p' ifelif.out   打印出第二行
sed -n '1,4p' ifelif.out  打印出第一到四行
sed -n '/do/p' fori     fori文件中匹配do字符的行,并打印到屏幕。
sed -n '2,/do/p' fori     中fori文件的第二行匹配,直到匹配到do字符,其间内容打印到屏幕
sed -n '/^$/='  fori     fori文件中匹配出无内容的行,打印行号到屏幕
 
 
 
 
 
sort 合并与分割
 
 
uniq
 
grep "php" myfile|awk '{print $1}'|sort|uniq -c
 
 
join 
split
cut