正则表达式基础
正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,我们下面会给予解释。元字符 | 描述 | |
---|---|---|
|
| |
|
匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、r t,但是不匹配root。 | |
|
匹配行结束符。例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾,但是不能匹配字符串"They are a bunch of weasels."。 | |
|
匹配一行的开始。例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始,但是不能匹配"What and When in the"。 | |
|
匹配0或多个正好在它之前的那个字符。例如正则表达式.*意味着能够匹配任意数量的任何字符。 | |
这是引用府,用来将这里列出的这些元字符当作普通的字符来进行匹配。例如正则表达式$被用来匹配美元符号,而不是行尾,类似的,正则表达式.用来匹配点字符,而不是任何字符的通配符。 | ||
[c1-c2] [^c1-c2] |
匹配括号中的任何一个字符。例如正则表达式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括号中使用连字符-来指定字符的区间,例如正则表达式[0-9]可以匹配任何数字字符;还可以制定多个区间,例如正则表达式[A-Za-z]可以匹配任何大小写字母。另一个重要的用法是“排除”,要想匹配除了指定区间之外的字符——也就是所谓的补集——在左边的括号和第一个字符之间使用^字符,例如正则表达式[^269A-Z] 将匹配除了2、6、9和所有大写字母之外的任何字符。 | |
|
匹配词(word)的开始(<)和结束(>)。例如正则表达式能够匹配字符串"for the wise"中的"the",但是不能匹配字符串"otherwise"中的"the"。注意:这个元字符不是所有的软件都支持的。 | |
|
将 ( 和 ) 之间的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个),它们可以用 1 到9 的符号来引用。 | |
|
将两个匹配条件进行逻辑“或”(Or)运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:这个元字符不是所有的软件都支持的。 | |
|
匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意:这个元字符不是所有的软件都支持的。 | |
|
匹配0或1个正好在它之前的那个字符。注意:这个元字符不是所有的软件都支持的。 | |
{i,j} |
匹配指定数目的字符,这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3} 能够匹配字符"A"后面跟着正好3个数字字符的串,例如A123、A348等,但是不匹配A1234。而正则表达式[0-9]{4,6} 匹配连续的任意4个、5个或者6个数字字符。注意:这个元字符不是所有的软件都支持的。 |
he is in a rut
the food is Rotten
I like root beer
简单的例子
vi 命令 | 作用 |
|
|
:%s/ */ /g | 把一个或者多个空格替换为一个空格。 |
:%s/ *$// | 去掉行尾的所有空格。 |
:%s/^/ / | 在每一行头上加入一个空格。 |
:%s/^[0-9][0-9]* // | 去掉行首的所有数字字符。 |
:%s/b[aeio]g/bug/g | 将所有的bag、beg、big和bog改为bug。 |
:%s/t([aou])g/h1t/g | 将所有tag、tog和tug分别改为hat、hot和hug(注意用group的用法和使用1引用前面被匹配的字符)。 |
中级的例子(神奇的咒语)
例1
之前 | 之后 | |
foo(10,7,2) | foo(7,10,2) | |
foo(x+13,y-2,10) | foo(y-2,x+13,10) | |
foo( bar(8), x+y+z, 5) | foo( x+y+z, bar(8), 5) |
[^,] | 除了逗号之外的任何字符 | |
[^,]* | 0或者多个非逗号字符 | |
([^,]*) | 将这些非逗号字符标记为1,这样可以在之后的替换模式表达式中引用它 | |
([^,]*), | 我们必须找到0或者多个非逗号字符后面跟着一个逗号,并且非逗号字符那部分要标记出来以备后用。 |
例2
假设有一个CSV(comma separated value)文件,里面有一些我们需要的信息,但是格式却有问题,目前数据的列顺序是:姓名,公司名,州名缩写,邮政编码,现在我们希望讲这些数据重新组织,以便在我们的某个软件中使用,需要的格式为:姓名,州名缩写-邮政编码,公司名。也就是说,我们要调整列顺序,还要合并两个列来构成一个新列。另外,我们的软件不能接受逗号前后面有任何空格(包括空格和制表符)所以我们还必须要去掉逗号前后的所有空格。Sharon Lee Smith, Design Works Incorporated, CA, 95012
B. Amos , Hill Street Cafe, CA, 95013
Alexander Weatherworth, The Crafts Store, CA, 95014
...
Sharon Lee Smith,CA 95012,Design Works Incorporated
B. Amos,CA 95013,Hill Street Cafe
Alexander Weatherworth,CA 95014,The Crafts Store
...
例3
假设有一个多字符的片断重复出现,例如:Billy tried really hard而你想把"really"、"really really",以及任意数量连续出现的"really"字符串换成一个简单的"very"(simple is good!),那么以下命令:
Sally tried really really hard
Timmy tried really really really hard
Johnny tried really really really really hard
:%s/(really )(really )*/very /就会把上述的文本变成:
Billy tried very hard表达式(really )*匹配0或多个连续的"really "(注意结尾有个空格),而(really )(really )* 匹配1个或多个连续的"really "实例。
Sally tried very hard
Timmy tried very hard
Johnny tried very hard
困难的例子(不可思议的象形文字)
Coming soon.不同工具中的正则表达式OK,你已经准备使用RE(regular expressions,正则表达式),但是你并准备使用vi。所以,在这里我们给出一些在其他工具中使用RE的例子。另外,我还会总结一下你在不同程序之间使用RE可能发现的区别。
sed
sed脚本 | 描述 | |
|
| |
sed 's/^$/d' price.txt | 删除所有空行 | |
sed 's/^[ t]*$/d' price.txt | 删除所有只包含空格或者制表符的行 | |
sed 's/"//g' price.txt | 删除所有引号 |
awk
awk是一种编程语言,可以用来对文本数据进行复杂的分析和处理。可以在手册中得到关于awk的详细信息。这个古怪的名字是它作者们的姓的缩写(Aho,Weinberger和Kernighan)。awk脚本 | 描述 | |
|
| |
awk '$0 !~ /^$/' price.txt | 删除所有空行 | |
awk 'NF > 0' price.txt | awk中一个更好的删除所有行的办法 | |
awk '$2 ~ /^[JT]/ {print $3}' price.txt | 打印所有第二个字段是'J'或者'T'打头的行中的第三个字段 | |
awk '$2 !~ /[Mm]isc/ {print $3 + $4}' price.txt | 针对所有第二个字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定为数字) | |
awk '$3 !~ /^[0-9]+.[0-9]*$/ {print $0}' price.txt | 打印所有第三个字段不是数字的行,这里数字是指d.d或者d这样的形式,其中d是0到9的任何数字 | |
awk '$2 ~ /John|Fred/ {print $0}' price.txt | 如果第二个字段包含'John'或者'Fred'则打印整行 |
grep
grep是一个用来在一个或者多个文件或者输入流中使用RE进行查找的程序。它的name编程语言可以用来针对文件和管道进行处理。可以在手册中得到关于grep的完整信息。这个同样古怪的名字来源于vi的一个命令,g/re/p,意思是global regular expression print。Wong, Fred 4-4123
Jones, Thomas 1-4122
Salazar, Richard 5-2522
grep命令 | 描述 | |
|
| |
grep 't5-...1' phone.txt | 把所有电话号码以5开头以1结束的行打印出来,注意制表符是用t表示的 | |
grep '^S[^ ]* R' phone.txt | 打印所有姓以S打头和名以R打头的行 | |
grep '^[JW]' phone.txt | 打印所有姓开头是J或者W的行 | |
grep ', ....t' phone.txt | 打印所有姓是4个字符的行,注意制表符是用t表示的 | |
grep -v '^[JW]' phone.txt | 打印所有不以J或者W开头的行 | |
grep '^[M-Z]' phone.txt | 打印所有姓的开头是M到Z之间任一字符的行 | |
grep '^[M-Z].*[12]' phone.txt | 打印所有姓的开头是M到Z之间任一字符,并且点号号码结尾是1或者2的行 |
egrep
egrep是grep的一个扩展版本,它在它的正则表达式中支持更多的元字符。下面的例子中我们假定在文件phone.txt中包含以下的文本,——其格式是姓加一个逗号,然后是名,然后是一个制表符,然后是电话号码:Wong, Fred 4-4123
Jones, Thomas 1-4122
Salazar, Richard 5-2522
egrep command | Description | |
|
| |
egrep '(John|Fred)' phone.txt | 打印所有包含名字John或者Fred的行 | |
egrep 'John|22$|^W' phone.txt | 打印所有包含John 或者以22结束或者以W的行 | |
egrep 'net(work)?s' report.txt | 从report.txt中找到所有包含networks或者nets的行 |
正则表达式语法支持情况
命令或环境 | . | [ ] | ^ | $ | ( ) | { } | ? | + | | | ( ) |
vi | X | X | X | X | X | |||||
Visual C++ | X | X | X | X | X | |||||
awk | X | X | X | X | X | X | X | X | ||
sed | X | X | X | X | X | X | ||||
Tcl | X | X | X | X | X | X | X | X | X | |
ex | X | X | X | X | X | X | ||||
grep | X | X | X | X | X | X | ||||
egrep | X | X | X | X | X | X | X | X | X | |
fgrep | X | X | X | X | X | |||||
perl | X | X | X | X | X | X | X | X | X |
vi替换命令简介Vi的替换命令: