正则表达式简单语法总结
一、什么是正则表达式
从概念上来说,正则表达式也是一门小巧而精炼的语言,它可以用来简化检索特定的字符串,替换特定字符等功能,有许多开发语言工具,都内嵌支持正则表达式。那么一个正则表达式,究竟是什么?其实它就是一个字符串,但这个字符串具有特定含义。
二、正则表达式的基础语法
1、字面值
所谓字面值,就是没有任何转义,查找的对象就是其本身,比如正则表达式 abc ,查找的结果就是返回要查找字符串中 a,b,c三个字母连在一起的字符串。又如,123 就是查找到123这个子串。
2、特殊字符(元字符)
(1)句号
“.”在正则表达式中表示匹配任意字符,很相似于通配符*。如果我们查找a.b这个正则表达式,我们可以找到所有开头和结尾为a,b,中间是任意字符的字符串,比如abc,adc,a2c等。
(2)字符类([])
如果你在一个正则表达式中看到有一些字符被[]括号括起来,那么他们的含义将不再是简单的字面值,他们表示某一个被括号中属性约束的字符。比如[123456],这个正则表达式表示找到1-6中的任意一个字符,又比如a[bd]c,这表示查找abc或者adc。
注意:
1.在字符类中字符的顺序和重复性都不是我们关心的。[123]和[2233111],含义是一模一样的。
2.句号在字符类中表示的就是其本身,[.]就是查找一个句号。
(3)区间符号(-)
如果我们需要查找一个数字,[0123456789],这样做是可以达到目的的,但这写起非常麻烦,并不符合正则表达式小巧的特性,这时我们可以使用区间符号来简化,[0-9]和上面的式子意义完全一样。同样,我们可以[a-zA-Z],表示任意一个字母。
注意:
1.区间的范围应该有意义,[a-1]这样的区间并无任何意义,尽管它在语法上可能没有错误。
2.区间左右两端对应的是字符,并不是数字,比如[2-41],这个式子的含义是找到2-4的一个数字或者1,和[1-4]是一样的。
(4)取反符号(^)
“^”在正则表达式中表示取反,这个很好理解,[^a],表示找到除了a之外的任意字符。[^0-9],表示找到一个非数字的字符。
注意:
1.^必须在中括号内,及字符类属性中使用。
2.^是将后面的整体作为取反条件的。
(5)简化的字符类
某些符号具有和字符类相同的含义:
\d和[0-9]相同
\w和[0-9A-Za-z_]相同 表示数字,字母或者下划线
\s表示匹配空格,tab和换行等不可见符。
与此相对的\D,\W,\S,则表示上述条件的取反情况。
(6)乘法集({})
乘法集的最大用处也是简化正则表达式,用大括号表示。比如,a{2},表示找到aa这个字符串。
注意:
乘法集是已前面整体为乘法条件的,比如[ab]{2},不是简单的比配aa,bb,而是和[ab][ab]含义是相同的,会匹配ab,ba,aa,bb。
(7)乘法集中的区间(,)
乘法集和字符类相同,也可以用区间进行简化,但是符号不相同。a{1,3},表示找到a,aa,aaa这三个字符串。a{0,1}是合法的,表示找到空字符,或者a。
注意:
1.乘法集的"越长越好"属性:乘法集具有这样的特点,比如a{2,4},如果我搜索myaaaa,它不会找到aa后就停止,而是会找到aaaa。
2.乘法集的"全部获取"属性:比如a{2.4},如果搜索myaayouaaaa,它会找到aa和aaaa。
3.乘法集支持开区间,a{1,}是合法的,表示找到任何a相连的字符串。
(8)判断符号(?)
这个符号的含义和{0,1}完全相同,123?4,表示匹配1234或者124;
(9)统配符号(*)
这个符号的含义和{0,}相同,比如.* 表示通配一切字符串。
(10)+符号
这个符号和{1,}相同。
(11)或符号(|)
“|”符号表示或的关系,比如abc|edf,表示找到abc或者def
(12)组合(())
小括号在正则表达式中表示组合,比如(a|b|c)d,表示找到ad,bd,cd,可以将小括号的作用理解为优先级。
(13)单词边界(\b)
\b表示单词的边界,比如\b[a-z]{3}\b,表示匹配一个三个字母的小写单词。
(14)行边界(^ $)
单单的一个^符号表示的是行的开头,$表示行的结束。
注意:
[^]是非法的,[$]表示匹配一个$符号。
三、做些小总结
上面说了这么多正则表达式的语法规则,我们现在来做下总结:
1、几个概念:
1、字面值:直接查找的字符,比如123,avb。
2、字符类:描述字符的一些属性,比如[123],[a-z],\d,\w,\s,.。
3、乘法集:简化表达式,比如{0,3},?,+,*。
4、或和组合:比如(a|b|v)。
5、单词,行的边界\b ^ $
2、元字符列表
. \ [ ] { } ? * + | ( ) ^ $
3、字符类中元字符列表
[ ] \ - ^
四、一个特别重要的字符
最后,还有一个特别特别重要的字符我们没考虑到,如果我们要查找元字符怎么办,在正则表达式中还有一个转义字符"\",如果我们要查找. 只要查找\. 同理\[\]是查找"[]"这个字符串。如果要查找"\",再加一个转义字符就好:\\。
三、iOS中正则表达式
1.正则表达式与NSPredicate连用,eg:
- (BOOL)validateNumber:(NSString *) textString
{
NSString* number=@"^[0-9]+$";
NSPredicate *numberPre = [NSPredicate predicateWithFormat:@"SELF MATCHES %@",number];
return [numberPre evaluateWithObject:textString];
}
2.NSString方法
- (NSRange)rangeOfString:(NSString *)aString options:(NSStringCompareOptions)mask;
NSString *searchText = @"rangeOfString";
NSRange range = [searchText rangeOfString:@"^[0-9]+$" options:NSRegularExpressionSearch];
if (range.location != NSNotFound) {
NSLog(@"range :%@", [searchText substringWithRange:range]);
}
3.正则表达式类(NSRegularExpression)
NSString *searchText = @"you want to match";
NSError *error = NULL;
NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:@"^[0-9]+$" options:NSRegularExpressionCaseInsensitive error:&error];
NSTextCheckingResult *result = [regex firstMatchInString:searchText options:0 range:NSMakeRange(0, [searchText length])];
if (result) {
NSLog(@"%@", [searchText substringWithRange:result.range]);
}
四、常用的正则表达式
以下红色字符串是常用的正则表达式(以下正则表达式来自百度百科)
1.验证用户名和密码:”^[a-zA-Z]\w{5,15}$”
\\d{3,4}-)\\d{7,8}$”)
eg:021-68686868 0511-6868686;
3.验证手机号码:”^1[3|4|5|7|8][0-9]\\d{8}$”;
4.验证身份证号(15位或18位数字):”\\d{14}[[0-9],0-9xX]”;
5.验证Email地址:(“^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\.\\w+([-.]\\w+)*$”);
6.只能输入由数字和26个英文字母组成的字符串:(“^[A-Za-z0-9]+$”) ;
7.整数或者小数:^[0-9]+([.]{0,1}[0-9]+){0,1}$
8.只能输入数字:”^[0-9]*$”。
9.只能输入n位的数字:”^\\d{n}$”。
10.只能输入至少n位的数字:”^\\d{n,}$”。
11.只能输入m~n位的数字:”^\\d{m,n}$”。
12.只能输入零和非零开头的数字:”^(0|[1-9][0-9]*)$”。
13.只能输入有两位小数的正实数:”^[0-9]+(.[0-9]{2})?$”。
14.只能输入有1~3位小数的正实数:”^[0-9]+(\.[0-9]{1,3})?$”。
15.只能输入非零的正整数:”^\+?[1-9][0-9]*$”。
16.只能输入非零的负整数:”^\-[1-9][]0-9″*$。
17.只能输入长度为3的字符:”^.{3}$”。
18.只能输入由26个英文字母组成的字符串:”^[A-Za-z]+$”。
19.只能输入由26个大写英文字母组成的字符串:”^[A-Z]+$”。
20.只能输入由26个小写英文字母组成的字符串:”^[a-z]+$”。
21.验证是否含有^%&’,;=?$\”等字符:”[^%&',;=?$\x22]+”。
22.只能输入汉字:”^[\u4e00-\u9fa5]{0,}$”。
23.验证URL:”^http://([\\w-]+\.)+[\\w-]+(/[\\w-./?%&=]*)?$”。
24.验证一年的12个月:”^(0?[1-9]|1[0-2])$”正确格式为:”01″~”09″和”10″~”12″。
25.验证一个月的31天:”^((0?[1-9])|((1|2)[0-9])|30|31)$”正确格式为;”01″~”09″、”10″~”29″和“30”~“31”。
\\d{4}[年|\-|\.]\\d{\1-\12}[月|\-|\.]\\d{\1-\31}日?
评注:可用来匹配大多数年月日信息。
27.匹配双字节字符(包括汉字在内):[^\x00-\xff]
评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)
28.匹配空白行的正则表达式:\n\s*\r
评注:可以用来删除空白行
29.匹配HTML标记的正则表达式:<(\S*?)[^>]*>.*?</>|<.*? />
评注:网上流传的版本太糟糕,上面这个也仅仅能匹配部分,对于复杂的嵌套标记依旧无能为力
30.匹配首尾空白字符的正则表达式:^\s*|\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
31.匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
32.匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用
33.匹配腾讯QQ号:[1-9][0-9]\{4,\}
评注:腾讯QQ号从10 000 开始
34.匹配中国邮政编码:[1-9]\\d{5}(?!\d)
评注:中国邮政编码为6位数字
35.匹配ip地址:((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)。