正则表达式不仅仅是Java的技术,在任何一门编程语言中都会存在,是一种通用的IT技术。除了有一些由于语言不同而导致的一些语法不同,其理念和用法在任何编程语言中基本一致。正则表达式,主要用于匹配(查找 替换 计数)字符串中的数据的,也叫做文本匹配技术
正则表达式的由来
在了解正则表达式之前,我们先看几个非常常见的问题:
- 如何判断字符串是否是有效的电话号码?例如: 010-1234567 , 123ABC456 ,
13510001000 等; - 如何判断字符串是否是有效的电子邮件地址?例如: test@example.com ,
test#example 等; - 如何判断字符串是否是有效的时间?例如: 12:34 , 09:60 , 99:99 等。
一种直观的想法是通过程序判断,这种方法需要为每种用例创建规则,然后用代码实现。下面是判断手机号的代码:
public boolean isPhoneNumber(String s) {
if (s.length() != 11) {
return false;
}
for (int i = 0; i < s.length(); i++) {
char c = s.charAt(i);
if (c < '0' || c > '9') {
return false;
}
}
return true;
}
对于上述问题的求解而言,我们只解决了长度的问题,内容必须是数字字符的问题
但是,对于手机号这个特殊的数字而言: 第1位能否为0? 前3位表示对应通讯公司能否确定?
除了判断手机号,我们还需要针对问题判断电子邮件地址、电话、邮编等等:
public boolean isValidEmail(String s) { ... }
public boolean isValidPhoneNumber(String s) { ... }
public boolean isValidZipCode(String s) { ... }
为了每一种判断逻辑都要编写代码实现是太繁琐了,而正则表达式就是用来解决这些问题的。
如下代码:
public boolean isPhoneNumber(String s) {
//确定了长度为11 并且也确定了必须是数字字符
return s.matches("\\d{11}");
}
就目前而言,问题的解决的确变简单了,但代码可读性的就更难了。所以在Java标准库中java.uitl.regex包里内置了正则表达式引擎,使得在Java程序中使用正则非常方便。使用的正则表达式就是一个描述规则的字符串,所以我们只需要编写正确的规则,我们就可以让正则表达式引擎去判断目标字符串是否符合规则。
匹配规则
正则表达式的匹配规则是从左到右按规则匹配的
匹配任意字符
大多情况下,我们想要的匹配规则更多的是模糊匹配
// `.` 匹配任意一个字符
String regex05 = "a.c";
System.out.println("abc".matches(regex05));
System.out.println("a&c".matches(regex05));
System.out.println("acc".matches(regex05));
System.out.println("ac".matches(regex05));
System.out.println("a&&c".matches(regex05));
匹配数字
// 用`.`匹配任意字符的这个口子有点大,如果我们只想匹配数字0~9,用`\d`
String regex06 = "Demo\\d\\d\\.java";
System.out.println("Demo11.java".matches(regex06));
System.out.println("Demo123.java".matches(regex06));
System.out.println("Demo.java".matches(regex06));
System.out.println("Demo12.avi".matches(regex06));
匹配常用字符
// `\w`匹配任意一个字母、数字或下划线
String regex07 = "java\\w";
System.out.println("java_".matches(regex07));
System.out.println("javac".matches(regex07));
System.out.println("java".matches(regex07));
System.out.println("java!".matches(regex07));
匹配空格字符
// `\s`,所谓的空格字符 除了空格' '之外,还包括制表符'\t'的效果
String regex08 = "a\\sc";
System.out.println("a c".matches(regex08));
System.out.println("a c".matches(regex08));
System.out.println("ac".matches(regex08));
System.out.println("a c".matches(regex08));
System.out.println("a\tc".matches(regex08));
匹配非数字
// `\d`任意一个数字; '\D'任意一个非数字
// `\s`任意一个空格; `\S`任意一个非空格
// `\w`任意一个数字字母下划线; '\W'任意一个非数字字母下划线
String regex09 = "\\d\\w\\W\\D";
System.out.println("1234".matches(regex09));
System.out.println("9w!c".matches(regex09));
重复匹配
// 使用`*`可以匹配任意个字符(包含0)
String regex10 = "A*"; //连续0个或多个A
System.out.println("A".matches(regex10));
System.out.println("Animal".matches(regex10));
System.out.println("A123123".matches(regex10));
System.out.println("AAAAAAA".matches(regex10));
String regex11 = "A\\d*";
System.out.println("A12313123123".matches(regex11));
System.out.println("A".matches(regex11));
System.out.println("Aasdhjahsjdk1123".matches(regex11));
System.out.println("".matches(regex11));
// 使用`+`可以匹配至少一个字符
String regex12 = "A\\d+";
System.out.println("A12313123123".matches(regex12));
System.out.println("A".matches(regex12));
System.out.println("Aasdhjahsjdk1123".matches(regex12));
System.out.println("".matches(regex12));
// 使用`?`可以匹配0个或一个字符
String regex13 = "A\\d?";
System.out.println("A12313123123".matches(regex13));
System.out.println("A".matches(regex13));
System.out.println("A1".matches(regex13));
System.out.println("".matches(regex13));
// 如果指定重复的个数 使用`{n}`匹配n个,使用`{n,m}`匹配n~m个,使用`{n,}`匹配至少n个
System.out.println("A123".matches("A\\d{3}"));
System.out.println("A123".matches("A\\d{3,5}"));
System.out.println("A12345".matches("A\\d{3,5}"));
System.out.println("A123".matches("A\\d{4,}"));
示例:
// 比如匹配一个座机号 010-33167854 3个数字-8个数字 `\d{3}\-\d{8}`
System.out.println("010-12345678".matches("\\d{3}\\-\\d{8}"));
System.out.println("0101-2345678".matches("\\d{3}\\-\\d{8}"));
总结
/
将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\n”匹配\n。“\n”匹配换行符。序列“\”匹配“\”而“(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。^
匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$
匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。*
匹配前面的子表达式任意次。例如,zo能匹配“z”,也能匹配“zo”以及“zoo”。等价于o{0,}+
匹配前面的子表达式一次或多次(大于等于1次)。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。?
匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。{n}
n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。{n,}
n是一个非负整数。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o”。{n,m}
m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的前三个o为一组,后三个o为一组。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。?
当该字符紧跟在任何一个其他限制符(,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,“o+”将尽可能多的匹配“o”,得到结果[“oooo”],而“o+?”将尽可能少的匹配“o”,得到结果 [‘o’, ‘o’, ‘o’, ‘o’].
匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符,请使用像“[\s\S]”的模式。x|y
匹配x或y。例如,“z|food”能匹配“z”或“food”(此处请谨慎)。“[zf]ood”则匹配“zood”或“food”。[xyz]
字符集合。匹配所包含的任意一个字符。例如,“[abc]”可以匹配“plain”中的“a”。[ ^xyz]
负值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“plin”。[a-z]
字符范围。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围; 如果出字符组的开头,则只能表示连字符本身.[ ^a-z]
负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。\b
匹配一个单词边界,也就是指单词和空格间的位置(即正则表达式的“匹配”有两种概念,一种是匹配字符,一种是匹配位置,这里的\b就是匹配位置的)。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。\B
匹配非单词边界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。\cx
匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的“c”字符。\d
匹配一个数字字符。等价于[0-9]。grep 要加上-P,perl正则支持\D
匹配一个非数字字符。等价于[^0-9]。grep要加上-P,perl正则支持\f
匹配一个换页符。等价于\x0c和\cL。\n
匹配一个换行符。等价于\x0a和\cJ。\r
匹配一个回车符。等价于\x0d和\cM。\s
匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。\S
匹配任何可见字符。等价于[ ^\f\n\r\t\v]\t
匹配一个制表符。等价于\x09和\cI。\v
匹配一个垂直制表符。等价于\x0b和\cK。\w
匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”,这里的"单词"字符使用Unicode字符集。\W
匹配任何非单词字符。等价于“[ ^A-Za-z0-9_]”。