几个正则表达式

  • 类 Pattern
  • 反斜线、转义和引用
  • 字符
  • 字符类
  • 预定义字符类
  • 边界匹配器
  • Greedy 数量词


类 Pattern

正则表达式的编译表示形式。
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

反斜线、转义和引用

反斜线字符 (’’) 用于引用转义构造,表达式 \ 与单个反斜线匹配,而 { 与左括号匹配。

根据 Java Language Specification 的要求,Java 源代码的字符串中的反斜线被解释为 Unicode 转义或其他字符转义。因此必须在字符串字面值中使用两个反斜线,表示正则表达式受到保护,不被 Java 字节码编译器解释。例如,当解释为正则表达式时,字符串字面值 “\b” 与单个退格字符匹配,而 “\b” 与单词边界匹配。字符串字面值 “(hello)” 是非法的,将导致编译时错误;要与字符串 (hello) 匹配,必须使用字符串字面值 “\(hello\)”。

字符

|–|--|
x |字符 x
\| 反斜线字符
\0n |带有八进制值 0 的字符 n (0 <= n <= 7)
\0nn |带有八进制值 0 的字符 nn (0 <= n <= 7)
\0mnn |带有八进制值 0 的字符 mnn(0 <= m <= 3、0 <= n <= 7)
\xhh |带有十六进制值 0x 的字符 hh
\uhhhh |带有十六进制值 0x 的字符 hhhh
\t |制表符 (’\u0009’)
\n| 新行(换行)符 (’\u000A’)
\r |回车符 (’\u000D’)
\f |换页符 (’\u000C’)
\a |报警 (bell) 符 (’\u0007’)
\e |转义符 (’\u001B’)
\cx |对应于 x 的控制符

字符类

构造

匹配

[abc]

a、b 或 c(简单类)

[^abc]

任何字符,除了 a、b 或 c(否定)

[a-zA-Z]

a 到 z 或 A 到 Z,两头的字母包括在内(范围)

[a-d[m-p]]

a 到 d 或 m 到 p:[a-dm-p](并集)

[a-z&&[def]]

d、e 或 f(交集)

[a-z&&[^bc]]

a 到 z,除了 b 和 c:[ad-z](减去)

[a-z&&[^m-p]]

a 到 z,而非 m 到 p:[a-lq-z](减去)

预定义字符类

构造

匹配

.

任何字符(与行结束符可能匹配也可能不匹配)

\d

数字:[0-9]

\D

非数字: [^0-9]

\s

空白字符:[ \t\n\x0B\f\r]

\S

非空白字符:[^\s]

\w

单词字符:[a-zA-Z_0-9]

\W

非单词字符:[^\w]

边界匹配器

构造

匹配

^

行的开头

$

行的结尾

\b

单词边界

\B

非单词边界

\A

输入的开头

\G

上一个匹配的结尾

\Z

输入的结尾,仅用于最后的结束符(如果有的话)

\z

输入的结尾

Greedy 数量词

构造

匹配

X?

X,一次或一次也没有

X*

X,零次或多次

X+

X,一次或多次

X{n}

X,恰好 n 次

X{n,}

X,至少 n 次

X{n,m}

X,至少 n 次,但是不超过 m 次

目前使用的简单的几个就是这些东西。

还有一种模式 就是在后面加上“+”这种表现的形式。
比如一点小小的应用。这个在百度上也可以找到很多简单的应用。
这个引用就是地址 大家可以直接点击进去看看是怎样的。