一、分组:
正则表达式中的分组又称为子表达式,就是把一个正则表达式的全部或部分当做一个整体进行处理,分成一个或多个组。其中分组是使用“()”表示的。进行分组之后“()”里面的内容就会被当成一个整体来处理。
示例:
(Matz|Eich) //匹配Matz或Eich
(Matz)? //匹配0或1个Matz
分组又可以分为捕获组 和 非捕获组两种。
1、捕获组(capture group):
捕获组:就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用。当然,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部,这种引用方式就是反向引用(下面会讲)
捕获组编号规则:
从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。需要注意的是组0永远代表的是整个正则式。
2、非捕获组:
1)为什么要有非捕获组:
一旦使用了“()”,就会默认为是捕获组,从而将“()”内表达式匹配的内容捕获到组里。但是有些情况下,不得不用“()”,但并不关心“()”中匹配的内容是什么,后面也不会引用捕获到的内容,这带来了一个副作用,记录这些捕获组就会占用内存,降低匹配效率。设计非捕获组的目的就是为了抵消这种副作用。 只进行分组,并不将子表达式匹配到的内容捕获到组里。
2)使用:
以 (?) 开头的组是非捕获组,它不捕获文本 也不针对组合计进行计数。就是说,如果小括号中以?号开头,那么这个分组就不会捕获文本,当然也不会有组的编号,因此也不存在反向引用。
使用上,主要是先行断言和后行断言。详情见
二、反向引用:
当一个正则表达式被分组后,每个组将会自动的分配一个组号用于代表该组的表达式,其中,组号的编制规则为:从左到右、以分组的左括号“(”为标志,第一个分组的组号为1,第二个分组的组号为2,以此类推。反向引用提供查找重复字符组的方便的方法。它们可被认为是再次匹配同一个字符串的快捷指令。
示例1:
(boy)\1 //相当于(boy)(boy),匹配boyboy
(boy)(girl)\1\2 //匹配boygirlboygirl
示例2:
对比(\w)\1和的区别:
(\w)\1 //该正则匹配的是出现两次的字符,\1将重复匹配(\w)出现的内容!例如匹配aa、bb
(\w)(\w) //该正则只是简单的匹配两个字符,例如匹配ab,aa等。注意区别!