文章目录
- 0.什么是正则表达式?
- 1.常用的正则符号
- 1.1常用的符号
- 1.2 定位符
- 1.3 限定符
- 2.常用实例
- 2.1 以函数作为正则参数的使用
- 2.2 正则表达式的内容以关键词文件形式存在时的用法
- 2.3 [ ] 和 | 的使用
- 2.4 re.match() 用法(待重新整理)
- 2.5 re.findall()用法
- 2.5.1 一般用法
- 2.6 .re.search()用法
- 2.7 re.sub()用法
0.什么是正则表达式?
import re
即可使用
一定要注意,正则的书写,每个符号都要为之慎重
提示:以下是本篇文章正文内容,下面案例可供参考
1.常用的正则符号
1.1常用的符号
慢慢遇见,慢慢添加~
#1
. 匹配除换行符(\n、\r)之外的任何单个字符,相等于 [^\n\r]
\d 所有数字
\D 所有非数字
\s 匹配所有空白符
\S 非空白符,不包括换行
\w 匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
[A-Z] [A-Z] 表示一个区间,匹配所有大写字母
[a-z] [a-z] 表示所有小写字母
[\u4e00-\u9fa5] 所有中文字符
[^\u4e00-\u9fa5] 所有非中文字符
1.2 定位符
^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。
$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。
line = re.sub(r'/[m|n]$','',line)
\b 匹配一个单词边界,即字与空格间的位置。
\B 非单词边界匹配。
1.3 限定符
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格
2.常用实例
2.1 以函数作为正则参数的使用
这里就是将re.sub(r’‘,’',string)的第二个参数由字符串等形式更换为函数,替换的就更为灵活,只需要写出自己想要使用的函数即可,在调用该函数时,如下图示例调用即可
def get_Tail_1(line):
'''
啦啦{AA拉},保留‘拉’
'''
return str(line.group())[-2:-1]
……
line=re.sub(r'([\u4e00-\u9fa5]\{AA[\u4e00-\u9fa5]\})',get_Tail_1,line)
2.2 正则表达式的内容以关键词文件形式存在时的用法
有的时候,查询使用的正则表达式的内容,并不是一成不变或者是非默认的,而是以关键词的形式储存在指定文件内。当我们以这些关键词为匹配的内容进行查找时,就需要遍历这些关键词依次查询。也可以直接将这些关键词形成一个正则表达式,进行查找
def read_Dict(KeyF):
'''
读取关键词文件,返回关键词列表
---
KeyF:文件路径
return:列表,元素为关键词
'''
key_word=[]
with open(KeyF,'r') as f:
for line in f:
line=line.strip()
key_word.append(line)
return key_word
def process_file(key_word,File):
'''
读取文件,利用关键词,判断
---
key_word:关键词
File:待判断语料文件
'''
regex = ''
for key in key_word: #将关键词形成正则字符模式
regex += key + '|'
pattern=regex[:-1] #去除最后一个“|”
count = []
with open(File,'r') as f:# 读取待判断文件文本
for line in f:
line=line.strip()
keys = re.findall(pattern,line)
if keys:
count += keys
2.3 [ ] 和 | 的使用
>>> t='aabbccdd123'
>>> line1=re.findall('[abc]',t)
>>> line1
['a', 'a', 'b', 'b', 'c', 'c']
>>> line1=re.findall('aa|bb|cc',t)
>>> line1
['aa', 'bb', 'cc']
目前来看,两个符合不能共同使用,会冲突,如下面的例子:
>>> line1=re.findall('[aabbcc]',t)
>>> line1
['a', 'a', 'b', 'b', 'c', 'c']
>>> line1=re.findall('[aa|bb|cc]',t)
>>> line1
['a', 'a', 'b', 'b', 'c', 'c']
# 也就是说[] 内 | 失去了作用,一直都没发现
>>> line1=re.findall('aa|bb|cc',t)
>>> line1
['aa', 'bb', 'cc']
2.4 re.match() 用法(待重新整理)
#2
Ret=re.match("(\d+)([+-])(\d+)",T)#数字 + - 数字
\d+ 0-9任意数字一次或任意次
#4
Words=re.findall("(\S+)\(",Line)
S不加空格的,+至少一个,以(结束的最长字符串
#5
words = re.findall(r'(\S+)\/(\S+)',line)
寻找以非空字符开始,非空字符结束,中间是/符号的一组字符
如:当/p
#6
PYs=re.findall("\(([^\(\)]+)\)",Line)
以(开始,以)结束,中间没有()的
#8
PYs=re.findall("\((.*?)\)",Line
以(开始,以)结束,
?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
2.5 re.findall()用法
2.5.1 一般用法
#4
Words=re.findall("(\S+)\(",Line)
S不加空格的,+至少一个,以(结束的最长字符串
#5
words = re.findall(r'(\S+)\/(\S+)',line)
寻找以非空字符开始,非空字符结束,中间是/符号的一组字符
如:当/p
#6
PYs=re.findall("\(([^\(\)]+)\)",Line)
以(开始,以)结束,中间没有()的
#8
PYs=re.findall("\((.*?)\)",Line
以(开始,以)结束,
?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
2.6 .re.search()用法
在这里插入代码片
2.7 re.sub()用法
Sentences=re.sub(r'[^\u4e00-\u9fa5]','',str(Sentences))
替换掉所有非中文字符