正则表达式:正则表达式的模块是re,它的基本语法规则就是指定一个字符序列。
导入正则表达式:
import re
正则表达式常用字符集:
.:
#表示任意匹配
import re
s = 'pyc py pyo'
res = r'py.'
print(re.findall(res,s))
输出结果:
['pyc', 'py ', 'pyo']
[]:
(1)指定一个字符集:[abc];[a-z]
>>> s = 'tip top tap tep'
>>> res = r't[io]p'
>>> re.findall(res,s)
['tip', 'top']
(2)元字符在[]中不起作用:[akm$]
(3)补齐匹配不在区间范围的字符:[^5] #取反,即:取出不是数字5的字符
^:
#它出现在非[]中含义是匹配行首;若^出现中[]中,则表示取反
>>> r = r'^abc' #以abc开头字符串
>>> re.findall(r,'aaabc')
[]
>>> re.findall(r,'abc3')
['abc']
>>> re.findall(r,'^abc3')
[]
$:
#它出现在非[]中含义是匹配行尾
>>> s = '123abc456eabc789'
>>> re.findall(r'789$',s)
['789']
\:
#转义符
>>> r = r'\^abc' #转义后面的^为一个普通字符,并非匹配行首的意思
>>> re.findall(r,'^abc3')
['^abc']
>>> re.findall(r,'abc3')
[]
\d #匹配数字[0-9]
\D #匹配非数字[^0-9]
\s #匹配空白字符,如回车,空格等[\t\n\f\v]
\S #匹配非空字符 [^\t\n\f\v]
\w #匹配数字和字母 [0-9a-zA-Z]
\W #匹配非数字和字母 [^0-9a-zA-Z]
例:
>>> r = r'010-\d{8}' #\d{8}表示数字重复8次
>>> re.findall(r,'010-123456789')
['010-12345678']
>>> re.findall(r,'010-1234567')
[]
|:
#任意匹配一个,它总是尝试匹配左边的表达式,一旦匹配成功则跳过匹配右边的表达式,如果|没有在括号()中,则它的范围是整个表达式。
abc|def 匹配的字符串为:abc 或者 def
*:
#将*前面的字符重复0次或多次
>>> r = r'ab*'
>>> re.findall(r,'a') #重复b零次
['a']
>>> re.findall(r,'ab') #重复b一次
['ab']
>>> re.findall(r,'abb') #重复b两次
['abb']
>>> re.findall(r,'abbbbbb') #重复多次b
['abbbbbb']
+:
#将+前面的字符重复1次或多次(即:至少重复一次)
>>> r = r'ab+'
>>> re.findall(r,'a')
[]
>>> re.findall(r,'ab')
['ab']
>>> re.findall(r,'abbb')
['abbb']
?:
#将?前面的字符重复0次或1次,用于表示可选项,即可有可无的字符
>>> r = r'010-?\d{8}$'
>>> re.findall(r,'010-12345678')
['010-12345678']
>>> re.findall(r,'01012345678')
['01012345678']
(.+?):
#提取单个位置的字符串
例1:提取字符串'a123b'中的'123'
import re
str = 'a123b'
r = r'a(.+?)b'
res = re.findall(r,str)
print(res)
输出结果:
['123']
例2:提取字符串'a123bc456d'中,从a到d之间数字部分
import re
str = 'a123b456d'
r = 'a(\d+)b(\d+)d'
res = re.findall(r,str)
print(res)
输出结果
[('123', '456')]
例3:匹配多行
import re
str = 'a123\nb456\nd789'
r = r'a(\d+).b(\d+).d(\d+)'
res = re.findall(r,str,re.S) #加上re.S让.匹配包括换行符在内的所有字符
print(res)
输出结果:
[('123', '456', '789')]
{m}:
#m为数字 #重复{}前面字符m次
{m,n} m,n为数字 #表示最小重复m次,最多重复n次
>>> r = r'a{1,3}'
>>> re.findall(r,'a')
['a']
>>> re.findall(r,'aa')
['aa']
>>> re.findall(r,'aaa')
['aaa']
>>> re.findall(r,'aaaa')
['aaa', 'a']
(?:):
#无捕获组:将一部分规则最为一个整体对它进行操作
(?#):
#注释:写入注释
特殊字符类:
. : #匹配除 "\n" 之外的任何单个字符,如果要匹配\n,使用[.\n]
\d: #匹配一个数字字符[0-9]
\D: #匹配非数字集合[^0-9]
\s: #匹配任何空白字符,包括空格,制表符,换页符等[\f\n\r\t\v]
\S: #匹配非空白字符[^\f\n\r\t\v]
\w: #匹配字母数字下划线任何单字符[A-Za-z0-9_]
\W: #匹配任何非单词字符[^A-Za-z0-9_]
编译正则表达式:可以实现匹配速度提高
>>> import re
>>> p = re.compile('ab*') #编译正则表达式
>>> p.findall('abbbb') #调用
['abbbb']
执行匹配:
(1)match():#匹配元素在该字符串中开始的位置,如果匹配则返回一个对象,否则返回为空。
>>> r = re.compile(r'cctv',re.I)
>>> r.match('cctv hello') #匹配对象在起始位置
<_sre.SRE_Match object at 0x00000000032B15E0>
>>> r.match('hello cctv') #匹配对象不在起始位置
>>> #返回空
(2)search() : #扫描整个字符串,并返回第一个匹配的项。
>>> cctv_re = re.compile(r'cctv',re.I)
>>> cctv_re.search('hello cctv')
<_sre.SRE_Match object at 0x00000000033305E0>
>>> cctv_re.search('cctv hello')
<_sre.SRE_Match object at 0x0000000003330648>
>>> cctv_re.search('hello cctv hello')
<_sre.SRE_Match object at 0x00000000033305E0> #只要匹配re规则,就会返回第一个匹配的对象,无论元素位置在哪。
(3)findall(): #返回字符串中所有匹配re的项。
模块级函数:
(1)sub() #替换
>>> r = r'c..v'
>>> re.sub(r,'python','ccav cctv ccsv cccc') #r表示前面定义的正则表达式,'python'为替换后的字符串,'ccav cctv...'表示原字符串。
'python python python cccc' #匹配正则表达式的内容都会被替换
(2)subn() #替换多次
>>> s = 'ccav cctv ccsv ssrv svvv'
>>> r = r's..v'
>>> re.subn(r,'aaa',s,1)
('ccav cctv ccsv aaa svvv', 1) #只有第一个匹配到的项被替换成'aaa',虽然后svvv也符合re,但匹配次数设置的为是1,所以不替换。
(3)split() #切割
>>> ip = '192.168.1.1'
>>> re.split(r'\.',ip)
['192', '168', '1', '1'] #以.分割字符串
编译标志:
(1)re.S #使.匹配包括行在内的所有字符,包括换行等字符
>>> import re
>>> r = r'cctv.net'
>>> re.findall(r,'cctv%net')
['cctv%net']
>>> re.findall(r,'cctvanet')
['cctvanet']
>>> re.findall(r,'cctv\nnet')
[]
>>> re.findall(r,'cctv\nnet',re.S)
['cctv\nnet']
(2)re.I #使匹配对大小写不敏感
>>> cctv_re = re.compile(r'cctv',re.I) #忽略大小写
>>> cctv_re.findall('CCTV')
['CCTV']
>>> cctv_re.findall('cctv')
['cctv']
>>> cctv_re.findall('ccTV')
['ccTV']
(3)re.L #使本地化识别匹配日、法语等
(4)re.M #多行匹配,影响^和$。当一个字符串有很多行时,匹配时就需要用M参数
>>> s = r'''
hello cctv
cctv hello
hello cctv hello
cctv hi
'''
>>> r = r'^cctv'
>>> re.findall(r,s)
[]
>>> s
'\nhello cctv\ncctv hello\nhello cctv hello\ncctv hi\n'
>>> re.findall(r,s,re.M)
['cctv', 'cctv']
(5)re.X #该标志通过给予你更灵活的格式,以便你将正则表达式写得更易于理解
>>> tel = r'''
\d{3,4}
-?
\d{8}
'''
>>> re.findall(tel,'010-12345678')
[]
>>> tel
'\n\\d{3,4}\n-?\n\\d{8}\n'
>>> re.findall(tel,'010-12345678',re.X)
['010-12345678']
分组:只提取分组部分内容
例1:匹配邮箱地址,结尾是.com或.cn
>>> email = r'\w+@\w+(\.com|\.cn)'
>>> re.match(email,'aaa@bbbb.com')
<_sre.SRE_Match object at 0x0000000003237558>
>>> re.match(email,'aaa@bbbb.cn')
<_sre.SRE_Match object at 0x00000000032375D0>
>>> re.match(email,'aaa@bbbb.net')
>>>
>>> re.findall(email,'aaa@bbbb.com')
['.com'] #分组原因,返回分组的内容
例2:如果想提取s字符串中以cctv开头,后面的值
>>>s = '''
hello cctv
cctv hello
hello cctv hello
cctv hi
'''
>>> r = r'cctv (.+)'
>>> re.findall(r,s)
['hello', 'hello', 'hi']
例3:小爬虫:下载贴吧或空间中所有图片
#!/usr/bin/python
import re
import urllib
def getHTML(url): #下载整个链接的url
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html): #过滤,只下载.jpg的图片
reg = r'src="(.*?\.jpg)" width'
imgre = re.compile(reg) #做编译,为了运行的更快
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x += 1
html = getHTML('http://tieba.baidu.com/p/4760488708')
getImg(html)
正则表达式常用方式:
整数(包括正整数和负整数): ^-?\d+$
正整数: ^[0-9]*[1-9][0-9]*$
负整数:^-[0-9]*[1-9][0-9]*$
非正整数(负整数和零):^((-\d+)|0+))$
非负整数(正整数和零):^(\d)|(0+)$
正浮点数:^((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
负浮点数:^((-((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
非负浮点数:^\d+(\.\d+)?$
非正浮点数:^((-\d+\.\d+)?)|(0+(\.0+)?))$
英文字符串: ^[a-zA-Z]+$
英文大写字符串: ^[A-Z]+$
英文小写字符串: ^[a-z]+$
英文加数字字符串: ^[a-zA-Z0-9]+$
英文数字加下划线: ^\w+$
E-mail地址: ^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$
URL: ^[a-zA-Z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\s*)?$ 或: ^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+!]*([^<>\"\"])*$
邮政编码: ^[1-9]\d{5}$
中文: ^[\u0391-\uFFE5]+$
电话号码: ^((\d2,3)|(\d{3}\-))?(0\d2,3|0\d{2,3}-)?[1-9]\d{6,7}(\-\d{1,4})?$
手机号码: ^((\d2,3)|(\d{3}\-))?13\d{9}$
匹配首尾空格: (^\s*)|(\s*$)
匹配HTML标记: <(.*)>.*<\/\1>|<(.*) \/>
匹配空行: \n[\s| ]*\r
提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
提取信息中的图片链接:(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
提取信息中的IP地址:(\d+)\.(\d+)\.(\d+)\.(\d+)
提取信息中的中国手机号码:(86)*0*13\d{9}
提取信息中的中国固定电话号码:(\d3,4|\d{3,4}-|\s)?\d{8}
提取信息中的中国电话号码(包括移动和固定电话):(\d3,4|\d{3,4}-|\s)?\d{7,14}
提取信息中的中国邮政编码:[1-9]{1}(\d+){5}
提取信息中的浮点数(即小数):(-?\d*)\.?\d+
提取信息中的任何数字 :(-?\d*)(\.\d+)?
IP:r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}"
电话区号:/^0\d{2,3}$/
腾讯QQ号:^[1-9]*[1-9][0-9]*$
帐号(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$