一、字符串处理
python分割字符串
Python中有split()和os.path.split()两个函数,具体作用如下:
- split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list)
- os.path.split():按照路径将文件名和路径分割开
1、split()函数
>>>str = 'aas,sgsgwe,sagwe,dfgxzsf,wagwr'
#使用默认分隔符
>>>print(str.split())
['aas,sgsgwe,sagwe,dfgxzsf,wagwr']
#使用‘,’分隔符
>>>print(str.split(','))
['aas', 'sgsgwe', 'sagwe', 'dfgxzsf', 'wagwr']
#分割0次
>>>print(str.split(',',0))
['aas,sgsgwe,sagwe,dfgxzsf,wagwr']
#分割1次
>>>print(str.split(',',1))
['aas', 'sgsgwe,sagwe,dfgxzsf,wagwr']
#分割两次,并取序列为1的项
>>>print(str.split(',',2)[1])
sgsgwe
#分割最多次,可以不加参数
>>>print(str.split(',',-1))
['aas', 'sgsgwe', 'sagwe', 'dfgxzsf', 'wagwr']
#分割两次,并把三部分保存到三个变量里面
>>>str1,str2,str3 = str.split(',',2)
>>>print(str1)
aas
>>>print(str2)
sgsgwe
>>>print(str3)
sagwe,dfgxzsf,wagwr
2、os.path.split()函数
以“/”为分隔符进行路径的分割和提取最后一个“/”后面的路径or文件内容
>>>import os
>>>print(os.path.split('E:\\data\\db\\journal\\'))
('E:\\data\\db\\journal', '')
>>>print(os.path.split('E:\\data\\db\\journal'))
('E:\\data\\db', 'journal')
3、一个例子
>>> str="hello boy<[www.doiido.com]>byebye"
>>> print str.split("[")[1].split("]")[0]
www.doiido.com
>>> print str.split("[")[1].split("]")[0].split(".")
['www', 'doiido', 'com']
python字符串补充
>>>str = '''kkk
...hello
...world'''
>>>c
'kkk\nhello\nworld'
>>>print(c)
kkk
hello
world
二、文件读写
读写文件模式:
1、r 打开只读文件,该文件必须存在。
2、r+ 打开可读写的文件,该文件必须存在。
3、w 打开只写文件,若文件存在则文件长度清为0,即该文件内容会消失。若文件不存在则建立该文件。
4、w+ 打开可读写文件,若文件存在则文件长度清为0,即该文件内容会消失。若文件不存在则建立该文件。
5、a 以附加的方式打开只写文件。若文件不存在,则会建立该文件,如果文件存在,写入的数据会被加到文件尾,即文件原先的内容会被保留。
6、a+ 以附加方式打开可读写的文件。若文件不存在,则会建立该文件,如果文件存在,写入的数据会被加到文件尾后,即文件原先的内容会被保留。
7、上述的形态字符串都可以再加一个b字符,如rb、w+b或ab+等组合,加入b 字符用来告诉函数库打开的文件为二进制文件,而非纯文字文件。
8、t是windows平台特有的所谓text mode(文本模式),区别在于会自动识别windows平台的换行符。
类Unix平台的换行符是\n,而windows平台用的是\r\n两个ASCII字符来表示换行,python内部采用的是\n来表示换行符。
rt模式下,python在读取文本时会自动把\r\n转换成\n.
wt模式下,Python写文件时会用\r\n来表示换行。
读文件
要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:
f = open('/Users/michael/test.txt', 'r')
如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在。
如果文件打开成功,接下来,调用read()方法可以一次读取文件的全部内容,Python把内容读到内存,用一个str对象表示:
print(f.read())
结果:
'Hello, world!'
最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭,因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限的:
f.close()
由于文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用。所以,为了保证无论是否出错都能正确地关闭文件,我们可以使用try … finally来实现:
try:
f = open('/path/to/file', 'r')
print(f.read())
finally:
if f:
f.close()
但是每次都这么写实在太繁琐,所以,Python引入了with语句来自动帮我们调用close()方法:
with open('/path/to/file', 'r') as f:
print(f.read())
调用read()会一次性读取文件的全部内容,如果文件有10G,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容。另外,调用readline()可以每次读取一行内容,调用readlines()一次读取所有内容并按行返回list。因此,要根据需要决定怎么调用。
二进制文件也可以用readline,要想让二进制文件正常显示,要加上decode(‘utf-8’)
例如:str = readline().decode(‘utf-8’)
如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便:
for line in f.readlines():
print(line.strip()) # 把末尾的'\n'删掉
写文件
写文件和读文件是一样的,唯一区别是调用open()函数时,传入标识符’w’或者’wb’表示写文本文件或写二进制文件:
f = open('/Users/michael/test.txt', 'w')
f.write('Hello, world!')
f.close()
你可以反复调用write()来写入文件,但是务必要调用f.close()来关闭文件。当我们写文件时,操作系统往往不会立刻把数据写入磁盘,而是放到内存缓存起来,空闲的时候再慢慢写入。只有调用close()方法时,操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了。所以,还是用with语句来得保险:
with open('/Users/michael/test.txt', 'w') as f:
f.write('Hello, world!')
字符编码
要写入特定编码的文本文件,请给open()函数传入encoding参数,将字符串自动转换成指定编码。
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
遇到有些编码不规范的文件,你可能会遇到UnicodeDecodeError,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况,open()函数还接收一个errors参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
以’w’模式写入文件时,如果文件已存在,会直接覆盖(相当于删掉后新写入一个文件)。如果我们希望追加到文件末尾怎么办?可以传入’a’以追加(append)模式写入。
csv文件读写
读csv文件用reader()
import csv
with open("test.csv","r") as csvfile:
reader = csv.reader(csvfile)
#这里不需要readlines
for line in reader:
print(line)
写csv文件
import csv
#python2可以用file替代open
with open("test.csv","w") as csvfile:
writer = csv.writer(csvfile)
#先写入columns_name
writer.writerow(["index","a_name","b_name"])
#写入多行用writerows
writer.writerows([[0,1,3],[1,2,3],[2,3,4]])
结果:
index a_name b_name
0 1 3
1 2 3
2 3 4
此外,还可以利用pandas包对文件进行读写
三、 数据类型转换
表达式 | 作用 |
int(x [,base ]) | 将x转换为一个整数 |
long(x [,base ]) | 将x转换为一个长整数 |
float(x ) | 将x转换到一个浮点数 |
complex(real [,imag ]) | 创建一个复数 |
str(x ) | 将对象 x 转换为字符串 |
repr(x ) | 将对象 x 转换为表达式字符串 |
eval(str ) | 用来计算在字符串中的有效Python表达式,并返回一个对象 |
tuple(s ) | 将序列 s 转换为一个元组 |
list(s ) | 将序列 s 转换为一个列表 |
chr(x ) | 将一个整数转换为一个字符 |
unichr(x ) | 将一个整数转换为Unicode字符 |
ord(x ) | 将一个字符转换为它的整数值 |
hex(x ) | 将一个整数转换为一个十六进制字符串 |
oct(x ) | 将一个整数转换为一个八进制字符串 |
四、 from gensim.models import word2vec
出现以下warning:
UserWarning: detected Windows; aliasing chunkize to chunkize_serial
warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
解决问题,加上这两行:
import warnings
warnings.filterwarnings(action = 'ignore', category = UserWarning, module = 'gensim')
五、 Numpy操作
返回numpy中array元素的index值
import numpy as np
array = np.array([3,5,7,2,8,0,9,45,0])
index = np.argwhere(array == 0)
print(index)
结果:
[[5]
[8]]