前言:IO在计算机中指Input/Output,也就是输入和输出。而谷歌的I\O大会指的是Innovation in the Open。同步和异步的区别就在于是否等待IO执行的结果,使用异步IO来编写程序性能会远远高于同步IO,但是异步IO的缺点是编程模型复杂。本章的IO编程都是同步模式。

8.1 文件读写

读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。

读文件

以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:

>>> f = open('/Users/michael/test.txt', 'r')

文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在。
打开成功后就可以用read()方法去读取文件内容了,返回的是以str形式。
读取完之后当然就是要关闭了,用close()方法。文件使用完毕后必须关闭,因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限的。
文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用,为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现:

try:
    f = open('/path/to/file', 'r')
    print f.read()
finally:
    if f:
        f.close()

最后就是确保finally能够使得读取的文件关闭。
但是每次都这么写实在太繁琐,所以,Python引入了with语句来自动帮我们调用close()方法:

with open('/path/to/file', 'r') as f: #自动关了?
    print f.read()

调用read()会一次性读取文件的全部内容,如果文件有10G,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容。另外,调用readline()可以每次读取一行内容,调用readlines()一次读取所有内容并按行返回list。因此,要根据需要决定怎么调用。
如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()(有了个s)最方便:

for line in f.readlines():
    print(line.strip()) # 把末尾的'\n'删掉

file-like Object

open()函数返回的这种有个read()方法的对象,在Python中统称为file-like Object。还有内存的字节流,网络流,自定义流等等。

二进制文件

要读取二进制文件,比如图片、视频等等,用'rb'模式打开文件即可。

字符编码

要读取非ASCII编码的文本文件,就必须以二进制模式打开,再解码,比如GBK编码,而Python提供了一个codecs模块帮我们在读文件时自动转换编码,直接读出unicode:

import codecs
with codecs.open('/Users/michael/gbk.txt', 'r', 'gbk') as f:
    f.read() # u'\u6d4b\u8bd5'

写文件

写文件和读文件是一样的,唯一区别是调用open()函数时,传入标识符'w'或者'wb'表示写文本文件或写二进制文件,可以反复调用write()来写入文件,但是务必要调用f.close()来关闭文件。还是用with语句来得保险:

with open('/Users/michael/test.txt','w') as f:
    f.write('Hello,world!')

写入特定编码的文本文件,比如unicode编码:

8.2 操作文件和目录

Python内置的os模块可以直接调用操作系统提供的接口函数,uname()函数在Windows上不提供,也就是说,os模块的某些函数是跟操作系统相关的。

环境变量

在操作系统中定义的环境变量,全部保存在os.environ这个dict中,可以直接查看,要获取某个环境变量的值,可以调用os.getenv()函数。
操作文件和目录的函数一部分放在os模块中,一部分放在os.path模块中,查看、创建和删除目录可以这么调用:

# 查看当前目录的绝对路径:  #这些在PowerShell里也有手段操作
>>> os.path.abspath('.')
'/Users/michael'
# 在某个目录下创建一个新目录,
# 首先把新目录的完整路径表示出来:   
>>> os.path.join('/Users/michael', 'testdir')
'/Users/michael/testdir'
# 然后创建一个目录:
>>> os.mkdir('/Users/michael/testdir')
# 删掉一个目录:
>>> os.rmdir('/Users/michael/testdir')

把两个路径合成一个时,不要直接拼字符串,而要通过os.path.join()函数,这样可以正确处理不同操作系统的路径分隔符。不同系统有区别。同样的道理,要拆分路径时,也不要直接去拆字符串,而要通过os.path.split()函数,这样可以把一个路径拆分为两部分,后一部分总是最后级别的目录或文件名:

>>> os.path.split('/Users/michael/testdir/file.txt')
('/Users/michael/testdir', 'file.txt')

os.path.splitext()可以直接让你得到文件扩展名,很多时候非常方便:

>>> os.path.splitext('/path/to/file.txt')
('/path/to/file', '.txt')

这些合并、拆分路径的函数并不要求目录和文件要真实存在,它们只对字符串进行操作
文件操作使用下面的函数:

# 对文件重命名:
>>> os.rename('test.txt', 'test.py')
# 删掉文件:
>>> os.remove('test.py')

shutil模块提供了copyfile()的函数,并且还可以在shutil模块中找到很多实用函数,它们可以看做是os模块的补充。
如何利用Python的特性来过滤文件。比如我们要列出当前目录下的所有目录,只需要一行代码:

>>> [x for x in os.listdir('.') if os.path.isdir(x)]
['.lein', '.local', '.m2', '.npm', '.ssh', '.Trash', '.vim', 'Adlm', 'Applications', 'Desktop', ...]
#通过列表生成式,下面是列出扩展名相同的文件
>>> [x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
['apis.py', 'config.py', 'models.py', 'pymonitor.py', 'test_db.py', 'urls.py', 'wsgiapp.py']

编写一个search(s)的函数,能在当前目录以及当前目录的所有子目录下查找文件名包含指定字符串的文件,并打印出完整路径:

import os   #采用递归
text = raw_input('>please input what you want:')
def search(text,relative_path = '.'):
    for items in os.listdir(relative_path):
        if '.' in os.path.splitext(items)[1] and ' ' not in os.path.splitext(items):
            if text in items:
                print relative_path.strip('.'),items
        else:
            search(text,relative_path = os.path.join(relative_path,items))

8.3 序列化

我们把变量从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattening等等,反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化,即unpickling。
Python提供两个模块来实现序列化:cPicklepickle。这两个模块功能是一样的,区别在于cPickle是C语言写的,速度快,pickle是纯Python写的,速度慢,跟cStringIOStringIO一个道理。用的时候,先尝试导入cPickle,如果失败,再导入pickle

try:
    import cPickle as pickle
except ImportError:
    import pickle
    print 'runing with pickle'
>>> d= dict(name='Peter',age = 24,score = 100)
>>> pickle.dumps(d)  #序列化一个对象,变成str类型,就可以写入文件了
"(dp1\nS'age'\np2\nI24\nsS'score'\np3\nI100\nsS'name'\np4\nS'Peter'\np5\ns."
>>> f = open('dump.txt', 'wb')
>>> pickle.dump(d, f) #pickle.dump()直接把对象序列化后写入一个file-like Object
>>> f.close()

如果要读取str类型的数据,可以用pickle.loads()或者pickele.load()方法,用法类似。
只能用Pickle保存那些不重要的数据,不能成功地反序列化也没关系。

JSON

将对象序列化为JSON可以在不同的编程语言之间传递对象,当然,XML也可以。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。

JSON类型

Python类型

{}

dict

[]

list

“string”

‘str’或u’unicode’

1234.56

int或float

true/false

True/False

null

None

Python内置的json模块提供了非常完善的Python对象到JSON格式的转换。

>>> import json
>>> json.dumps(d)
'{"age": 24, "score": 100, "name": "Peter"}'

同样是写成一个字符串,dumps()dump()用法和之前的pickle一样。反序列化也是如此。有一点需要注意,就是反序列化得到的所有字符串对象默认都是unicode而不是str。由于JSON标准规定JSON编码是UTF-8,所以我们总是能正确地在Python的strunicode与JSON的字符串之间转换。

JSON进阶

对于json.dumps()这一方法,官方文档对其参数有很好的说明:https://docs.python.org/2/library/json.html#json.dumps
可选参数default就是把任意一个对象变成一个可序列为JSON的对象,我们只需要为json无法转换的类型专门写一个转换函数,再把函数传进去即可。比如一个Sudent类:

import json

class Student(object):
    def __init__(self, name, age, score):
        self.name = name
        self.age = age
        self.score = score

s = Student('Bob', 20, 88)

def student2dict(std):
    return {
        'name': std.name,
        'age': std.age,
        'score': std.score
    }

print(json.dumps(s, default=student2dict))

不过,下次如果遇到一个Teacher类的实例,照样无法序列化为JSON。我们可以偷个懒,把任意class的实例变为dict:

print(json.dumps(s, default=lambda obj: obj.__dict__))

因为通常class的实例都有一个·__dict__属性,它就是一个dict,用来存储实例变量。也有少数例外,比如定义了__slots__的class。
关于反序列化:

def dict2student(d): #同样需要先编写一个函数
    return Student(d['name'], d['age'], d['score'])

json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student)) #运用到了object_hook函数

<__main__.Student object at 0x10cd3c190> #输出的是实例对象

关于json.loads()方法的介绍:https://docs.python.org/2/library/json.html#json.loads
综上,还是熟练掌握JSON吧!