文件对象的获取
Python中读写文件是通过文件对象实现的,而文件对象是由内置函数open(filename, mode)获取。open函数有两个参数:第一个参数是一个包含文件名的字符串。第二个参数用于描述文件的使用模式的。当只读取文件时,模式可以是‘r’,只写入文件时为‘w’(已存在的同名文件将被删除),而‘a’将打开文件进行附加,写入文件的任何数据都会自动添加到末尾。'r+'打开文件进行读写。模式参数是可选的,如果省略了则假定为‘r’。
通常,文件是在文本模式下打开的,这意味着从文件中读取和向文件写入的是字符串,这些字符串是用特定的编码编码的。如果没有指定编码,则默认是平台相关的。如果将附加'b'到上述模式参数时则以二进制模式打开文件:数据是以字节的形式进行读取和写入,此模式应用于所有不包含文本的文件。
在文本模式下,读取方式默认是将特定于平台的行尾(Unix上的, Windows上的)转换为 。在文本模式下写入时,默认情况下将出现的转换回特定于平台的行尾。这种文件数据的幕后修改对于文本文件来说是可以的,但是会破坏像JPEG或EXE这样二进制文件的数据。在读取和写入这些文件时,要非常小心地使用二进制模式。
在用到文件对象时好的做法是使用with关键字。这样做的好处是,即使在某个时候引发了异常,文件正确地关闭。使用with也比编写等效try-finally块要短得多:
with open('testFile.txt') as f: #打开当前目录下的文件testFile.txt read_data = f.read()f.closed
如果您没有使用with关键字,那么您应该调用f.close()来关闭文件,并立即释放它所使用的任何系统资源。如果您没有显式地关闭文件,Python的垃圾收集器将最终销毁该对象并为您关闭打开的文件,但是该文件可能会保持打开状态一段时间。另一个风险是,不同的Python实现会在不同的时间进行清理。
文件对象关闭后,无论是通过with语句还是调用f.close()再次使用文件对象都会失败。
文件对象的方法
【本节其余的示例将假定已经创建了一个名为f的文件对象】
f.read(size) 用于读取文件的内容。此方法读取一些数据并以字符串(文本模式)或字节对象(二进制模式)的形式返回。size是一个可选的数字参数。当大小被省略或为负值时,将读取并返回文件的全部内容。否则,读取和返回的最多是size字符(在文本模式下)或size字节(在二进制模式下)。如果已经到达文件的末尾,f.read()将返回一个空字符串(")。注意:Python是不考略读取的字符(或字节)超出机器内存的情况的。
f.readline() 可从文件中读取一行,换行符()留在字符串的末尾,只有在文件的最后一行没有换行时才会省略。这使得返回值没有歧义:如果f.r ereline()返回一个空字符串,则文件结束,而空行由''表示,该字符串只包含一个换行符。
遍历file对象 可用于从文件中读取行。如下面是内存效率高,速度快,并且简单的代码:
for line in f: print(line, end='')
如果希望读取中文件的所有行,也可以使用list(f)或f.r adlines()。
f.write(string) 可将字符串的内容写入文件,返回写入的字符数。
注意:其他非字符串或字节类型的对象在写入文件前是需要转换的,或者转换成字符串(在文本模式下)或者转换成字节对象(在二进制模式下)。
f.tell() 返回一个整数,该整数表示文件对象在文件中的当前位置。在二进制模式下以文件开头的字节数表示。在文本模式下以不透明数字表示,该数字通常不表示底层二进制存储中的字节数。
f.seek(offset,whence) 更改文件对象的当前位置。通过向参考点添加偏移量计算位置,参考点是由where参数提供的。其中值0表示从文件开头开始,1使用当前文件位置,2使用文件结尾作为参考点。whence可以省略,若省略则默认为0,即使用文件的开头作为参考点。
【注】在文本文件中(在模式字符串中没有b的情况下打开的文件),只允许相对于文件开头的查找(异常是查找到文件末尾的seek(0,2)),惟一有效的偏移值是从f.tell()返回的值,或者是0。任何其他偏移值都会产生未定义的行为。
文件对象有一些不常用的方法,如isatty()和truncate(),这里就不作介绍,后面用到时再详细介绍。
使用json保存结构数据
字符串可以很容易地写入和读取文件。由于read()方法只返回字符串,因此读写数值需要做更多的工作:必须将字符串传递给int()这样的函数,int()接受字符串'123'并返回其数值123。当保存更复杂的数据类型(如嵌套列表和字典)时,手动解析和序列化就变得更复杂了。
Python允许您使用流行的数据交换格式JSON (JavaScript的对象表示法),这样用户就不用不断地编写和调试代码来将复杂的数据类型保存到文件中。名为json的标准模块可以将Python数据层次结构转换为字符串表示形式。这个过程称为序列化,从字符串表示形式重新构造数据称为反序列化。在序列化和反序列化之间,表示对象的字符串就可以被存储在文件或数据中,或者通过网络连接发送到某个远程机器。
【注】现代应用程序通常使用JSON格式来进行数据交换。使用它可以实现较好的互操作性。
使用json.dumps(obj)可以生成对象obj的JSON字符串形式。使用json.dump(obj,f)可以将obj的JSON字符串写入文本文件f中,从文本文件f中读出obj使用x = json.load(f)。
【结束】