1.文本读写
Python的文件操作接口属于简单易用型的,利用open函数打开文件之后就可以进行操作了,也可以用print重定向输出到文件。
file_path=r'./测试文件.txt'
#1-写文件
#文本模式可以不加t,二进制读写需要加b
#with语句打开文件是能结束时自动关闭的,如果不用with记得手动关闭
with open(file_path,'w+',encoding='utf8') as f:
f.write('这是一行中文\n')
f.write('Test write text\n')
#输出重定向到文件文件必须是以文本模式打开。
#如果文件是二进制模式的话,打印就会出错。
print('Hello World!', file=f)
#2-读取文件
#读取时需要用与文本兼容的编码打开,否则会抛异常
with open(file_path,'r',encoding='utf8') as file:
#read可以指定最大读取字符数,如file.read(10)
data=file.read()
print('file encoding:'+file.encoding)
print('file text:'+data)
对于open函数,原型为open(name[, mode[, buffering]]),其中:
- name为文件路径
- mode为打开模式,如'rt'只读文本模式
- buffering表示寄存设置,如果 buffering 的值被设为 0,就不会有寄存。如果 buffering 的值取 1,访问文件时会寄存行。如果将 buffering 的值设为大于 1 的整数,表明了这就是的寄存区的缓冲大小。如果取负值,寄存区的缓冲大小则为系统默认。
mode参数:
t | 文本模式 (默认)。 |
x | 写模式,新建一个文件,如果该文件已存在则会报错。 |
b | 二进制模式。 |
+ | 打开一个文件进行更新(可读可写)。 |
U | 通用换行模式(不推荐)。 |
r | 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 |
rb | 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。 |
r+ | 打开一个文件用于读写。文件指针将会放在文件的开头。 |
rb+ | 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。一般用于非文本文件如图片等。 |
w | 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。 |
wb | 以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。 |
w+ | 打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。 |
wb+ | 以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。 |
a | 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
ab | 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
a+ | 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。 |
ab+ | 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。 |
open函数会创建一个file对象。
file对象常用方法:
close() | 关闭文件。关闭后文件不能再进行读写操作。 |
flush() | 刷新文件内部缓冲,直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。 |
next() | 返回文件下一行。 |
read([size]) | 从文件读取指定的字符数,如果未给定或为负则读取所有。 |
readline([size]) | 读取整行,包括 "\n" 字符。 |
readlines([sizeint]) | 读取所有行并返回列表,若给定sizeint>0,则是设置一次读多少字节,这是为了减轻读取压力。 for line in file: print line :通过迭代器访问。 |
seek(offset[,whence]) | 设置文件当前位置 |
tell() | 返回文件当前位置。 |
truncate([size]) | 截取文件,截取的字节通过size指定,默认为当前文件位置。 |
wirte(str) | 将字符串写入文件,返回的是写入的字符长度。 |
writelines(sequence) | 向文件写入一个序列字符串列表,如果需要换行则要自己加入每行的换行符。 |
2.路径及文件名操作
可以使用os.path模块进行路径及文件名操作
import os
path='./测试文件.txt'
#文件名
print(os.path.basename(path))
#绝对路径
print(os.path.abspath(path))
#是否为文件
print(os.path.isfile(path))
#是否存在
print(os.path.exists(path))
os.path常用方法:
abspath(path) | 返回绝对路径 |
basename(path) | 返回文件名 |
commonprefix(list) | 返回list(多个路径)中,所有path共有的最长的路径 |
dirname(path) | 返回文件路径 |
exists(path) | 如果路径 path 存在,返回 True;如果路径 path 不存在,返回 False。 |
getatime(path) | 返回最近访问时间(浮点型秒数) |
getmtime(path) | 返回最近文件修改时间 |
getctime(path) | 返回文件 path 创建时间 |
getsize(path) | 返回文件大小,如果文件不存在就返回错误 |
isabs(path) | 判断是否为绝对路径 |
isfile(path) | 判断路径是否为文件 |
isdir(path) | 判断路径是否为目录 |
islink(path) | 判断路径是否为链接 |
ismount(path) | 判断路径是否为挂载点 |
join(path1[, path2[, ...]]) | 把目录和文件名合成一个路径 |
normcase(path) | 转换path的大小写和斜杠 |
samefile(path1, path2) | 判断目录或文件是否相同 |
sameopenfile(fp1, fp2) | 判断fp1和fp2是否指向同一文件 |
samestat(stat1, stat2) | 判断stat tuple stat1和stat2是否指向同一个文件 |
split(path) | 把路径分割成 dirname 和 basename,返回一个元组 |
3.编码判断
读取文本的时候如果编码不兼容会抛异常,可以借助chardet模块判断文本编码。
#import codecs 编码转换
import os
import chardet
#如果安装了Anaconda,chardet就已经可用了。
#否则,需要自己pip install chardet
def detectCode(path):
with open(path, 'rb') as file:
data = file.read(2000) #最多2000个字符
dicts = chardet.detect(data)
return dicts
print(detectCode(file_path))
#输出格式如{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
#confidence字段为概率,最大为1.0
(主要参考Python文档及菜鸟教程,就不给链接了)