python 关于文件和文件夹的操作
- 1、关于文件的常用操作
- 1.1文件的打开与关闭
- 1.2 文件的读写
- 1.2.1 读文件
- 1.2.2 写文件
- 1.3 文件编码的查看与更改
- 1.4 文件大小的查看
- 1.5 获得文件
- 1.5.1 根据URL 获得文件
- 2、关于文件夹的常用操作
- 2.1 遍历文件夹,获得其文件
- 2.2 创建文件夹 os.makedirs()
- 参考文章
这里,将python 对于文件和文件夹的我常用的操作进行一次汇总,以方便日后自己和大家的使用。
代码实例部分改编自网络,除引用处声明外,将在文末集中感谢。
1、关于文件的常用操作
1.1文件的打开与关闭
f=open(InP,encoding='gb2312',errors='ignore')
……
f.close()
或者
with open(InP,encoding='gb2312',errors='ignore') as f:
……
1.2 文件的读写
1.2.1 读文件
f=open(InP,encoding='gb2312',errors='ignore')
for line in f:
line=line.strip()
f.close()
1.2.2 写文件
o = open(OutP)
print(string,file=o)
o.close()
1.3 文件编码的查看与更改
有的时候我们需要批量的查看文件的编码,并批量的更改,下面的代码改编于
import os
from chardet.universaldetector import UniversalDetector
'''
chardet的子模块chardet.universaldetector。
这个模块允许我们分多次(逐行读取或者自行断行读取)检测文本的编码格式,
当达到一定的阈值时便可以提前退出检测。
'''
def get_filelist(path):
Filelist = []
for home, dirs, files in os.walk(path):
for filename in files:
# 文件名列表,包含完整路径
if ".txt" in filename:
Filelist.append(os.path.join(home, filename))
# # 文件名列表,只包含文件名
# Filelist.append( filename)
return Filelist
def get_encode_info(file):
'''
获得文本的编码信息
'''
with open(file, 'rb') as f:
detector = UniversalDetector()
for line in f.readlines():
detector.feed(line) # 逐行载入UniversalDetector对象中进行识别
if detector.done: # done为一个布尔值,默认为False,达到阈值时变为True
break
detector.close() # 调用该函数做最后的数据整合
return detector.result['encoding']
def read_file(file):
'''
读取并返回文件内容
'''
with open(file, 'rb') as f:
return f.read()
def write_file(content, file):
'''
将内容写入文本
'''
with open(file, 'wb') as f:
f.write(content)
def convert_encode(file, original_encode, des_encode):
'''
更改文件编码
'''
file_content = read_file(file)
file_decode = file_content.decode(original_encode,'ignore')
file_encode = file_decode.encode(des_encode)
write_file(file_encode, file)
if __name__ == "__main__":
#文件夹目录
filePath = r'E:\temp\temp\\'
#获得文件地址
Filelist = get_filelist(filePath)
#想要的编码格式
encode_want = 'utf-8'
#处理
for filename in Filelist:
#读取文件内容
file_content = read_file(filename)
#获取文件编码信息
encode_info = get_encode_info(filename)
print('old:',encode_info)
#如果不是我们指定的编码格式,则进行修改
if encode_info != encode_want:
convert_encode(filename, encode_info, encode_want)
#获得文件新的编码信息
encode_info = get_encode_info(filename)
print('new:',encode_info)
1.4 文件大小的查看
我们有的时候在处理完文件后,也许需要一个反馈,比如文件的大小,又或者更改前后文件的大小对比
Python 3.8.1
>>> import os
>>> path = r'E:\Corpus\UCI_MachineLearningRepository\00196\ConfLongDemo_JSI.txt'
>>> os.path.getsize(path)
21546346
>>> print('File size = %.2f Mb' % (os.path.getsize(path)/1024/1024))
File size = 20.55 Mb
1.5 获得文件
当我们需要处理文本的时候,大多是基于我们已经有了一些文件,然后再去处理。但是,也会有一些例外,即,我们需要先获得这些文件,然后再对齐进行处理。
1.5.1 根据URL 获得文件
from urllib.request import urlretrieve
urlretrieve(url, savepath)
2、关于文件夹的常用操作
2.1 遍历文件夹,获得其文件
当我们批量对文件处理时,难免遇到对同一个文件夹下大批量的文件进行处理,因此,如果可以快速获得所有文件的路径,就可以快速对所有的文件批量处理。
- 第一种 os.listdir()方法
def get_files_path(file_list):
'''
file_list:文件夹的绝对路径
return:文件的绝对路径,list
'''
files_path=[]
filenames = os.listdir(file_list)
for filename in filenames:
filepath = file_list + filename
files_path.append(filepath)
return files_path
- 第二种os.walk()方法
def get_files_path(InP):
'''
InP:目标文件夹
return:files_path,list,存储所有文件的绝对路径
'''
#存放文件路径
files_path=[]
for root, dirs, files in os.walk(InP, topdown=False):
# root 表示当前正在访问的文件夹路径
# dirs 表示该文件夹下的子目录名list
# files 表示该文件夹下的文件list
#遍历所有的文件夹
for name in dirs:
print(os.path.join(root, name))
# 遍历文件
for name in files:
# print(len(os.path.join(root, name)))
files_path.append(os.path.join(root, name))
print('已获得文件夹内文件地址的数量:',len(files_path))
return files_path
2.2 创建文件夹 os.makedirs()
在批量写入文件的时候,我们会遇到将不同的文件创建到不同文件夹下,下面的这个代码就是为创建文件夹而copy过来的。
def mkdir(path):
'''
创建指定文件夹目录,为单个的数据集创建文件夹
---
path:想要创建的文件夹路径
'''
path=path.strip()# 去除首位空格
path=path.rstrip("\\")# 去除尾部 \ 符号
# 判断路径是否存在: 存在,True;不存在,False
isExists=os.path.exists(path)
# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
print(path+' 创建成功')
return True
else:
# 如果目录存在则不创建,并提示目录已存在
print(path+' 目录已存在')
return False
参考文章
1、Python创建目录文件夹
2、[Python模块学习]chardet模块识别字节包编码
3、python3的urlretrieve()方法的作用与使用(入门)