python读hdfs python读取hdfs文件_hdfs用fileutil读取文件内容



我们知道,当你把一个资源文件和一个.py文件放在一起的时候,你可以直接在这个.py文件中,使用文件名读取它。例如:

with open('test.txt') as f:
    content = f.read()
print('文件中的内容为:', content)

运行效果如下图所示:



python读hdfs python读取hdfs文件_python open 相对路径_02

但请注意,这里我是直接运行的read.py这个文件。如果资源文件是存放在一个包(package)里面,然后我们在外面调用这个包里面的.py文件会怎么样呢?我们试一试:



python读hdfs python读取hdfs文件_hdfs用fileutil读取文件内容_03

可以看到,现在Python 已经找不到这个文件了。这是因为,我们的入口程序在 ~/get_title文件夹中,而test.txt文件在~/get_title/util文件夹中。因为我们运行的是main.py,所以 Python 会在~/get_title文件夹里面寻找test.txt,自然就找不到了。

如果是引用包里面的其他模块,可以使用相对路径。例如引用同一个包里面名叫sql_util.py里面的conn对象,我们可以直接写为from .sql_util import conn。但是资源文件不能使用相对路径来读取,如下图所示:



python读hdfs python读取hdfs文件_python open 相对路径_04

有一个笨办法,就是获取当前正在运行的这一行代码所在的文件夹,然后拼出资源文件的完整路径。修改 read.py 文件:

import os

def read_file():
    current_folder = os.path.dirname(__file__)
    resource_path = os.path.join(current_folder, 'test.txt')
    with open(resource_path) as f:
        content = f.read()
    print('文件中的内容为:', content)

运行效果如下图所示:



python读hdfs python读取hdfs文件_hdfs用fileutil读取文件内容_05

但这样写稍显麻烦。

如果你的 Python 版本不低于3.7,那么你可以使用importlib.resources来快速读取资源文件:

from importlib import resources
with resources.open_text('包名', '资源路径') as f:
    content = f.read()

运行效果如下图所示:



python读hdfs python读取hdfs文件_python 读取pkl文件_06

如果你读取的不是文本文件,那么你可以把resources.open_text改成resources.open_binary,从而读取二进制文件。

但需要注意的是,资源文件必须放在包的根目录。这样才能正确读取。如果资源文件在包内部的子目录中,importlib.resources是不能直接读取的。

例如我们的包为util,里面有一个文件夹叫做deep_folder,资源文件test.txt放在deep_folder中,此时,我们如果要读取这个资源文件,就必须把在deep_folder文件夹中创建一个__init__.py,把它也变成一个包。然后修改read.py的代码:

from importlib import resources
from . import deep_folder


def read_file():
    with resources.open_text(deep_folder, 'test.txt') as f:
        content = f.read()
    print('文件中的内容为:', content)

deep_folder作为一个 module 导入,然后把这个 module 作为resources.open_text的第一个参数。这样才能正确读取,如下图所示:



python读hdfs python读取hdfs文件_python 读取pkl文件_07