数据读写

  • 数据读取基础
  • 分块读入文件
  • 将数据输出为文件


数据读取基础

将表格型数据读取为DataFrame对象是数据分析的重要一步。read_csv和read_table可能是后期我们使用的最多的函数。下面总结了书上给出的pandas中常用的解析函数。

函数

描述

read_scv

从文件、URL或文件型对象读取分隔号的数据,逗号是默认分隔符

read_table

从文件、URL或文件型对象读取分隔好的数据

read_fwf

从特定宽度格式的文件中读取分隔好的数据,制表符(’\t’)是默认分隔符

read_clipboard

read_table的剪贴板版本,在将表格从Web页面上转换成数据时有用

read_excel

从Excel的XLS或者XLSX文件中读取表格数据

read_hdf

读取用pandas存储的HDF5文件

read_html

从HTML文件中读取所有表格数据

read_json

从JSON(JavaScript Object Notation) 字符串中读取数据

read_msgpack

读取MessagePac二级制格式的pandas数据

read_pickle

读取以Python pickle格式存储的任意对象

read_sas

读取存储在SAS系统中定制存储格式的SAS数据集

read_sql

将SQL查询的结果(使用SQLAlchemy)读取为pandas的DataFrame

read_stata

读取Stata格式的数据集

read_feather

读取Feather二进制格式

一些数据载入函数,比如read_csv,会进行类型推断,那就意味着不需要指定哪一列是数值、整数、布尔值或者字符串。其他的数据格式,比如HDF5,Feather和msgpack格式中已经存储了数据的类型。

在尝试使用read_csv读取数据之前,我们需要先创建一个简单的csv文件作为例子,具体步骤为:

  1. 新建一个txt文件,按类似下图的格式(逗号分隔)输入数据,保存
  2. 将txt文件重新命名为ex1.csv

    在py文件的相同目录创建一个名称为examples的文件夹,将csv文件放入,之后进行文件的读取:
import pandas as pd

df = pd.read_csv('examples/ex1.csv')
print(df)
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

我们也可以使用read_table进行读取,此时我们需要指定分隔符为逗号:

df = pd.read_table('examples/ex1.csv',sep=',')
print(df)
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

在某些情况下,一张表的分隔符不是固定的,这时我们也可以给read_table中的sep选项传入正则表达式来进行处理,这里不再赘述。

一些文件不包含表头行,如下面这个CSV文件:

python readfile 会把true 转换成1_分隔符


如果我们想要正常的读取这类文件,需分配列名,我们可以让pandas自动分配列名,也可以自己指定列名:

import pandas as pd

df = pd.read_csv('examples/ex2.csv',header = None)
#    0   1   2   3      4
# 0  1   2   3   4  hello
# 1  5   6   7   8  world
# 2  9  10  11  12    foo
df = pd.read_csv('examples/ex2.csv',names = ['a','b','c','d','message'])
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

如果想要指定某一列作为索引,如message那一列,则可以指定index_col为4或者’message’:

df = pd.read_csv('examples/ex2.csv',names = ['a','b','c','d','message'],index_col=4)
df = pd.read_csv('examples/ex2.csv',names = ['a','b','c','d','message'],index_col='message')
#          a   b   c   d
# message
# hello    1   2   3   4
# world    5   6   7   8
# foo      9  10  11  12

我们可以使用skiprow参数来跳过异常文件的某些行,考虑下面这个CSV文件:

python readfile 会把true 转换成1_CSV_02


现在我们使用skiprow来保证数据的正常读取:

df = pd.read_csv('examples/ex3.csv',names = ['a','b','c','d','message'],skiprows=[0,2,3])
print(df)
#    a   b   c   d message
# 0  1   2   3   4   hello
# 1  5   6   7   8   world
# 2  9  10  11  12     foo

默认情况下,pandas将NULL和NA视为缺失值,考虑下面这个CSV文件:

python readfile 会把true 转换成1_python_03


现在我们使用pandas对其进行读取并观察结果:

df = pd.read_csv('examples/ex4.csv')
print(df)
#   someting  a   b     c   d message
# 0      one  1   2   3.0   4     NaN
# 1      two  5   6   NaN   8   world
# 2    three  9  10  11.0  12     foo

我们可以通过列表的形式传入na_values,列表中的元素将被视为缺失值:

df = pd.read_csv('examples/ex4.csv',na_values=[1,'two'])
print(df)
#   someting    a   b     c   d message
# 0      one  NaN   2   3.0   4     NaN
# 1      NaN  5.0   6   NaN   8   world
# 2    three  9.0  10  11.0  12     foo

我们可以通过字典的形式传入na_values,这样就可以指定每列被视为NaN的值:

df = pd.read_csv('examples/ex4.csv',na_values={'message':['foo'],'someting':['one']})
print(df)
#   someting  a   b     c   d message
# 0      NaN  1   2   3.0   4     NaN
# 1      two  5   6   NaN   8   world
# 2    three  9  10  11.0  12     NaN

我们注意到就算没有被指定,NA和NULL也被视为缺失值
下面是常见的read_csv/read_table函数的参数:

参数

描述

path

表明文件系统位置的字符串、URL或文件型对象

sep或者delimiter

用于分隔每行字段的字符序列或者正则表达式

header

用作列名的行号,默认是0(第一行),如果没有的话,应该为None

index_col

用作结果中行索引的列号或者列名,可以使一个单一的名称/数字,也可以是一个分层索引

skiprows

从文件开头处起,需要调过的行数或者行号列表

na_values

需要用NA替换的值序列

comment

在行结尾处分隔注释的字符

parse_dates

尝试将数据解析为datetime,默认是Fasle。如果是True,将尝试解析所有的列,=也可以指定列号或者列名表来进行解析。如果列表的元素是元组或者列表,将会把多个列组合到一起进行解析

keep_date_col

如果连接到解析日期上,保留被连接的列,默认是Fasle

converters

包含列名称映射到函数的字典

dayfrist

解析非明确日期时,按照国际格式处理(例如7/6/2012->June,7,2012),默认为False

squeeze

如果解析的数据只包含一列,返回一个Series

thousands

千位分隔符(如’,‘或者’.’)

分块读入文件

我们可以调整DataFrame显示的行数:

pd.options.display.max_rows = 10
#设置每次打印DataFrame时只显示10行(前5行和倒数5行)

可以在读取数据时,给nrows传值以读入一部分行:

df = pd.read_csv('examples/ex5.csv',nrows = 3)
#读取三行

可以分块读入数据,将每块的行数传给chunksize即可:

df = pd.read_csv('examples/ex6.csv',chunksize = 2)
#分块读取,每个块含两行数据

注意此时read_csv返回的是一个可迭代对象而不是一个DataFrame,可以使用for循环来遍历每一个块(DataFrame对象)

将数据输出为文件

现在考虑之前创建的CSV文件(ex4):

python readfile 会把true 转换成1_python_03


现在我们将ex4读取后写入到另一个名为out的CSV文件中:

df = pd.read_csv('examples/ex4.csv')
#   someting  a   b     c   d message
# 0      one  1   2   3.0   4     NaN
# 1      two  5   6   NaN   8   world
# 2    three  9  10  11.0  12     foo
df.to_csv('examples/out.csv')
#z这里na_rep = 'NULL'的意思是在写出时将缺失值替换为字符串'NULL'

得到的结果如下,默认是以逗号分隔,我们也可以给sep传参数以使文件以其他分隔符进行分隔:

python readfile 会把true 转换成1_CSV_05


另外我们注意到写出时不仅将列标签写出,默认的行标签也被写出,这里我们可以给to_csv方法中另heafer和index为False来禁止写出列标签和行标签

我们也可以只输出DataFrame的一部分列:

df.to_csv('examples/out.csv',index = False,columns=['a','b','c'])

结果如下:

python readfile 会把true 转换成1_分隔符_06


另外Series对象也可以输出为CSV文件,操作类似,在这里不在赘述。