文本数据的读取与存储
1、CSV文件的读取 pandas库提供了将表格型数据读取为DataFrame数据结构的函数 。在现实应用中,常用的有read_csv和read_table函数 (1)、CSV是存储表格数据的常用文件格式,可通过read_csv函数进行读取。 注意:读取CSV文件时,如果文件路径中有中文,需要加open函数,否则会报错。 换言之,路径中没有中文,可以不加open函数 (2)、对于CSV文件,也可以使用read_table进行读取,指定分隔符即可 2、TXT文件的读取 TXT文件使用的分隔符可能并不是逗号,比如创建一个分隔符为“?”的TXT文档。 通过read_table函数中的sep参数进行分隔符的指定。 有些TXT文件并没有固定的分隔符,而是用一些数量不 定的空白符进行分隔,这种情况下也可以手动处理,但数据量过多时,手动处理就会很耗 时。本例可通过正则表达式来处理。 3、文件数据的存储 在对数据进行处理和分析之后,通常会把数据存储起来。利用DataFrame的to_csv方法,可以将数据存储到以逗号分隔的 CSV文件中。 也可以通过sep参数指定存储的分隔符,这种情况下会存储行和列索引,我们可以通过设置index和header分 别处理行和列索引。 二、JSON和Excel数据的读取与存储 1、JSON数据的读取与存储 JSON(Javascript Object Notation)数据是一种轻量级的数据交 换格式,因其简洁和清晰的层次结构使JSON成为了理想的数据交换 语言 对于JSON数据,常使用两种方法来读取。一种是通过Python的第 三方库json,通过下面的代码可以将JSON数据转化为字符串格式。 将数据输入DataFrame构造器,即可完成对JSON数据的读取。 注意:由于数据类似字典结构,因此读取时可能会乱序 另一种方法则是直接通过read_json函数来读取JSON数据。 由于读取时会乱序,这里重新对行索引进行排序。 使用to_json函数对DataFrame数据进行相应的存储。 2、Excel数据的读取与存储 Excel 表 格 数 据 也 是 工 作 中 常 用 的 一 种 数 据 。 我 们 可 以 通 过 read_excel和to_excel函数对Excel数据进行读取和存储。 三、数据库的读取与存储 我们可以通过Python 进 行 MySQL 数 据 库 的 连 接 和 使 用 , 但 是 需 要 安 装 第 三 方 库 PyMySQL。可以通过conda命令来安装。(或者pip命令) conda install pymysql pip install pymysql