pandas数据导入

学习python最好的学习方法就是带着自己的工作需求或者目标去学习。pandas库不多介绍,先放一些最基础的内容帮助学习。

pandas导入/导出数据是非常方便的,可以快速的导入现在常见的excel、csv、txt,以下就是一些常用的

导入数据:

  • pd.read_csv(filename):从CSV文件导入数据
  • pd.read_table(filename):从限定分隔符的文本文件导入数据
  • pd.read_excel(filename):从Excel文件导入数据
  • pd.read_sql(query, connection_object):从SQL表/库导入数据
  • pd.read_json(json_string):从JSON格式的字符串导入数据
  • pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
  • pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
  • pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据

导出数据:

  • df.to_csv(filename):导出数据到CSV文件
  • df.to_excel(filename):导出数据到Excel文件
  • df.to_sql(table_name, connection_object):导出数据到SQL表
  • df.to_json(filename):以Json格式导出数据到文本文件

导入导出参数说明:

pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds )

io:数据源地址例如:pd.read_excel(r'C:\Users\Desktop\新建工作表.xlsx')  注意:中文路径的话建议用n=open(r'C:\中文路径\excel.xlsx') 再用data=pd.read_excel(n)

sheetname:你需要导入的数据在工作簿的那张表,可以为数据也可以为直接取表名。0代表工作簿第一张表,如表名叫name,那么sheet_name='name'进行取数

header :你导入数据的表头字段名在哪一行,默认为第一行。也可以手动指定行数来确定表头字段名

index_col:指定索引位置,列(0索引)用作DataFrame的行标签。如果没有这样的列,则通过None。如果传递了一个列表,那么这些列将合并为一个MultiIndex

dtype :导入指定数据列的数据类型,例如:dtype= {'column_name' : str} 

常用的导入数据举例:

# -*- coding: utf-8 -*-
"""
@author: huangjunwen
"""
import pandas as pd
#导入xlsx格式的数据文件
data=pd.read_excel(r'C:\Users\Desktop\excel表格.xlsx',sheetname='Sheet1')

#导入csv格式的数据文件
data=pd.read_csv(r'C:\Users\Desktop\CSV表格.csv',sheetname='Sheet1')

#导入txt格式的数据文件,可能会涉及编码问题或者中文路径需要先用open函数打开连接,并进行转码
op=open(r'C:\Users\Desktop\TXT数据.txt',encoding='utf-8')
data=pd.read_table(op)

#导入sql查询结果,需要涉及另外一个库pymysql(因本人用的mysql数据库所以使用该库进行连接)
import pandas as pd
import pymysql as mysql
sql_cmd='select * from XXXX'#输入你的SQL语句
connection=mysql.connect(host='数据库IP',port=数据库端口,user='登录账户',password='登录密码',db='具体连接的库',charset='utf8')#创建数据库链接属性
data=pd.read_sql(sql=sql_cmd,con=connection)#导入数据库查结果为DataFrame