Python读取DataFrame

1. 什么是DataFrame

DataFrame是Pandas库中的一个数据结构,类似于Excel中的表格。它由行索引和列索引组成,可以存储不同类型的数据,如整数、浮点数和字符串等。DataFrame提供了丰富的功能,可以对数据进行筛选、排序、聚合等操作。

2. 读取DataFrame的方法

Pandas库提供了多种方法来读取数据并创建DataFrame。下面介绍几种常见的方法:

2.1 从CSV文件读取

import pandas as pd

# 从CSV文件读取数据
df = pd.read_csv('data.csv')

上述代码通过read_csv函数从名为"data.csv"的CSV文件中读取数据,并将结果存储在DataFrame对象df中。

2.2 从Excel文件读取

import pandas as pd

# 从Excel文件读取数据
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

上述代码通过read_excel函数从名为"data.xlsx"的Excel文件中的"Sheet1"工作表中读取数据,并将结果存储在DataFrame对象df中。

2.3 从数据库读取

import pandas as pd
import sqlite3

# 连接到数据库
conn = sqlite3.connect('data.db')

# 从数据库读取数据
query = 'SELECT * FROM table1'
df = pd.read_sql_query(query, conn)

上述代码通过sqlite3库连接到名为"data.db"的SQLite数据库,然后通过read_sql_query函数执行SQL查询并将结果存储在DataFrame对象df中。

3. DataFrame基本操作

创建好DataFrame后,可以进行一系列的操作。下面介绍几种常见的操作方法。

3.1 查看数据

# 查看前几行数据
df.head()

# 查看后几行数据
df.tail()

# 查看DataFrame的形状
df.shape

# 查看列名
df.columns

# 查看索引
df.index

上述代码分别通过headtailshapecolumnsindex属性来查看DataFrame的数据。

3.2 筛选数据

# 根据列名筛选数据
df['column_name']

# 根据条件筛选数据
df[df['column_name'] > 10]

# 根据多个条件筛选数据
df[(df['column1'] > 10) & (df['column2'] < 5)]

上述代码分别通过列名、条件和多个条件来筛选DataFrame中的数据。

3.3 排序数据

# 按列排序数据
df.sort_values('column_name')

# 按多列排序数据
df.sort_values(['column1', 'column2'])

# 按索引排序数据
df.sort_index()

上述代码分别通过列名和索引来对DataFrame中的数据进行排序。

3.4 聚合数据

# 计算列的和
df['column_name'].sum()

# 计算列的均值
df['column_name'].mean()

# 计算列的最大值
df['column_name'].max()

# 计算列的最小值
df['column_name'].min()

上述代码分别通过summeanmaxmin函数来对DataFrame中的数据进行聚合计算。

4. 结论

本文介绍了Python中如何读取DataFrame的方法,包括从CSV文件、Excel文件和数据库中读取数据,并对读取的DataFrame进行了基本操作,如查看数据、筛选数据、排序数据和聚合数据。DataFrame是数据分析和处理的重要工具,在实际应用中有着广泛的应用。

journey
    title Python读取DataFrame
    section 从CSV文件读取
    section 从Excel文件读取
    section 从数据库读取
    section DataFrame基本操作
flowchart TD
    A[开始] --> B(读取CSV文件)
    B --> C(读取Excel文件)
    C --> D(从数据库读取)
    D --> E(查看数据)
    D --> F(筛选数据)
    D --> G(排序数据)
    D --> H(聚合数据)
    H --> I[结束]