使用 Python 中的 openpyxl 库读取 XLSX 文件

在数据分析和处理的过程中,我们经常会接触到 Excel 文件,特别是扩展名为 .xlsx 的文件。为了提升工作效率,Python 提供了一个强大的库——openpyxl,能够轻松地读取和操作 Excel 文件。本文将介绍如何使用 openpyxl 库读取 XLSX 文件,并提供代码示例。

什么是 openpyxl?

openpyxl 是一个用于操作 Excel 文件的 Python 库,它可以读取、写入以及修改现有的 Excel 文件。因为它可以直接操作 XLSX 文件,所以在数据处理、报表生成等方面具有广泛的应用。

安装 openpyxl

在开始之前,我们需要确保已经安装了 openpyxl 库。如果尚未安装,可以使用以下命令在命令行中进行安装:

pip install openpyxl

读取 XLSX 文件

接下来,我们将通过一个简单的示例来演示如何使用 openpyxl 读取 XLSX 文件。假设我们有一个名为 data.xlsx 的文件,其内容如下:

姓名 年龄 城市
张三 25 北京
李四 30 上海
王五 22 广州

以下是读取此文件的 Python 代码:

import openpyxl

# 加载 Excel 文件
workbook = openpyxl.load_workbook('data.xlsx')

# 选择活动工作表
sheet = workbook.active

# 读取数据
data = []
for row in sheet.iter_rows(min_row=2, values_only=True):
    data.append(row)

# 打印读取的数据
for entry in data:
    print(f"姓名: {entry[0]}, 年龄: {entry[1]}, 城市: {entry[2]}")

代码解析

  1. 加载 Excel 文件:使用 openpyxl.load_workbook() 函数加载指定的 .xlsx 文件。
  2. 选择活动工作表:通过 workbook.active 来选择默认的活动工作表。
  3. 读取数据:使用 iter_rows() 方法遍历工作表中的每一行,min_row=2 表示从第二行开始读取,这样可以跳过标题行。
  4. 打印数据:循环输出读取到的数据。

状态图

在数据处理的流程中,我们不仅需要确保数据的读取,还需要关注状态转换。以下是一个简单的状态图,展示了读取 Excel 文件的不同状态。

stateDiagram
    [*] --> 加载文件
    加载文件 --> 选择工作表
    选择工作表 --> 读取数据
    读取数据 --> [*]

数据处理的旅行图

在实际应用中,读取数据后的处理往往是个复杂的过程。以下是一个数据处理的旅行图,展示了从读取数据到最终分析的旅程。

journey
    title 数据处理的旅程
    section 读取数据
      读取 Excel 文件: 5: 用户
      选择工作表: 5: 用户
    section 数据分析
      数据清洗: 4: 数据分析师
      数据可视化: 3: 数据可视化师
    section 结果输出
      保存分析结果: 5: 用户
      生成报告: 3: 数据分析师

结论

通过本篇文章,我们了解了如何使用 openpyxl 库读取 XLSX 文件,并演示了一个简单的代码示例。同时,我们使用状态图和旅行图直观展示了数据处理的流程。这些工具和技能为我们在数据科学、分析和自动化报告中提供了极大的便利。希望这篇文章能帮助你更好地理解和使用 openpyxl 进行数据处理工作。