python 分批插入数据

原创

mob64ca12d652c7 2023-11-06 07:45:14 ©著作权

文章标签 数据 mysql 插入数据 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d652c7的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 分批插入数据

在数据处理的过程中，我们经常需要将大量的数据插入到数据库中。如果一次性插入全部数据，可能会导致内存溢出或者数据库性能下降。因此，我们需要将数据分成多批次插入，以提高效率和稳定性。

本文将介绍如何使用Python分批插入数据，并提供相应的代码示例。我们将以MySQL数据库为例，使用Python的pymysql库进行数据插入操作。

准备工作

首先，我们需要安装pymysql库。可以使用pip命令进行安装：

pip install pymysql

安装完成后，我们可以导入pymysql库并连接到MySQL数据库：

import pymysql

# 连接到数据库
conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='123456',
    db='test'
)

数据准备

在进行数据插入之前，我们需要准备一些测试数据。假设我们有一个学生表，包含学生的姓名和年龄两个字段。

CREATE TABLE students (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(20) NOT NULL,
    age INT NOT NULL
);

现在，我们需要生成一些测试数据。为了简化操作，我们使用一个随机生成器来生成姓名和年龄：

import random

# 随机生成姓名
def generate_name():
    first_names = ['张', '王', '李', '赵', '陈', '刘']
    last_names = ['三', '四', '五', '六', '七', '八']
    first_name = random.choice(first_names)
    last_name = random.choice(last_names)
    return first_name + last_name

# 随机生成年龄
def generate_age():
    return random.randint(18, 25)

# 生成测试数据
data = []
for _ in range(1000):
    name = generate_name()
    age = generate_age()
    data.append((name, age))

分批插入数据

现在，我们可以开始分批插入数据了。假设每次插入100条数据，我们可以使用切片操作将数据分成多个批次：

# 每次插入的数据量
batch_size = 100

# 插入数据
with conn.cursor() as cursor:
    for i in range(0, len(data), batch_size):
        batch_data = data[i:i+batch_size]
        
        # 构建插入语句
        sql = "INSERT INTO students (name, age) VALUES (%s, %s)"
        
        # 执行插入操作
        cursor.executemany(sql, batch_data)
        
    # 提交事务
    conn.commit()

使用上述代码，我们可以将数据分成10批次插入到数据库中。每个批次插入100条数据，总共插入1000条数据。