Java多线程插入1000万数据到MySQL的优化实践

精选原创

off_time 2025-01-08 20:34:17 ©著作权

文章标签 数据 java List 文章分类 运维

©著作权归作者所有：来自51CTO博客作者off_time的原创作品，请联系作者获取转载授权，否则将追究法律责任

在大数据处理和高性能应用开发中，高效地向数据库插入大量数据是一项至关重要的任务。当面对千万级别的数据插入需求时，单线程操作往往效率低下，无法满足快速处理的要求。此时，利用Java的多线程特性可以显著提升数据插入的效率。本文将详细介绍如何使用Java多线程技术高效地将1000万条数据插入MySQL数据库，并提供一些实用的优化建议。

一、准备工作

在开始之前，请确保您已经：

安装并配置好MySQL数据库：确保MySQL服务正在运行，并创建一个用于测试的数据库和表。
准备好测试数据：可以是通过程序随机生成的数据，也可以是事先准备好的数据文件。
引入必要的库：在Java项目中，引入MySQL的JDBC驱动（例如mysql-connector-java）。

二、多线程插入的实现

2.1 创建数据库连接池

为了提高数据库连接的管理效率，我们通常使用连接池来管理数据库连接。Apache DBCP（Database Connection Pooling）或HikariCP是常用的连接池实现。

import com.zaxxer.hikari.HikariConfig;
import com.zaxxer.hikari.HikariDataSource;

import javax.sql.DataSource;
import java.sql.Connection;
import java.sql.SQLException;

public class DataSourceUtil {
    private static HikariDataSource dataSource;

    static {
        HikariConfig config = new HikariConfig();
        config.setJdbcUrl("jdbc:mysql://localhost:3306/test_db");
        config.setUsername("root");
        config.setPassword("password");
        config.setDriverClassName("com.mysql.cj.jdbc.Driver");
        config.setMaximumPoolSize(10); // 设置连接池大小
        dataSource = new HikariDataSource(config);
    }

    public static Connection getConnection() throws SQLException {
        return dataSource.getConnection();
    }
}

2.2 数据插入线程类

创建一个线程类，用于执行数据插入操作。

import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.List;

public class InsertThread extends Thread {
    private List<String[]> dataBatch; // 批量数据，假设每行数据为一个String数组

    public InsertThread(List<String[]> dataBatch) {
        this.dataBatch = dataBatch;
    }

    @Override
    public void run() {
        Connection conn = null;
        PreparedStatement pstmt = null;
        try {
            conn = DataSourceUtil.getConnection();
            conn.setAutoCommit(false); // 关闭自动提交，批量提交数据
            String sql = "INSERT INTO your_table (column1, column2, ...) VALUES (?, ?, ...)";
            pstmt = conn.prepareStatement(sql);

            for (String[] row : dataBatch) {
                // 假设每行数据有三个字段
                pstmt.setString(1, row[0]);
                pstmt.setString(2, row[1]);
                pstmt.setString(3, row[2]);
                pstmt.addBatch();
            }

            pstmt.executeBatch(); // 执行批量插入
            conn.commit(); // 提交事务
        } catch (SQLException e) {
            e.printStackTrace();
            try {
                if (conn != null) {
                    conn.rollback(); // 回滚事务
                }
            } catch (SQLException ex) {
                ex.printStackTrace();
            }
        } finally {
            try {
                if (pstmt != null) pstmt.close();
                if (conn != null) conn.close();
            } catch (SQLException e) {
                e.printStackTrace();
            }
        }
    }
}

2.3 主程序

在主程序中，创建多个线程并启动它们以并行插入数据。

import java.sql.SQLException;
import java.util.ArrayList;
import java.util.List;

public class Main {
    private static final int BATCH_SIZE = 10000; // 每个线程处理的数据批量大小
    private static final int THREAD_COUNT = 10; // 线程数量

    public static void main(String[] args) {
        List<String[]> allData = generateRandomData(10000000); // 生成1000万条数据

        List<Thread> threads = new ArrayList<>();
        for (int i = 0; i < THREAD_COUNT; i++) {
            int start = i * BATCH_SIZE;
            int end = Math.min(start + BATCH_SIZE, allData.size());
            List<String[]> dataBatch = allData.subList(start, end);
            InsertThread thread = new InsertThread(dataBatch);
            threads.add(thread);
            thread.start();
        }

        // 等待所有线程完成
        for (Thread thread : threads) {
            try {
                thread.join();
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }

        System.out.println("Data insertion completed.");
    }

    // 生成随机数据的示例方法
    private static List<String[]> generateRandomData(int count) {
        List<String[]> data = new ArrayList<>();
        for (int i = 0; i < count; i++) {
            data.add(new String[]{"randomString" + i, "randomValue" + i, "anotherValue" + i});
        }
        return data;
    }
}