实现Python合并CSV并删除重复表头
概述
在处理多个CSV文件时,常常需要将它们合并成一个文件。但是有时候这些CSV文件可能会有重复的表头,需要进行去重操作。本文将介绍如何使用Python实现合并CSV并删除重复表头的操作。
流程图
flowchart TD
A(开始) --> B(读取CSV文件)
B --> C(合并CSV文件)
C --> D(去重表头)
D --> E(保存文件)
E --> F(结束)
类图
classDiagram
class CSVManager{
- read_csv_file()
- merge_csv_files()
- remove_duplicate_header()
- save_csv_file()
}
CSVManager --> CSVManager
代码实现
import pandas as pd
class CSVManager:
def read_csv_file(self, file_path):
# 读取CSV文件
df = pd.read_csv(file_path)
return df
def merge_csv_files(self, file_list):
# 合并多个CSV文件
merged_df = pd.concat([pd.read_csv(file) for file in file_list], ignore_index=True)
return merged_df
def remove_duplicate_header(self, df):
# 去重表头
df = df.drop_duplicates().reset_index(drop=True)
return df
def save_csv_file(self, df, output_file):
# 保存文件
df.to_csv(output_file, index=False)
操作步骤
- 读取CSV文件
file_path = 'file1.csv'
df1 = CSVManager().read_csv_file(file_path)
- 合并CSV文件
file_list = ['file1.csv', 'file2.csv', 'file3.csv']
merged_df = CSVManager().merge_csv_files(file_list)
- 去重表头
cleaned_df = CSVManager().remove_duplicate_header(merged_df)
- 保存文件
output_file = 'output.csv'
CSVManager().save_csv_file(cleaned_df, output_file)
通过以上步骤,你可以实现合并多个CSV文件并删除重复表头的操作。希望对你有所帮助,加油!