【神经网络】Pytorch构建自己的训练数据集

最近参加了一个比赛,需要对给定的图像数据进行分类,之前使用Pytorch进行神经网络模型的构建与训练过程中,都是使用的Pytorch内置的数据集,直接下载使用就好,而且下载下来的数据已经是Pytorch可以直接用于训练的Dataset类型,十分方便。但是如何使用Pytorch对自己的数据集进行训练,以及如何将数据集转换成Pytorch可以用于训练的Dataset数据类型,着实进行了一系列的摸索与尝试,特此进行记录。

如果要重写Pytorch的Dataset类与DataLoader类,首先需要获取到自己的数据集,我的数据是存放在 “./data” 文件夹下面,其中 “./data/image/train/” 文件夹下面存放的是用于训练的图像数据,对应的图像标签存放在 “./data/train.labels.csv” 文件中,其中的数据存放格式是 “train_0.jpg 0” ,而 “./data/image/test/” 文件夹下面存放的是测试图像,不含标签,因此训练过程的验证集选择从训练图像中进行按照比例划分,选择使用sklearn中的对应函数,可以按照比例的进行随机划分。

因此重写Pytorch的两个类,首先要将对应的图像与标签读取到,图像与标签进行匹配配对,然后进行后续的操作。

一、导入包:

import numpy as np
from sklearn.model_selection import train_test_split  # 将数据分为测试集和训练集
import os  # 打开读取文件
import cv2  # opencv读取图像
from matplotlib import pyplot as plt  # 测试图像是否读入进行绘制图像
import torch
from torch.autograd import Variable
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image

二、读取图像文件夹:

def read_directory(directory_name, array_of_img, length, imgPath):
    # 参数为文件夹名称,图像数组,读取的文件长度,图像地址数组
    direct = os.listdir(r"./" + directory_name)
    # 乱序读取进来的数据集,对读取进来的数据集按照标号进行排序
    direct.sort(key=lambda x: int(x[6:-4]))
    # 如果输入-1,将其转换为长度加一,即将数据全部读入
    if length == -1:
        length = len(direct) + 1
    for filename in direct[0: length]:
        print("读取图像:" + filename)  # 测试是否按序读入
        iPath = "./" + directory_name + filename  # 读取当前图像的地址
        imgPath.append(iPath)  # 追加进图像地址数组中去
        img = cv2.imread(directory_name + "/" + filename)
        # 调整图像大小
        # img = cv2.resize(img, (32, 32))
        # 使用cv2.imread()接口读图像,读进来的是BGR格式以及【0~255】,所以需要将img转换为RGB格式正常显示
        img = img[:, :, [2, 1, 0]]
        # # 转为一维数组
        # img = np.array(img).flatten()
        # # print(img)
        array_of_img.append(img)

注释已经基本上写的十分详细了,对代码进行简要的说明:

(1)读取到图像数据之后,将图像本身的数据与图像的地址数据分别存放在传入的列表"array_of_img"和"imgPath"中;

(2)读取图像数据之后,不知道Python读取进来的数据顺序是什么,但是有序的文件夹中的图像名称,读取进来之后就变成乱序了,因此使用正则表达式对图像的编号进行排序,保证其可以和对应的图像编号相对应;

(3)训练数据集中含有近八万张图像,如果每次测试都将图像全部读取进来,时间开销巨大,因此设置参数"length",对读取文件夹中的图像列表进行切片,可以在训练中读取较少的图像用于测试。如果想要读取全部的参数,可以传入参数"-1",但是Python的切片操作"[0:-1]“得到的列表不包含最后一个数据,因此对”-1"进行转换,设置为文件夹图像数据长度+1,就可以实现图像的全部读取进来;

(4)使用cv2.imread()接口读图像,读进来的是BGR格式以及[0~255],如果对图像进行绘制的话,显示的颜色失真,所以需要将img转换为RGB格式正常显示。

三、显示图像:

def show_pic(images, length):
    i = 0
    plt.figure(figsize=(length, length))
    for img in images[0: length * length]:
        plt.subplot(length, length, i + 1)
        plt.imshow(img)
        # 关闭x,y轴显示
        plt.xticks([])
        plt.yticks([])
        i += 1

    plt.show()

如果想要测试是否成功的读取到图像,可以选择性的调用这个函数对图像进行绘制,参数为图像本身的数据数组以及想要每行显示的图像数量(共绘制length*length个图像)。

四、读取图像对应标签:

def read_tag(tag_path, tags, length):
    # 参数为标签文件路径,标签数组,读取长度
    # 读取数据的标签
    with open(tag_path) as file:
        for line in list(file)[0:length]:
            # 读取前多少张图片的标签
            a = str(line).split("\t")
            b = a[1]  # 得到数字值
            tag = int(b[0])  # 去掉换行符
            tags.append(tag)

同读取图像文件夹类似,需要对读取的标签数据进行格式检查,得到整型的图像标签,我的标签每行数据格式如"train_0.jpg 0",因此这里的处理方法要根据自己的数据格式进行相应的调整。

五、分类图像数据集

#  对数据进行处理与加载
def data_load(img_path, tag_path, length, test_rate):
    # 获取数据与数据标签,并将数据分为训练集和测试集
    # 参数为图像文件夹,标签地址,length为读取的数据集长度,size为训练集测试集的区分比例

    images = []  # 图像数组
    tags = []  # 标签数组
    imPath = []  # 图像地址数组
    read_directory(img_path, images, length, imPath)
    read_tag(tag_path, tags, length)

    # 测试图像读取是否正常
    # show_pic(images, 10)

    # 转换为numpy数组
    images = np.array(images)
    tags = np.array(tags)

    # 返回处理得到的数据,有 X_train, X_test, y_train, y_test 四部分
    return train_test_split(images, tags, test_size=test_rate)

如果使用的SkLearn等工具包对数据进行训练,可以直接对原始数据进行训练,则可以利用此函数读取相应的数据,并根据测试集的比例,随机将训练集划分为训练集与验证集。

六、生成文本文件:

def create_txt(img_path, tag_path, length, test_rate):
    # 生成训练集,验证集的数据地址与对应标签存储的数据对
    images = []  # 图像数组
    imagePath = []  # 图像地址数组
    tags = []  # 训练标签数组

    # 读取指定数量的图像,图像地址,以及对应的训练标签
    read_directory(img_path, images, length, imagePath)
    read_tag(tag_path, tags, length)

    # 根据比例随机划分训练集与测试集对应的图像地址和对应的标签
    X_train, X_test, y_train, y_test = train_test_split(imagePath, tags, test_size=test_rate)

    # w+意思是:
    # 打开一个文件用于读写。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。
    # 如果该文件不存在,创建新文件
    train = open('./data/train.txt', 'w+')
    test = open('./data/test.txt', 'w+')

    for i in range(len(X_train)):  # 生成训练文档
        name = X_train[i] + ' ' + str(int(y_train[i])) + '\n'
        train.write(name)
    for i in range(len(X_test)):  # 生成测试文档
        name = X_test[i] + ' ' + str(int(y_test[i])) + '\n'
        test.write(name)

    train.close()
    test.close()

因为Pytorch中读取到的数据与标签类似于一个二元组,相互绑定,那么使用此函数将图像的地址与图像的标签进行绑定,生成一个txt文档,用于之后重写Dataset类,并且使用Sklearn的 “train_test_split()” 函数将数据根据比例随机划分为训练集与验证集,构建的txt文档格式为:"./data/image/train/train_3.jpg 0",用于之后的处理。

(注意使用的Python解释器,如果使用的是服务器上的解释器,生成的txt文档会在服务器的对应地址处,而本地没有这个txt文档,当初排查了好久。。。。。。)

七、重写Dataset类:

def default_loader(path):
    return Image.open(path).convert('RGB')


class MyDataset(Dataset):
    # 使用__init__()初始化一些需要传入的参数及数据集的调用
    def __init__(self, txt, resize, target_transform=None, loader=default_loader):
        super(MyDataset, self).__init__()
        # 对继承自父类的属性进行初始化
        fh = open(txt, 'r')
        imgs = []
        # 按照传入的路径和txt文本参数,以只读的方式打开这个文本
        for line in fh:  # 迭代该列表,按行循环txt文本中的内容
            line = line.strip('\n')
            line = line.rstrip('\n')
            # 删除本行string字符串末尾的指定字符,默认为空白符,包括空格、换行符、回车符、制表符
            words = line.split()
            # 用split将该行分割成列表,split的默认参数是空格,所以不传递任何参数时分割空格
            imgs.append((words[0], int(words[1])))
            # 把txt里的内容读入imgs列表保存
        self.imgs = imgs
        # 重新定义图像大小
        self.transform = transforms.Compose([transforms.Resize(size=(resize, resize)), transforms.ToTensor()])
        self.target_transform = target_transform
        self.loader = loader

    # 使用__getitem__()对数据进行预处理并返回想要的信息
    def __getitem__(self, index):
        fn, label = self.imgs[index]
        # fn是图片path
        img = self.loader(fn)
        # 按照路径读取图片
        if self.transform is not None:
            img = self.transform(img)
            # 数据标签转换为Tensor
        return img, label
        # return回哪些内容,那么在训练时循环读取每个batch时,就能获得哪些内容

    # 使用__len__()初始化一些需要传入的参数及数据集的调用
    def __len__(self):
        return len(self.imgs)

除了注释中的说明外,因为不同的神经网络模型对于图像大小要求不一样,因此构建数据集时传入参数 “resize”,将图像进行大小调整为 “resize*resize” 大小的图像,用于模型训练。

八、创建DataLoader:

def MyDataLoader(img_path, tag_path, length, test_rate, Resize, batch_size):
    # 制作适用于torch的数据
    create_txt(img_path, tag_path, length, test_rate)
    train_data = MyDataset(txt='./data/train.txt', resize=Resize)
    test_data = MyDataset(txt='./data/test.txt', resize=Resize)
    train_loader = DataLoader(dataset=train_data, batch_size=batch_size, shuffle=True)
    test_loader = DataLoader(dataset=test_data, batch_size=batch_size, shuffle=False)
    return train_loader, test_loader

首先构建图像与标签对应的文本数据,之后创建对应的dataset,然后构建成DataLoader用于Pytorch的模型训练。

九、测试:

def main():
    img_path = "data/image/train/"
    tag_path = "data/train.labels.csv"
    data_length = 10
    test_rate = 0.3
    batch_size = 2
    Resize = 64

    train_loader, test_loader = MyDataLoader(img_path, tag_path, data_length, test_rate, Resize, batch_size)
    for X, y in train_loader:
        print("Shape of X [N, C, H, W]: ", X.shape)
        print("Shape of y: ", y.shape, y.dtype)
        break


if __name__ == "__main__":
    main()

输出为:

读取图像:train_0.jpg读取图像:train_1.jpg读取图像:train_2.jpg读取图像:train_3.jpg读取图像:train_4.jpg读取图像:train_5.jpg读取图像:train_6.jpg读取图像:train_7.jpg读取图像:train_8.jpg读取图像:train_9.jpgShape of X [N, C, H, W]: torch.Size([2, 3, 64, 64])Shape of y: torch.Size([2]) torch.int64

整理不易,点赞支持~