Part one 需要的模块
1、我们一般是将提取数据集的函数单独作为一个类,这个类继承datasets。
from troch.utils.data.dataset import Dataset
2、深度学习中打开图像一般用的是Pillow模块而不是opencv
from PIL import Image #这里的PIL就是Pillow模块
3、我们打开图像之后还需要将图像进行再加工,例如改变尺寸、调整亮度、以及将所有数据打包起来,这时候就需要用到torchvision中的功能包了。
import torchvision.transforms as transforms
Part two 制作数据集
这个地方是最考研python基础的,很多时候我们拿到的图片参差不齐,他们的标签也各有风格,但是无论我们作何处理,我们最终的目的只有一个。
Frist:一个具有照片存放位置的列表(包括对应照片名字)
Second:一个存放标签的列表(记得与照片的顺序对应)
Thrid:计算机是无法识别"cat" and “dog"这样的单词的,那么我们需要将"cat” and "dog"转化为数字1和0。然后也是将1和0制作成一个列表。
if name == "cat":
label.append(0)
else:
label.append(1)
备注:我一般是将图片路径列表和标签列表放进txt文件夹中,然后用到的时候再进行读取,制作成python列表。
Part three制作图片提取、处理的函数(其实是一个类)
class my_data(Dataset):
def __init__(self, img_path, label, transform=None):
self.img_path = img_path #拿取图片路径列表
self.label = label #拿取标签列表
if transform is not None:
self.transform = transform
else:
self.transform = None
def __getitem__(self, index): #必须加载的方法
img_after = Image.open(self.img_path[index]).convert('RGB')
label = self.label[index]
if self.transform is not None: #对图片进行二次处理
img_after = self.transform(img_after)
return img_after, label #返回处理完的图片数据和标签
def __len__(self): #必须加载的方法,实际上好像没什么用
return len(self.img_path)
Part four在主函数上声明图片转化的形式和图片的批次
train_loader = torch.utils.data.DataLoader(
dataset=my_data(img_path, label, #注意my_data是我上面自己声明的一个类
transforms.Compose([transforms.Resize((224, 224)), #将图片尺寸统一改为224*224(根据你的网络模型来设置)
transforms.ToTensor(), #将数据转化为Tensor
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])] #官方给出的标准化参数,可以自行进一步了解
)
),
batch_size=5, #一次提供训练的图片个数
shuffle=False, #是否打乱顺序,在自己做的数据集中是没必要的,当然打不打乱都无所谓
)
Part five 最终进行训练
for i, (input, labels) in enumerate(train_loader):
.....
#i代表次数