MNIST(Modified National Institute of Standards and Technology database)是手写体数字图片的图像数据集。
MNIST 数据集是机器学习和深度学习领域中最常用的数据集之一,常用于训练和测试图像分类算法。其简单易用、数据量大、类别明确等特点使其成为机器学习入门和教学的理想素材。
人数
由美国国家标准与技术研究所(National Institute of Standards and Technology,NIST)发起整理,一共统计了来自250个不同的人手写数字图片,其中50%是高中生,50%来自人口普查局的工作人员。
图片数
该数据集包含60,000张训练图像和10,000张测试图像。每张图片都是一张28x28像素的灰度图像,代表0到9这十个数字之一。
需要注意的是,由于MNIST数据集相对简单,现在已经存在更复杂的图像数据集用于更具挑战性的任务,如CIFAR-10、ImageNet等。
下载
使用PyTorch 自动下载 MNIST 数据集
import torch
import torchvision
# 加载 MNIST 数据集
train_dataset = torchvision.datasets.MNIST(root='../data', train=True, download=True)
test_dataset = torchvision.datasets.MNIST(root='../data', train=False, download=True)