以下是对《深度学习实战》第2集中 CIFAR-10 数据集 使用卷积神经网络进行图像分类实战 代码的详细分析,并增加数据探索环节,同时对数据探索、模型训练和评估的过程进行具体说明。所有代码都附上了运行结果配图,方便对比。
《深度学习实战》第2集 补充:数据探索与分析
在深度学习项目中,数据探索(Exploratory Data Analysis, EDA)是至关重要的一步。通过数据探索,我们可以了解数据集的基本特性、分布情况以及潜在问题,从而为后续的模型设计和优化提供指导。
1. 数据探索的目标
- 了解 CIFAR-10 数据集的类别分布。
- 可视化样本图像,观察其特征。
- 分析数据预处理的效果。
2. 数据探索实现
2.1 类别分布分析
CIFAR-10 数据集包含 10 个类别,每个类别的样本数量应均匀分布。我们可以通过以下代码统计类别分布:
import matplotlib.pyplot as plt
# 统计类别分布
train_labels = [label for _, label in train_dataset]
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_counts = {class_names[i]: train_labels.count(i) for i in range(10)}
# 可视化类别分布
plt.bar(label_counts.keys(), label_counts.values())
plt.title("Class Distribution in CIFAR-10")
plt.xlabel("Class")
plt.ylabel("Number of Samples")
plt.xticks(rotation=45)
plt.show()
代码运行结果输出:
结果分析:
- 如果类别分布均匀,说明数据集没有类别不平衡问题。
- 在 CIFAR-10 中,每个类别有 5,000 张训练图像,分布均衡。
2.2 样本可视化
为了直观了解数据集中的图像特征,我们可以随机抽取一些样本并可视化:
import numpy as np
# 可视化样本图像
def imshow(img):
img = img / 2 + 0.5 # 反归一化
npimg = img.numpy()
plt.imshow(np.transpose(npimg, (1, 2, 0)))
plt.axis('off')
plt.show()
# 获取一批数据
dataiter = iter(train_loader)
images, labels = next(dataiter)
# 显示图像
imshow(torchvision.utils.make_grid(images[:16])) # 显示前 16 张图像
print("Labels:", [class_names[label] for label in labels[:16]])
代码运行结果输出:
Labels: ['bird', 'ship', 'automobile', 'ship', 'cat', 'truck', 'airplane', 'bird', 'airplane', 'frog', 'ship', 'bird', 'automobile', 'bird', 'automobile', 'truck']
结果分析:
- 图像大小为 32x32,分辨率较低,但足以捕捉基本特征。
- 不同类别的图像具有明显的视觉差异(如飞机与汽车、猫与狗等),这有助于模型学习区分不同类别。
2.3 数据预处理效果
数据预处理包括调整大小、归一化等操作。我们可以通过打印预处理后的图像张量来验证其效果:
print("Preprocessed Image Shape:", images.shape) # 输出形状
print("Preprocessed Image Values:", images[0].min().item(), images[0].max().item()) # 输出归一化范围
代码运行输出结果:
Preprocessed Image Shape: torch.Size([64, 3, 224, 224])
Preprocessed Image Values: -0.929411768913269 1.0
结果分析:
- 预处理后图像被调整为 224x224(ResNet 输入要求),并归一化到 [-1, 1] 范围。
- 这些操作确保了输入数据的一致性和模型的稳定性。
原代码分析与改进
1. 数据加载与预处理
代码中使用 torchvision.transforms
对数据进行了标准化和尺寸调整。以下是关键步骤的解释:
- Resize(224):将图像从原始的 32x32 调整为 ResNet 的输入尺寸 224x224。
- Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)):将像素值归一化到 [-1, 1] 范围,以加速收敛。
改进建议:
- 添加数据增强(Data Augmentation),如随机裁剪、水平翻转等,以提高模型的泛化能力:
transform = transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomCrop(32, padding=4), transforms.Resize(224), transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) ])
改进后代码替换原代码,运行后输出:
Epoch 1, Loss: 0.6051
Epoch 2, Loss: 0.3872
Epoch 3, Loss: 0.3126
Epoch 4, Loss: 0.2649
Epoch 5, Loss: 0.2316
Test Accuracy: 0.9022
可以看到损失系数不同,但精确率最终结果差不多。
2. 模型训练
代码中使用了预训练的 ResNet-18 模型,并修改了最后一层以适应 CIFAR-10 的 10 个类别。以下是训练过程的关键点:
2.1 模型结构
- ResNet-18 是一个轻量级的 CNN 架构,包含 18 层卷积网络。
- 修改全连接层(
model.fc
)以输出 10 个类别的概率。
2.2 训练过程
- 使用 Adam 优化器,学习率为 0.001。
- 损失函数为交叉熵损失(
nn.CrossEntropyLoss
),适用于多分类任务。 - 每个 epoch 后打印平均损失,便于监控训练进度。
改进建议:
- 增加学习率调度器(Learning Rate Scheduler),例如余弦退火或 StepLR,以动态调整学习率。
- 保存最佳模型权重,避免过拟合。
3. 模型评估
代码中通过测试集计算了模型的准确率。以下是评估过程的关键点:
3.1 测试过程
- 将模型切换为评估模式(
model.eval()
),关闭 Dropout 和 BatchNorm 的随机性。 - 使用
torch.no_grad()
禁用梯度计算,减少内存消耗。
3.2 结果分析
假设测试准确率为 75%,说明模型在 CIFAR-10 上表现良好,但仍有一定的提升空间。
改进建议:
- 计算混淆矩阵(Confusion Matrix),分析模型在不同类别上的表现:
from sklearn.metrics import confusion_matrix import seaborn as sns all_preds, all_labels = [], [] with torch.no_grad(): for images, labels in test_loader: images, labels = images.to(device), labels.to(device) outputs = model(images) _, preds = torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) cm = confusion_matrix(all_labels, all_preds) sns.heatmap(cm, annot=True, fmt="d", xticklabels=class_names, yticklabels=class_names) plt.title("Confusion Matrix") plt.xlabel("Predicted") plt.ylabel("True") plt.show()
代码运行输出结果:
- 分析上图混淆矩阵可以发现模型在某些类别(如“猫”与“狗”)上容易混淆,Cat 和 Dog 的矩阵交汇数值相对偏高,从而指导进一步优化。
总结
通过增加数据探索环节,我们深入了解了 CIFAR-10 数据集的特性,并验证了数据预处理的有效性。在模型训练和评估过程中,我们分析了代码的实现细节,并提出了改进建议,包括数据增强、学习率调度器和混淆矩阵分析。这些改进可以帮助模型更好地适应数据集,并提升性能。
希望这些内容能为你提供更全面的理解!如果你有任何问题或想法,欢迎在评论区留言讨论。