用deepseek学大模型08-cnn残差网络

残差网络

参考:https://blog.csdn.net/2301_80750681/article/details/142882802
在这里插入图片描述

以下是使用PyTorch实现的三层残差网络示例,包含三个残差块和完整的网络结构:

import torch
import torch.nn as nn

class BasicBlock(nn.Module):
    expansion = 1
    
    def __init__(self, in_channels, out_channels, stride=1, downsample=None):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, 
                              stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3,
                              stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.downsample = downsample

    def forward(self, x):
        identity = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        
        if self.downsample:
            identity = self.downsample(x)
            
        out += identity
        out = self.relu(out)
        return out

class ResNet3Layer(nn.Module):
    def __init__(self, num_classes=10):
        super(ResNet3Layer, self).__init__()
        self.in_channels = 64
        
        # 初始卷积层
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        # 三个残差块
        self.layer1 = self._make_layer(BasicBlock, 64, 1, stride=1)
        self.layer2 = self._make_layer(BasicBlock, 128, 1, stride=2)
        self.layer3 = self._make_layer(BasicBlock, 256, 1, stride=2)
        
        # 分类层
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(256 * BasicBlock.expansion, num_classes)

    def _make_layer(self, block, out_channels, blocks, stride=1):
        downsample = None
        if stride != 1 or self.in_channels != out_channels * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.in_channels, out_channels * block.expansion,
                         kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(out_channels * block.expansion)
            )
            
        layers = []
        layers.append(block(self.in_channels, out_channels, stride, downsample))
        self.in_channels = out_channels * block.expansion
        
        for _ in range(1, blocks):
            layers.append(block(self.in_channels, out_channels))
            
        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.fc(x)
        return x

# 示例用法
model = ResNet3Layer(num_classes=10)
print(model)

关键实现细节说明

  1. 残差块设计:每个BasicBlock包含两个3×3卷积层,通过downsample参数处理维度匹配问题
  2. 网络结构
    • 初始卷积层(7×7卷积)用于提取基础特征
    • 最大池化层进行初步下采样
    • 三个残差块分别实现64→128→256通道的特征提取
    • 全局平均池化替代全连接层减少参数量
  3. 维度匹配:通过1×1卷积调整shortcut连接的维度,保证残差相加的有效性
  4. 参数配置
    • 每个残差块的步长(stride)分别为1、2、2,实现特征图尺寸的逐步缩小
    • 使用Batch Normalization加速训练收敛

该网络适用于CIFAR-10等小尺寸图像分类任务,可通过调整num_classes参数适配不同数据集。实际训练时建议配合数据增强和正则化技术。

残差网络的数学推导核心在于其残差映射设计和梯度传播特性,主要包含以下关键点:

1. 残差前向传播公式

残差块的基本结构可表示为:
x l + 1 = x l + F ( x l , W l ) \mathbf{x}_{l+1} = \mathbf{x}_l + \mathcal{F}(\mathbf{x}_l, \mathbf{W}_l) xl+1=xl+F(xl,Wl)
其中:

  • x l \mathbf{x}_l xl:第 l l l层的输入
  • F \mathcal{F} F:残差函数(通常包含卷积、BN、激活等操作)
  • W l \mathbf{W}_l Wl:可学习参数

对于 L L L层深度网络,累积表达式为:
x L = x 0 + ∑ i = 0 L − 1 F ( x i , W i ) \mathbf{x}_L = \mathbf{x}_0 + \sum_{i=0}^{L-1} \mathcal{F}(\mathbf{x}_i, \mathbf{W}_i) xL=x0+i=0L1F(xi,Wi)
这表明深层特征可分解为浅层特征与残差之和

2. 反向传播梯度推导

通过链式法则计算梯度:
∂ L ∂ x l = ∂ L ∂ x L ⋅ ∏ i = l L − 1 ( 1 + ∂ F ( x i , W i ) ∂ x i ) \frac{\partial \mathcal{L}}{\partial \mathbf{x}_l} = \frac{\partial \mathcal{L}}{\partial \mathbf{x}_L} \cdot \prod_{i=l}^{L-1} \left( 1 + \frac{\partial \mathcal{F}(\mathbf{x}_i, \mathbf{W}_i)}{\partial \mathbf{x}_i} \right) xlL=xLLi=lL1(1+xiF(xi,Wi))
其中:

  • 常数项1保证梯度直接传递(恒等映射路径)
  • 残差项 ∂ F ∂ x i \frac{\partial \mathcal{F}}{\partial \mathbf{x}_i} xiF通过权重层传播

3. 解决梯度问题的数学机制

当残差项趋近于0时:
∂ L ∂ x l ≈ ∂ L ∂ x L ⋅ 1 \frac{\partial \mathcal{L}}{\partial \mathbf{x}_l} \approx \frac{\partial \mathcal{L}}{\partial \mathbf{x}_L} \cdot 1 xlLxLL1
即使深层梯度 ∂ L ∂ x L \frac{\partial \mathcal{L}}{\partial \mathbf{x}_L} xLL较小,浅层仍能获得有效梯度更新,从根本上缓解梯度消失问题

4. 网络退化问题的解决

假设最优映射为 H ∗ ( x ) H^*(x) H(x),传统网络需直接拟合:
H ( x ) = H ∗ ( x ) H(x) = H^*(x) H(x)=H(x)
而残差网络改为拟合:
F ( x ) = H ∗ ( x ) − x \mathcal{F}(x) = H^*(x) - x F(x)=H(x)x
这使得当 F ( x ) = 0 \mathcal{F}(x)=0 F(x)=0时,网络退化为恒等映射,保证性能不劣化

5. 维度匹配的数学处理

当输入输出维度不匹配时,引入1×1卷积:
y = F ( x , W i ) + W s x \mathbf{y} = \mathcal{F}(\mathbf{x}, \mathbf{W}_i) + \mathbf{W}_s\mathbf{x} y=F(x,Wi)+Wsx
其中 W s \mathbf{W}_s Ws为线性变换矩阵,保证残差相加的维度一致性

通过上述数学设计,残差网络实现了:

  1. 梯度稳定传播(反向过程)
  2. 深层特征的有效累积(前向过程)
  3. 网络退化现象的根本性解决

残差网络(ResNet)相比普通直接卷积网络的核心优势体现在以下方面:

1. 解决梯度消失与网络退化问题

通过跳跃连接(Shortcut Connection)的残差结构,反向传播时梯度可绕过非线性层直接传递。数学上,第 l l l层的梯度为:
∂ L ∂ x l = ∂ L ∂ x L ⋅ ∏ i = l L − 1 ( 1 + ∂ F ( x i , W i ) ∂ x i ) \frac{\partial \mathcal{L}}{\partial x_l} = \frac{\partial \mathcal{L}}{\partial x_L} \cdot \prod_{i=l}^{L-1} \left( 1 + \frac{\partial F(x_i, W_i)}{\partial x_i} \right) xlL=xLLi=lL1(1+xiF(xi,Wi))
当残差项 ∂ F ∂ x i ≈ 0 \frac{\partial F}{\partial x_i} \approx 0 xiF0时,梯度 ∂ L ∂ x l ≈ ∂ L ∂ x L \frac{\partial \mathcal{L}}{\partial x_l} \approx \frac{\partial \mathcal{L}}{\partial x_L} xlLxLL,避免链式求导的指数衰减。

2. 优化目标简化

残差网络学习残差映射 F ( x ) = H ( x ) − x F(x) = H(x) - x F(x)=H(x)x,而非直接学习目标函数 H ( x ) H(x) H(x)。当最优映射接近恒等变换时,残差 F ( x ) → 0 F(x) \to 0 F(x)0比直接学习 H ( x ) → x H(x) \to x H(x)x更容易收敛。

3. 支持极深网络结构

普通CNN在超过20层时会出现性能退化(训练/测试误差同时上升),而ResNet通过残差块堆叠可构建超过1000层的网络,且准确率随深度增加持续提升(如ResNet-152在ImageNet上Top-5错误率仅3.57%)。

4. 参数效率与计算优化

  • 维度调整:使用1×1卷积调整通道数,参数量仅需 C i n × C o u t C_{in} \times C_{out} Cin×Cout,远少于3×3卷积的 9 C i n C o u t 9C_{in}C_{out} 9CinCout
  • 瓶颈结构:通过“1×1→3×3→1×1”的Bottleneck设计(如ResNet-50),在保持性能的同时减少计算量。

5. 实际性能优势

  • 分类任务:ResNet-50在ImageNet上的Top-1准确率达76.5%,比VGG-16提升约8%。
  • 训练效率:引入BN层后,ResNet训练速度比普通CNN快2-3倍,且收敛更稳定。

对比总结

特性普通CNNResNet
最大有效深度~20层>1000层
梯度传播稳定性易消失/爆炸通过跳跃连接稳定
训练误差随深度变化先降后升(退化)持续下降
参数量(同精度)较高更低(瓶颈结构)

这些设计使得ResNet成为计算机视觉任务的基础架构,广泛应用于图像分类、目标检测等领域。

以下是使用PyTorch实现的残差网络(ResNet)在MNIST手写数字识别中的示例:

import torch
import torch.nn as nn
import torchvision.transforms as transforms
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader

class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super().__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1),
            nn.BatchNorm2d(out_channels),
            nn.ReLU()
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(out_channels)
        )
        self.shortcut = nn.Sequential()
        if stride != 1 or in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm2d(out_channels)
            )
            
    def forward(self, x):
        residual = self.shortcut(x)
        out = self.conv1(x)
        out = self.conv2(out)
        out += residual
        out = nn.ReLU()(out)
        return out

class ResNetMNIST(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(1, 64, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU()
        )
        self.res_blocks = nn.Sequential(
            ResidualBlock(64, 64),
            ResidualBlock(64, 128, stride=2),
            ResidualBlock(128, 256, stride=2)
        )
        self.fc = nn.Sequential(
            nn.AdaptiveAvgPool2d((1,1)),
            nn.Flatten(),
            nn.Linear(256, 10)
        )
        
    def forward(self, x):
        x = self.conv1(x)
        x = self.res_blocks(x)
        x = self.fc(x)
        return x

# 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

# 加载数据集
train_set = MNIST(root='./data', train=True, download=True, transform=transform)
test_set = MNIST(root='./data', train=False, download=True, transform=transform)

# 创建数据加载器
train_loader = DataLoader(train_set, batch_size=128, shuffle=True)
test_loader = DataLoader(test_set, batch_size=128, shuffle=False)

# 初始化模型和优化器
model = ResNetMNIST()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss()

# 训练循环
for epoch in range(10):
    model.train()
    for images, labels in train_loader:
        outputs = model(images)
        loss = criterion(outputs, labels)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    # 测试准确率
    model.eval()
    correct = 0
    with torch.no_grad():
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            correct += (predicted == labels).sum().item()
    
    acc = 100 * correct / len(test_set)
    print(f'Epoch {epoch+1}, Test Accuracy: {acc:.2f}%')

关键实现细节说明

  1. 残差块设计:每个残差块包含两个3×3卷积层,通过shortcut连接处理维度变化
  2. 网络结构
    • 初始卷积层(3×3)提取基础特征
    • 三个残差块实现64→128→256通道的特征提取
    • 全局平均池化替代全连接层减少参数量
  3. 数据预处理
    • 标准化处理: μ = 0.1307 \mu=0.1307 μ=0.1307, σ = 0.3081 \sigma=0.3081 σ=0.3081
    • 输入维度:1×28×28(通道×高×宽)
  4. 训练配置
    • Adam优化器(学习率0.001)
    • 交叉熵损失函数
    • 批量大小128,训练10个epoch

该模型在MNIST测试集上通常能达到**99%+**的准确率。实际训练时可添加数据增强(随机旋转、平移)提升泛化能力,或使用学习率调度器优化收敛过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/971871.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】36.C++IO流

文章目录 1. C语言的输入与输出2. 流是什么3. CIO流3.1 C标准IO流3.2 C文件IO流 4. stringstream的简单介绍 1. C语言的输入与输出 C语言中我们用到的最频繁的输入输出方式就是scanf ()与printf()。 scanf(): 从标准输入设备(键盘)读取数据,并将值存放在变量中。pri…

#渗透测试#批量漏洞挖掘#Apache Log4j反序列化命令执行漏洞

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章读。 目录 Apache Log4j反序列化命令执行漏洞 一、…

JCRQ1河马算法+消融实验!HO-CNN-LSTM-Attention系列四模型多变量时序预测

JCRQ1河马算法消融实验!HO-CNN-LSTM-Attention系列四模型多变量时序预测 目录 JCRQ1河马算法消融实验!HO-CNN-LSTM-Attention系列四模型多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基于HO-CNN-LSTM-Attention、CNN-LSTM-Attent…

[STM32 - 野火] - - - 固件库学习笔记 - - - 十五.设置FLASH的读写保护及解除

一、选项字节与读写保护 1.1 为什么要设置读写保护 防止内部FLASH中的程序被非法读取。 在实际发布的产品中,STM32芯片的内部FLASH存储了控制程序。然而,如果不对内部FLASH采取任何保护措施,用户可以使用下载器直接读取其内容,并…

【算法与数据结构】字典树(Trie)详解

目录 一,字典树的定义 二,字典树的代码实现 完整代码详细注释: 测试用例测试结果: 三,处理其他字符 四,内存优化与扩展 1. 内存优化 2. 扩展功能 五,扩展功能支持通配符匹配 六&…

MySQL 之存储引擎(MySQL Storage Engine)

MySQL 之存储引擎 常见存储引擎及其特点 ‌InnoDB‌: ‌特点‌:支持事务处理、行级锁定、外键约束,使用聚簇索引,适合高并发读写和事务处理的场景‌。‌适用场景‌:需要高可靠性、高并发读写和事务处理的场景‌。 ‌M…

CXL ALMP(ARB/MUX Link Management Packet)理解

前言: ALMP(ARB/MUX Link Management Packet) 是CXL协议中由ARB/MUX层生成和处理的专用管理报文,用于协调链路电源状态切换(如L0s/L1)和虚拟链路状态机(vLSM)同步。以下是其核心特性…

002 SpringCloudAlibaba整合 - Feign远程调用、Loadbalancer负载均衡

前文地址: 001 SpringCloudAlibaba整合 - Nacos注册配置中心、Sentinel流控、Zipkin链路追踪、Admin监控 文章目录 8.Feign远程调用、loadbalancer负载均衡整合1.OpenFeign整合1.引入依赖2.启动类添加EnableFeignClients注解3.yml配置4.日志配置5.远程调用测试6.服务…

计算机网络(3)TCP格式/连接

1、TCP三大特点:面向连接、可靠、基于字节流 2、如何唯一确定一个TCP连接?TCP四元组:源地址、源端口、目的地址、目的端口 源地址和目标地址的字段(32 位)是在 IP 头部中,作用是通过 IP 协议发送报文给对方主机源端口和目标端口…

vscode远程报错:Remote host key has changed,...

重装了Ubuntu系统之后,由20.04改为22.04,再用vscode远程,就出现了以上报错。 亲测有效的办法 gedit ~/.ssh/known_hosts 打开这个配置文件 删掉与之匹配的那一行,不知道删哪一行的话,就打开第一行这个 /.ssh/confi…

无符号整数和带符号整数的相互转换

无符号字符数x转换为带符号字符数时,当时,转换后仍然为x;当时,转换后变为。 带符号字符数y转换为无符号字符数时,当时,转换后变为;当时,转换后仍然为y。 无符号整数和带符号整数的…

浏览器报错:无法访问此网站 无法找到xxx.xxx.net的DNS地址。正在诊断该问题。尝试运行Windows网络诊断。DNS_PROBE_STARTED

🤟致敬读者 🟩感谢阅读🟦希望我的文章能帮到您🟪如有兴趣可点关注了解更多内容 📘博主信息 点击标题👆有惊喜 📃文章前言 🔷文章均为学习和工作中整理的笔记,分享记录…

2025-02-18 学习记录--C/C++-PTA 7-25 念数字

一、题目描述 ⭐️ 二、代码&#xff08;C语言&#xff09;⭐️ /*** 输入一个整数&#xff0c;输出每个数字对应的拼音。当整数为负数时&#xff0c;先输出fu字。*/#include <stdio.h>// 输出 正数 中 各位数 对应的 拼音 void getLetter(int num) {// 10个数字&#x…

VirtualBox 中使用 桥接网卡 并设置 MAC 地址

在 VirtualBox 中使用 桥接网卡 并设置 MAC 地址&#xff0c;可以按照以下步骤操作&#xff1a; 步骤 1&#xff1a;设置桥接网卡 打开 VirtualBox&#xff0c;选择你的虚拟机&#xff0c;点击 “设置” (Settings)。进入 “网络” (Network) 选项卡。在 “适配器 1” (Adapt…

Fiddler笔记

文章目录 一、与F12对比二、核心作用三、原理四、配置1.Rules:2.配置证书抓取https包3.设置过滤器4、抓取App包 五、模拟弱网测试六、调试1.线上调试2.断点调试 七、理论1.四要素2.如何定位前后端bug 注 一、与F12对比 相同点&#xff1a; 都可以对http和https请求进行抓包分析…

【数据结构初阶第十节】队列(详解+附源码)

好久不见。。。别不开心了&#xff0c;听听喜欢的歌吧 必须有为成功付出代价的决心&#xff0c;然后想办法付出这个代价。云边有个稻草人-CSDN博客 目录 一、概念和结构 二、队列的实现 Queue.h Queue.c test.c Relaxing Time&#xff01; ————————————《有没…

idea无法联网,离线安装插件

插件地址&#xff1a;https://plugins.jetbrains.com/ JetBrains Marketplace 如果无法进入&#xff0c;可以试试 配置hosts 3.163.125.103 plugins.jetbrains.com ip 变了&#xff0c;可以查询个最新的&#xff1a; https://tool.chinaz.com/speedtest/plugins.jetbrai…

二十多年前的苹果电源Power Mac G4 Mdd 电源接口

在1999年&#xff0c;苹果推出了最初的Power Mac G4电脑。第一代Power Mac G4有与G3系列相似的外壳和两种主板设置&#xff0c;分别使用PCI和AGP显示总线。第二代电脑被昵称为快银或水银机&#xff0c;来自2001年的它们有更高速的PowerPC 7450系列芯片&#xff0c;增强了L2缓存…

qt:按钮的常见操作(简单方向键项目)

1.圆形按钮 首先&#xff0c;设置圆形按钮&#xff0c;首先要将setGeometry(x位置&#xff0c;y位置&#xff0c;长&#xff0c;宽)中的长和宽设置为相等&#xff0c;再使用一下模板 q2->setStyleSheet("QPushButton {"" background-color: black;"…

SAP-ABAP:外部断点设置详解

在 SAP 中打外部断点&#xff08;External Breakpoint&#xff09;是调试 ABAP 程序的一种常用方法&#xff0c;尤其是在调试标准程序、增强或用户出口时。外部断点允许开发人员在特定用户或特定会话中触发断点&#xff0c;而不会影响其他用户。以下是使用外部断点时需要注意的…