别再死记ResNet结构图了！用PyTorch手写一个18层残差网络（附代码逐行解析）

张

张建站

2026/6/5 17:12:18

10分钟阅读

别再死记ResNet结构图了！用PyTorch手写一个18层残差网络（附代码逐行解析）

用PyTorch从零构建ResNet-18残差连接的本质与实现细节在深度学习领域ResNet残差网络无疑是计算机视觉任务中的里程碑式架构。许多教程会展示复杂的网络结构图但真正理解ResNet的最佳方式莫过于亲手实现它。本文将带您用PyTorch构建一个完整的ResNet-18模型通过代码揭示残差连接的核心思想让抽象的结构图变得具体可操作。1. 残差网络基础概念残差网络的核心创新在于引入了跳跃连接skip connection解决了深层网络训练中的梯度消失问题。传统神经网络中数据需要经过层层变换而ResNet允许原始输入跳过某些层直接与后续层的输出相加。这种设计带来了两个关键优势梯度传播更高效反向传播时梯度可以通过跳跃连接直接回传缓解了深层网络的梯度衰减网络更容易优化即使添加的层没有提升性能模型至少可以保持与浅层网络相当的表现不会更差在PyTorch中实现残差块时我们需要特别注意输入输出维度匹配的问题。当维度不匹配时如特征图尺寸变化或通道数变化需要通过1x1卷积进行维度调整这就是结构图中虚线与实线的区别所在。2. ResNet-18整体架构设计ResNet-18由以下几个主要部分组成初始卷积层7x7卷积步长2配合3x3最大池化进行初步下采样四个残差阶段conv2_x到conv5_x每个阶段包含多个残差块全局平均池化将空间维度降为1x1全连接分类层输出对应类别数让我们用表格更清晰地展示ResNet-18各层的配置层级名称残差块数量输出通道数特征图尺寸是否下采样conv1-64112x112是maxpool-6456x56是conv2_x26456x56否conv3_x212828x28是conv4_x225614x14是conv5_x25127x7是3. 实现基础残差块我们先实现最基本的残差块这是构建整个网络的基础组件。在ResNet-18中每个残差块包含两个3x3卷积层中间通过BatchNorm和ReLU激活函数连接。import torch import torch.nn as nn class BasicBlock(nn.Module): expansion 1 # 扩展系数基础块中为1 def __init__(self, in_channels, out_channels, stride1, downsampleNone): super(BasicBlock, self).__init__() self.conv1 nn.Conv2d( in_channels, out_channels, kernel_size3, stridestride, padding1, biasFalse ) self.bn1 nn.BatchNorm2d(out_channels) self.relu nn.ReLU(inplaceTrue) self.conv2 nn.Conv2d( out_channels, out_channels, kernel_size3, stride1, padding1, biasFalse ) self.bn2 nn.BatchNorm2d(out_channels) self.downsample downsample self.stride stride def forward(self, x): identity x out self.conv1(x) out self.bn1(out) out self.relu(out) out self.conv2(out) out self.bn2(out) if self.downsample is not None: identity self.downsample(x) out identity out self.relu(out) return out注意downsample参数用于处理维度不匹配的情况当输入输出维度不同时如进行下采样或通道数变化需要通过1x1卷积调整维度。4. 构建完整的ResNet-18网络现在我们可以利用基础残差块来组装完整的ResNet-18网络。关键在于正确处理各阶段之间的过渡特别是当下采样发生时。class ResNet(nn.Module): def __init__(self, block, layers, num_classes1000): super(ResNet, self).__init__() self.in_channels 64 # 初始卷积层 self.conv1 nn.Conv2d(3, 64, kernel_size7, stride2, padding3, biasFalse) self.bn1 nn.BatchNorm2d(64) self.relu nn.ReLU(inplaceTrue) self.maxpool nn.MaxPool2d(kernel_size3, stride2, padding1) # 四个残差阶段 self.layer1 self._make_layer(block, 64, layers[0]) self.layer2 self._make_layer(block, 128, layers[1], stride2) self.layer3 self._make_layer(block, 256, layers[2], stride2) self.layer4 self._make_layer(block, 512, layers[3], stride2) # 分类头 self.avgpool nn.AdaptiveAvgPool2d((1, 1)) self.fc nn.Linear(512 * block.expansion, num_classes) def _make_layer(self, block, out_channels, blocks, stride1): downsample None if stride ! 1 or self.in_channels ! out_channels * block.expansion: downsample nn.Sequential( nn.Conv2d( self.in_channels, out_channels * block.expansion, kernel_size1, stridestride, biasFalse ), nn.BatchNorm2d(out_channels * block.expansion), ) layers [] layers.append(block(self.in_channels, out_channels, stride, downsample)) self.in_channels out_channels * block.expansion for _ in range(1, blocks): layers.append(block(self.in_channels, out_channels)) return nn.Sequential(*layers) def forward(self, x): x self.conv1(x) x self.bn1(x) x self.relu(x) x self.maxpool(x) x self.layer1(x) x self.layer2(x) x self.layer3(x) x self.layer4(x) x self.avgpool(x) x torch.flatten(x, 1) x self.fc(x) return x提示_make_layer方法是构建每个残差阶段的核心它处理了第一个块的维度匹配问题可能使用下采样然后添加剩余的残差块。5. 实例化ResNet-18并验证结构现在我们可以创建ResNet-18实例并验证其结构与预期是否一致def resnet18(num_classes1000): return ResNet(BasicBlock, [2, 2, 2, 2], num_classes) # 创建模型实例 model resnet18() # 打印模型结构 print(model) # 验证输入输出 dummy_input torch.randn(1, 3, 224, 224) output model(dummy_input) print(fOutput shape: {output.shape}) # 应为 [1, 1000]通过这段代码我们可以看到完整的ResNet-18结构并能验证输入输出维度是否符合预期。特别值得注意的是输入图像尺寸应为224x224ImageNet标准经过各阶段下采样后最终特征图尺寸为7x7全局平均池化将空间维度降为1x1最后的全连接层输出1000维向量对应ImageNet的1000类6. 残差连接的关键实现细节在实现ResNet时有几个关键细节需要特别注意Batch Normalization的使用每个卷积层后都紧跟BN层加速训练并提高稳定性BN层在推理时会使用移动平均的统计量ReLU激活函数的位置在每个残差块内部有两个ReLU激活但残差相加后还需要一个ReLU激活这种设计被称为post-activation下采样处理在conv3_x、conv4_x、conv5_x的第一个残差块会进行下采样stride2同时需要通过1x1卷积调整捷径分支的维度数初始化卷积层通常使用He初始化BN层的γ初始化为1β初始化为0# 参数初始化示例 def init_weights(m): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, modefan_out, nonlinearityrelu) elif isinstance(m, nn.BatchNorm2d): nn.init.constant_(m.weight, 1) nn.init.constant_(m.bias, 0) model.apply(init_weights)7. 训练技巧与常见问题在实际使用ResNet-18时以下几个技巧可以帮助获得更好的效果学习率调整初始学习率设为0.1每30个epoch乘以0.1权重衰减通常设为1e-4防止过拟合数据增强随机水平翻转、颜色抖动等标签平滑缓解模型对预测结果的过度自信常见问题及解决方案训练初期损失不下降检查初始化是否正确确认输入数据归一化通常使用ImageNet的均值和标准差验证准确率波动大增大batch size使用更激进的学习率衰减模型过拟合增加数据增强尝试dropout虽然原论文未使用调整权重衰减系数# 示例训练循环框架 optimizer torch.optim.SGD(model.parameters(), lr0.1, momentum0.9, weight_decay1e-4) scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size30, gamma0.1) criterion nn.CrossEntropyLoss() for epoch in range(100): model.train() for inputs, labels in train_loader: optimizer.zero_grad() outputs model(inputs) loss criterion(outputs, labels) loss.backward() optimizer.step() scheduler.step() # 验证过程 model.eval() with torch.no_grad(): # 计算验证集指标...通过这次从零实现ResNet-18的过程我们不仅理解了残差网络的结构更重要的是掌握了如何将论文中的概念转化为实际可运行的代码。这种能力对于深度学习工程师来说至关重要——它让我们能够真正理解模型的工作原理而不仅仅是调用现成的API。

Gemma-4-31B-it混合注意力机制解析：滑动窗口与全局注意力设计

Gemma-4-31B-it混合注意力机制解析：滑动窗口与全局注意力设计【免费下载链接】gemma-4-31B-it 项目地址: https://ai.gitcode.com/hf_mirrors/google/gemma-4-31B-it Gemma-4-31B-it是一款由Google开发的先进大型语言模型，其核心优势在于创新性…...

2026/6/5 17:11:06 阅读更多 →

10亿训练样本打造的all-MiniLM-L6-v1-openmind：技术原理与性能优势深度解析

10亿训练样本打造的all-MiniLM-L6-v1-openmind：技术原理与性能优势深度解析【免费下载链接】all-MiniLM-L6-v1-openmind 项目地址: https://ai.gitcode.com/hf_mirrors/jeffding/all-MiniLM-L6-v1-openmind 在人工智能和自然语言处理领域，all-M…...

2026/6/5 17:10:13 阅读更多 →