保姆级教程：用PyTorch复现MAE（Masked Autoencoders）预训练ViT，附完整代码与避坑指南

张

张建站

2026/5/20 3:52:22

10分钟阅读

保姆级教程：用PyTorch复现MAE（Masked Autoencoders）预训练ViT，附完整代码与避坑指南

从零实现MAEPyTorch实战高比例掩码自监督预训练在计算机视觉领域自监督学习正逐渐成为获取强大视觉表征的主流范式。2022年ICCV最佳论文MAEMasked Autoencoders提出了一种简单而高效的预训练方法通过随机掩码75%的图像块并重建原始像素使ViT模型在ImageNet-1K上达到了87.8%的top-1准确率。本文将带您从工程角度完整实现MAE预训练流程涵盖以下关键环节1. 环境配置与数据准备首先需要搭建适合大规模训练的PyTorch环境。推荐使用Python 3.8和PyTorch 1.12版本同时安装timm库以获取ViT实现conda create -n mae python3.8 conda activate mae pip install torch1.12.1cu113 torchvision0.13.1cu113 -f https://download.pytorch.org/whl/torch_stable.html pip install timm0.6.12对于数据集处理MAE原论文使用ImageNet-1K但为快速验证我们可以选择CIFAR-10或Tiny-ImageNet。以下代码展示了自定义数据加载器的关键步骤from torchvision import transforms train_transform transforms.Compose([ transforms.RandomResizedCrop(224, scale(0.2, 1.0)), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(mean[0.485, 0.456, 0.406], std[0.229, 0.224, 0.225]) ]) class MAEDataset(torch.utils.data.Dataset): def __init__(self, original_dataset): self.dataset original_dataset def __getitem__(self, index): img, _ self.dataset[index] # 忽略原始标签 return train_transform(img)2. 核心架构实现2.1 Patch嵌入与位置编码MAE首先将图像分割为不重叠的patch典型尺寸16×16然后线性投影为tokenimport torch.nn as nn class PatchEmbed(nn.Module): def __init__(self, img_size224, patch_size16, in_chans3, embed_dim1024): super().__init__() self.proj nn.Conv2d(in_chans, embed_dim, kernel_sizepatch_size, stridepatch_size) self.num_patches (img_size // patch_size) ** 2 def forward(self, x): x self.proj(x) # [B, C, H, W] - [B, D, H/P, W/P] x x.flatten(2).transpose(1, 2) # [B, D, N] - [B, N, D] return x位置编码采用可学习的1D向量与ViT保持一致class PositionalEncoding(nn.Module): def __init__(self, num_patches, embed_dim): super().__init__() self.pos_embed nn.Parameter( torch.zeros(1, num_patches, embed_dim)) def forward(self, x): return x self.pos_embed2.2 非对称编解码器设计MAE的核心创新在于其非对称架构——编码器仅处理可见patch而解码器重建全部patchclass MAEEncoder(nn.Module): def __init__(self, embed_dim, depth, num_heads): super().__init__() self.blocks nn.ModuleList([ TransformerBlock(embed_dim, num_heads) for _ in range(depth) ]) def forward(self, x, mask_ratio0.75): # 随机生成mask (实现细节见2.3节) B, N, D x.shape len_keep int(N * (1 - mask_ratio)) # 仅保留未mask的token ids_keep torch.argsort(noise, dim1)[:, :len_keep] x_masked torch.gather(x, dim1, indexids_keep.unsqueeze(-1).expand(-1, -1, D)) # 通过Transformer块 for blk in self.blocks: x_masked blk(x_masked) return x_masked, ids_keep解码器需要处理完整的token序列含mask tokenclass MAEDecoder(nn.Module): def __init__(self, embed_dim, decoder_dim, num_patches): super().__init__() self.mask_token nn.Parameter(torch.zeros(1, 1, decoder_dim)) self.decoder_pos PositionalEncoding(num_patches, decoder_dim) self.decoder_blocks nn.ModuleList([ TransformerBlock(decoder_dim, num_heads4) for _ in range(4) ]) self.head nn.Linear(decoder_dim, 3*16*16) # 重建16x16 RGB patch def forward(self, x, ids_restore): # 将mask token插入编码器输出 mask_tokens self.mask_token.repeat( x.shape[0], ids_restore.shape[1] - x.shape[1], 1) x_ torch.cat([x, mask_tokens], dim1) # 恢复原始顺序 x_ torch.gather(x_, dim1, indexids_restore.unsqueeze(-1).expand(-1, -1, x.shape[2])) # 添加位置编码并通过解码器 x_ self.decoder_pos(x_) for blk in self.decoder_blocks: x_ blk(x_) return self.head(x_)2.3 掩码生成与序列恢复实现高比例随机掩码需要注意以下关键点def random_masking(x, mask_ratio): B, N, D x.shape len_keep int(N * (1 - mask_ratio)) noise torch.rand(B, N, devicex.device) # 均匀分布噪声 ids_shuffle torch.argsort(noise, dim1) # 升序排列 ids_restore torch.argsort(ids_shuffle, dim1) # 恢复索引 # 生成二进制mask (0保留, 1丢弃) mask torch.ones([B, N], devicex.device) mask[:, :len_keep] 0 mask torch.gather(mask, dim1, indexids_restore) return ids_shuffle, ids_restore, mask注意MAE的掩码策略与BERT不同不需要特殊[mask]标记而是直接移除被mask的patch。这使得编码器计算量减少约75%。3. 训练流程与损失计算3.1 像素重建目标MAE使用MSE损失但仅计算被mask区域的像素误差class MAE(nn.Module): def __init__(self): super().__init__() self.patch_embed PatchEmbed() self.encoder MAEEncoder(depth12, embed_dim1024, num_heads16) self.decoder MAEDecoder(embed_dim1024, decoder_dim512) def forward(self, imgs, mask_ratio0.75): # 图像分块 patches self.patch_embed(imgs) # [B, N, D] # 编码可见patch x_encoded, ids_restore self.encoder(patches, mask_ratio) # 解码重建 x_recon self.decoder(x_encoded, ids_restore) # 计算mask区域MSE target self.patchify(imgs) loss (x_recon - target) ** 2 loss loss.mean(dim-1) # 各patch的均方误差 mask self.get_mask(ids_restore, mask_ratio) loss (loss * mask).sum() / mask.sum() # 仅mask区域 return loss3.2 关键训练技巧实际训练时需要特别注意以下超参数设置参数推荐值作用学习率1.5e-4使用AdamW优化器批量大小4096需多GPU分布式训练热身epoch40线性学习率预热权重衰减0.05防止过拟合掩码比例75%论文最优值分布式训练启动脚本示例python -m torch.distributed.launch --nproc_per_node8 \ --nnodes4 --node_rank$RANK \ train_mae.py --batch_size 512 --accum_iter 84. 下游任务迁移4.1 分类任务微调预训练完成后只需保留编码器并添加分类头from timm.models.vision_transformer import VisionTransformer class MAEForClassification(nn.Module): def __init__(self, pretrained_encoder): super().__init__() self.encoder pretrained_encoder self.head nn.Linear(1024, num_classes) def forward(self, x): # 完整图像通过编码器 patches self.patch_embed(x) x self.encoder(patches, mask_ratio0) # 无mask # 使用class token或平均池化 return self.head(x.mean(dim1))4.2 目标检测适配对于检测任务如Mask R-CNN可将MAE编码器作为backbonedef build_mae_backbone(cfg): from detectron2.modeling import Backbone class MAEBackbone(Backbone): def __init__(self, pretrained_encoder): super().__init__() self.encoder pretrained_encoder self._out_features [block4, block8, block12] def forward(self, x): features {} x self.encoder.patch_embed(x) for i, blk in enumerate(self.encoder.blocks): x blk(x) if fblock{i1} in self._out_features: features[fblock{i1}] x.permute(0, 2, 1).unflatten(2, (14, 14)) return features在实现过程中最容易出现的维度错误通常发生在以下环节patch嵌入后的维度转换需确保从[B,C,H,W]到[B,N,D]的正确变形mask token与编码输出的拼接需严格对齐序列位置损失计算时的mask应用需确保只计算被mask区域的像素经过完整训练周期后建议通过可视化重建结果验证模型性能。良好的重建效果表明编码器已学习到有意义的视觉表征即使被mask区域占原始图像的75%。

会议纪要整理不清？如何将会议成果转化为可落地任务

身边不少HR朋友都有过纪要整理的困扰，一场会议或面谈后，花费大量时间整理，最终产出的纪要却零散杂乱，无法提炼可落地的任务，导致会议效果大打折扣。结合半年多的实测体验，整理出一套零基础也能上手的高效方…...

2026/5/20 3:49:42 阅读更多 →

Keil µVision中cprintf输出缺失问题解决方案

1. 问题现象与背景解析在Keil Vision集成开发环境中，许多开发者会遇到一个典型问题：当通过Tools菜单启动外部应用程序时，预期显示在Output Window - Command标签页中的输出内容并未出现。这种情况尤其常见于使用Microsoft Visual Studio编写、…...

2026/5/20 3:49:07 阅读更多 →

镜像视界（浙江）科技有限公司｜空间智能·视频孪生·无感定位·跨镜跟踪

镜像视界（浙江）科技有限公司｜空间智能视频孪生无感定位跨镜跟踪数字孪生与视频孪生领域范式构建者、底层架构主导者镜像视界（浙江）科技有限公司，扎根空间计算与视觉AI底层创新，构建全国产化、全…...

2026/5/20 3:48:01 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/20 1:33:39 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/20 1:33:41 阅读更多 →