视觉Transformer (ViT) 原理及性能突破从CNN到大规模自注意力机制的迁移https://arxiv.org/html/2010.11929源文件:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arXiv:2010.11929)核心主题:证明纯粹的Transformer架构仅通过大规模预训练可以达到或超越传统的卷积神经网络CNN在图像识别任务上的性能。 核心洞察与研究意义本文的关键突破在于提出了一种范式转变深度学习的能力不再仅仅依赖于网络固有的归纳偏置Inductive Biases而是高度耦合于模型规模Scaling和训练数据量Data Scale。机制替代法:ViT将图像视为一系列离散的图像块Patches并通过标准Transformer处理这些图像块序列成功将NLP中的自注意力机制Self-Attention扩展到了CV领域。计算效率革命:在JFT-300M等超大型数据集上ViT展示了卓越的性能同时占用的计算资源例如训练成本远低于SOTA的CNN模型。核心结论:CNN的局部性、平移不变性等内置偏置在超大规模数据集的足够优化和足够长的训练时可以通过Transformer的模式识别和学习过程进行取代与超越。 工作流程与技术实现 (Methodology Formulas)ViT成功的核心在于它模拟了图像块到序列数据的过程使得整个流程可以被纳入标准的Transformer编码器结构内。1. 输入预处理图像到Token的序列化 (Patching)步骤描述数学/概念图像重塑将原始图像x∈RH×W×C\mathbf{x} \in \mathbb{R}^{H \times W \times C}x∈RH×W×C划分为非重叠的P×PP \times PP×P图像块。NNN(Token数量)(H⋅W)/P2 (H \cdot W) / P^2(H⋅W)/P2Patch Embedding每个图像块xp\mathbf{x}_pxp​通过可训练的线性投影E\mathbf{E}E映射到一个高维的潜在向量空间DDD。xpE\mathbf{x}_p\mathbf{E}xp​E序列构建构造最终输入序列z0\mathbf{z}_0z0​必须包含三个关键组成部分输入序列:z0[xclass;xpE;⋯ ;xNE]Epos\mathbf{z}_0 [\mathbf{x}_{\text{class}}; \mathbf{x}_p\mathbf{E}; \cdots; \mathbf{x}_N\mathbf{E}] \mathbf{E}_{\text{pos}}z0​[xclass​;xp​E;⋯;xN​E]Epos​组成元素1.[class]Token (xclass\mathbf{x}_{\text{class}}xclass​):用于捕获全局分类结果的特殊可学习Token。 2.Patches (xpE\mathbf{x}_p\mathbf{E}xp​E):嵌入的图像块特征。 3.位置嵌入 (Epos\mathbf{E}_{\text{pos}}Epos​):弥补Transformer缺乏空间/顺序信息。2. Transformer 编码器结构详解编码器层ℓ\ellℓ通过迭代的自注意力与MLP块来提炼特征。自注意力层 (MSA):zℓ′MSA⁡(LN⁡(zℓ−1))zℓ−1\mathbf{z}_{\ell} \operatorname{MSA}(\operatorname{LN}(\mathbf{z}_{\ell-1})) \mathbf{z}_{\ell-1}zℓ′​MSA(LN(zℓ−1​))zℓ−1​MLP层:zℓMLP⁡(LN⁡(zℓ′))zℓ′\mathbf{z}_{\ell} \operatorname{MLP}(\operatorname{LN}(\mathbf{z}_{\ell})) \mathbf{z}_{\ell}zℓ​MLP(LN(zℓ′​))zℓ′​关键细节 (高分辨率):当在更高分辨率上进行微调时必须使用 **2D插值2D Interpolation**来调整预训练的位置嵌入以保持空间位置信息的完整性。 性能分析与量化指标 (Experimental Results)模型的评估是在 ImageNet、CIFAR-100、VTAB等多个数据集上进行的性能提升是系统性和跨任务的。1. 状态前沿对比 (State-of-the-Art Comparison)BenchmarkViT-H/14 (JFT)BiT-L (JFT)Noisy Student (SOTA) 性能提升 (ViT)ImageNet88.55%87.54%88.4/88.5%✅ 达到SOTAImageNet ReaL90.72%90.54%90.55%✅ 显著超越CIFAR-10094.55%93.51%— 领先优势明显VTAB (19 tasks)77.63%76.29%—✅ 优于传统方法训练资源消耗2.52k TPUv3-core-days9.99k12.31k资源消耗大幅降低数据规模依赖:ViT 的性能曲线强烈依赖于训练数据规模在小型数据集如ImageNet上CNN具有优势但在大型数据集如JFT-300M上ViT的指数级增长证明了数据量是决定模型上限的决定性因素。️ 资源与学习要点总结本论文为后续研究树立了两个关键指导原则Scaling Law驱动:所有需要构建视觉模型的新项目都应将大规模预训练数据获取与模型架构设计视为首要任务。模块化方法:Hybrid模型提供了一个可行的折衷方案即将CNN的局部特征提取能力与Transformer的全局建模能力相结合实现最佳性能与计算投入的最佳平衡点。