自回归基于先前预测后续一、标准自回归RQ-VAE 2022、LlamaGen 2024存在的问题“单向的生成模型”与“双向编码的token”之间的错配预测图像标记时采用光栅扫描顺序并使用其潜在空间与二维图像空间对齐的分词器。然而该策略会在标记之间产生双向依赖关系即不止后文依赖于前文前文也依赖于后文导致对齐不准确因而对于因果自回归生成效果欠佳。二、掩码自回归MaskGIT 2022、MAR 2024解决采用双向注意力机制的掩码即生成模型也变成双向1.MaskGIT1基于两阶段图像生成范式第一阶段图像离散化采用分词器常见的包含编码器、量化器、解码器如VQ-VAE、VQ-GAN把图像映射成一个离散的词元序列。第二阶段序列建模在离散词元序列上训练一个强大的序列模型如Transformer学习词元序列的联合概率分布。在生成时由这个序列模型自回归地预测出整个词元序列再交给第一阶段的解码器还原为图像。2源于语言模型中的BERT 2019训练时随机遮盖输入句子中15%的词包括左右两侧的上下文然后要求模型预测被遮盖的词是什么。GPT单向注意力必须按顺序“从左到右”一个词一个词生成因为后面的词依赖于已生成的前文。BERT双向注意力所有[MASK]位置在生成时互不依赖因为它们同时获得了左右完整上下文不同的[MASK]之间默认独立。因此可以高度并行地一次完成所有“填空”。3训练与推理训练与1相似特殊的是[MASK]占的比例不固定由掩码调度函数γ(r)决定r为解码进度——即在解码过程的不同节点采用不同的掩码比例。可形式化表示为最小化损失L_mask - E[ Σ log P(y_i | Y_masked) ]。推理每轮并行生成所有[MASK]词元取最有把握的一部分确定下来。2.MAR1连续Token思考自回归模型一定需要离散值标记吗不关键在于需要能够建模分布。真正需要的是用于分布建模的损失函数及其对应的采样器。方法用扩散模型表示每个token概率分布在连续值空间中应用自回归模型。使用“连续值分词器”而不使用“向量量化分词器”向量量化分词器难以训练且对梯度近似策略敏感其重构质量通常逊于连续值分词器。2扩散损失损失函数与一般的扩散损失形式相同即要使预测出的噪声尽可能接近实际噪声。其中x是真实tokenz是自回归网络生成的条件向量是噪声t是时间步长是一个小型MLP网络。采样器温度采样计算一次z代价高所以训练时给每个z配多个t来计算损失。直观地讲z是一次性的、基于“前文”的预测。这个 z 完全基于它所看到的已生成 token“前文”而产生。它编码了“根据前文下一个 token 大概是什么”的全部信息。采样不同 t是在进行一场包含“简单题”和“难题”的综合考试。我们想知道这个基于有限上下文生成的 z质量到底有多高当 t 很小噪声很弱时我们在考 z 的精确度“这个 z 能多精确地恢复出 x 的细节”当 t 很大噪声很强时我们在考 z 的结构引导能力“这个 z 是否抓住了核心结构以至于即使 x 被严重破坏依然能被引导回正确的大方向”通过对同一个 z 随机采样多个 t我们相当于用一套涵盖了各种难度的试卷对 z 的质量进行了一次全方位的综合评估。核心目的计算更稳定、更全面的梯度以训练主干网络。3推理策略MaskGIT的推理策略造成“推理-训练gap”训练采用的是完全随机的掩码而推理时却是有强烈偏好的掩码模式。因为被掩码的位置几乎总是模型“最不确定”的区域这就导致了gap——模型在训练时从未见过“所有简单 token 都已知只留最难 token 被掩码”这种极端情况推理时却要处理它。MAR未采用上面的策略训练、推理都随机。三、尺度自回归VAR 2024从下一token预测拓展为从粗到细的下一尺度/分辨率预测1.下一尺度预测公式实现阶段一训练一个多尺度VQ自编码器将图像编码为多尺度token maps。阶段二训练VAR transformer学习“下一尺度预测”。右边的掩码图L表示序列总长度三个尺度下为14行表示当前处理的tokenquery列表示当前可以看到的tokenkey。比如第5行未被掩码的方格有5个这表示第二尺度的这个token可以看到第一、二尺度的共5个token。2.特性证实了VAR具有类LLMs的缩放定律与零样本泛化。缩放定律模型参数量、训练数据量、计算资源这三者之间呈现出可预测的幂律关系。更大的模型、更多的数据、更长的训练时间会让模型变得多好。零样本学习在完全没有特定任务示例的情况下模型仅凭指令就能正确完成该任务。