苹果与伊利诺伊大学:四步AI绘图实现媲美五十步生成质量能力提升
这项由苹果公司Apple与伊利诺伊大学香槟分校UIUC联合开展的研究于2026年5月以预印本形式发布在arXiv平台论文编号为arXiv:2605.08078。研究提出了一种名为正则化轨迹模型Normalizing Trajectory Models简称NTM的全新图像生成框架致力于用极少的计算步骤生成高质量图像同时保留严格的概率理论基础。当你让一个AI系统根据文字描述画一张图时它其实在做一件有点像从混沌中雕刻秩序的事情从一张完全随机的噪点图出发一步一步地把它变成你想要的那张清晰图像。这个过程就像雕塑家从一块粗糙的大理石里凿出一尊雕像——每一刀都让它更接近最终形态。然而这个过程有一个让工程师头疼的问题雕塑家需要凿很多刀才能保证质量通常是五十刀甚至更多。如果你强迫雕塑家只用四刀完成结果往往是一个模糊、粗糙、说不清是人是鬼的东西。这正是当前AI图像生成领域面临的核心困境——在追求速度少步骤和追求质量之间存在着看起来难以逾越的鸿沟。研究团队的突破在于他们发现问题的根源不是步骤不够多而是每一步用的数学工具太简单。传统方法在每一步都假设图像变化符合一种叫做高斯分布的钟形曲线规律就好比每次雕刻都只会用同一种固定力度的凿子。NTM则引入了更灵活的可逆变换器让每一步都能适应图像实际的复杂变化就像换了一套可以随时调整角度和力度的精密雕刻工具。最终结果令人印象深刻NTM只用四步就达到了传统方法需要五十步才能实现的图像质量。---一、为什么少走几步在AI画图里这么难在展开NTM的具体原理之前有必要先弄清楚传统方法的瓶颈究竟在哪里。现有的主流AI图像生成技术无论是大名鼎鼎的DALL-E、Stable Diffusion还是后来居上的FLUX都建立在同一个核心假设之上图像从噪点变成清晰图像的每一小步其概率分布都可以用一个钟形曲线高斯分布来近似描述。这个假设本身并不荒谬——当每一步的跨度很小时这个近似确实相当准确就好比你从北京到上海如果每次只走一米那每一步的方向误差基本可以忽略不计。但如果你想从北京一步跨到上海呢每一步的跨度变大了那个钟形曲线假设就开始失效了。在数学上当步骤减少时每一步需要跨越的变化区间变大真实的概率分布会变成多个钟形曲线叠加在一起的复杂形状——有时候呈现多个峰值有时候拖着一条很长的尾巴。单一的钟形曲线根本无法准确描述这种复杂性导致生成的图像质量急剧下降。以往研究者们为了解决这个问题尝试了三条路。第一条是蒸馏distillation让一个擅长走许多小步的老师模型把它的知识压缩给一个只走少数步的学生模型就像把一本厚厚的百科全书提炼成一张知识卡片。第二条是一致性模型consistency models训练模型直接预测从任意噪点到最终图像的结果绕过中间过程。第三条是对抗训练GAN-based方法引入一个挑剔的评判者来训练模型让生成结果看起来更真实。这三条路各有成效但都有一个共同的代价它们都放弃了精确计算概率的能力。换句话说你无法用这些模型精确地衡量这张图在数学上有多大概率真实存在。这就好比你虽然能快速画出一幅不错的山水画但你说不清楚这幅画里的每一笔在数学上各自代表什么含义。NTM的研究团队认为这个代价是不必要的。他们想找到一条既快速少步骤又精确可计算概率的道路。---二、NTM的核心思路在秘密空间里让困难问题变简单NTM的核心思路用一个直观的比喻来说就像是在解一道复杂的数学题时换了一个坐标系。原来的坐标系里计算很复杂换到新坐标系之后同样的问题变得容易多了——计算完再把结果转换回来即可。NTM里扮演换坐标系角色的组件被研究者称为可逆变换器transporter。具体来说NTM由两个协同工作的核心部件构成。第一个叫变换器transporter它的任务是把原始图像空间里的数据映射到一个经过精心设计的潜在空间latent space里。在这个新空间里图像在每一步之间的变化规律恰好能被一个简单的钟形曲线准确描述——那些在原始空间里令人头疼的多峰分布和厚尾分布在新空间里都被拉直了。第二个部件叫预测器predictor它在新的潜在空间里工作负责预测图像从噪点到清晰这一过程中每一步应该如何演变。由于新空间里的分布已经足够简单预测器只需要一个较为直接的数学模型就能完成任务。这两个部件合在一起形成了一个完整的正则化流normalizing flow——这是数学上一类经典的可逆映射工具。可逆这个性质至关重要因为变换器是可逆的你可以精确地追踪数据在变换前后的概率变化从而用一个叫做变量替换公式的数学工具精确计算出图像在整个生成轨迹上的概率。还有一个巧妙的设计值得专门提及这两个部件共享参数。变换器被同时应用于当前时刻的图像噪点图和目标时刻的图像清晰图这意味着同一套坐标转换规则被用于整条生成轨迹的所有节点。这种共享设计不仅节省了计算资源还保证了轨迹上各个节点的表示在同一个语言体系下便于预测器做跨时间步的推理。NTM的训练目标数学上可以写成一个精确的负对数似然函数——这是一种衡量模型预测与实际数据有多吻合的标准每一项都有明确的物理含义。训练的过程就是不断调整变换器和预测器的参数让这个概率尽可能高。---三、架构设计浅层变换器 加上 深层预测器NTM的架构设计体现了研究团队在把计算资源放在哪里这个问题上的深思熟虑。变换器的设计借鉴了TarFlow一种基于自回归Transformer的正则化流和STARFlow一种用于文本到图像生成的深浅结合正则化流的成果。具体来说变换器由两个轻量级的自回归流模块组成每个模块只有四个Transformer层。它的工作方式有点像扫描一张图片——第一个模块从左到右扫描图像的每个像素块第二个模块从右到左扫描两次扫描的方向相反确保捕获到图像中所有方向的空间关系。每个像素块的变换值都依赖于前面已经处理过的像素块这种依赖结构保证了整个变换是可逆的同时使得概率计算的复杂度可以管控。相比之下预测器则是整个系统中最厚重的部分一个拥有24层的完整Transformer网络。但这个厚重换来了一个关键优势预测器使用的是非因果non-causal全注意力机制也就是说它可以同时看到生成轨迹上所有时间步的信息在空间维度上并行处理所有像素块。这意味着虽然预测器层数多、参数量大但在实际推理时所有的空间位置是同时计算的不需要一个位置一个位置地顺序处理。这种轻变换器 加 重预测器的分工体现了一种精妙的权衡逻辑变换器负责处理每一步内部的局部空间变换只需要捕获相对简单的局部非高斯结构预测器则负责在整条轨迹上进行跨时间步的全局推理把大量的模型容量集中在对生成过程最关键的预测任务上。在论文的讨论部分研究者明确指出每一步的条件分布给定当前噪点图预测下一步的图像比完整的图像边缘分布直接从噪点预测最终图像要简单得多因此轻量的变换器在每一步就足够用了而无需像STARFlow那样在单步内堆砌256个自回归块。---四、从零训练与在预训练模型上微调两条路各有门道NTM不仅可以从零开始训练还可以利用现有的预训练扩散模型或流匹配模型作为起点进行微调。这两条路在工程上各有巧思。从零训练时研究者构建了一条随机前向轨迹给定一张干净的图片按照一套预设的时间步调度表比如四步走从完全清晰到完全噪点用一个已知的数学公式依次添加噪声生成一条从清晰到噪点的轨迹。然后NTM的训练目标就是尽可能准确地模拟这条轨迹的逆向过程——从噪点一步步恢复到清晰图像。训练时可以选择端到端的方式同时优化轨迹上所有步骤的概率也可以选择逐对方式每次随机抽取相邻的两个时间步进行训练。此外单个模型可以同时处理不同步数的轨迹如四步、八步、十六步只需在训练时让每个样本独立随机选择步数即可这使得一个模型就能适应不同的速度-质量权衡需求。微调的路则需要更多技巧。研究团队以FLUX.2-klein一个40亿参数的预训练流匹配模型为起点设计了一套优雅的初始化方案。首先变换器被初始化为恒等变换identity也就是说一开始它什么都不做直接把输入原样传递出去。其次预测器的均值预测被设置为等于预训练模型的高斯后验均值方差则通过一个零初始化的小网络进行修正——初始时修正量为零训练过程中逐渐学习偏离高斯假设。这个设计保证了在训练刚开始时整个NTM在数学上与原始预训练模型完全等价不会造成初始质量的崩溃。然而研究者发现如果单纯用NTM的概率损失来微调训练早期会非常不稳定——模型会很快偏离预训练的解导致灾难性遗忘。为此他们引入了一个辅助损失函数auxiliary loss在每一步要求NTM的均值预测与冻结的预训练模型的预测保持一致这就像给正在学习的学生安排了一位随时提醒他不要跑偏的老师。随着训练进行这个辅助损失的权重会逐渐退火cosine decay让模型最终能自由地超越高斯假设学到更丰富的分布形式。消融实验证实去掉这个辅助损失微调会在训练早期迅速发散生成的图像变得一塌糊涂。---五、轨迹分数去噪与快速生成器让四步生成更快更好拥有精确概率的模型带来了一个意想不到的额外红利测试时的自我精炼能力。NTM在生成图像时输出的是一条从噪点到图像的完整轨迹而这条轨迹本身就是一条含噪序列——因为它来自马尔可夫前向过程每个时间步的值都不是完全干净的。由于NTM可以精确计算整条轨迹的联合对数概率其关于轨迹的梯度就自然地提供了一个联合分数函数joint score function指示着如何同时修正轨迹上所有时间步的值使整条轨迹在数学上更加可信。关键在于这条轨迹上各个时间步的噪声是相互关联的因为它们来自同一张干净图像经过不同程度的加噪所以修正一个时间步的误差通过轨迹协方差矩阵可以同时传播到其他时间步。这比单独独立地修正每个时间步更有效就像你在校对一段话时发现某个词明显用错了顺带也能推断出前后几句话的意思是否也需要调整。具体操作时研究者用一个加权梯度步骤来更新整条轨迹权重正是前向过程的协方差矩阵然后通过一个归一化因子把结果映射回干净图像空间。这个过程需要一次反向传播计算量虽然可以接受因为模型的轻量化设计但毕竟比纯前向计算要慢。为了彻底消除这个开销研究者进一步训练了一个轻量级的去噪器denoiser。这个去噪器是一个具有全注意力机制的非因果Transformer它接收预测器在最干净时间步输出的潜在表示直接预测去噪后的最终图像绕过变换器的自回归解码和基于反向传播的轨迹精炼。去噪器的训练目标是对真实数据轨迹运行完整的NTM加轨迹分数精炼把精炼后的干净图像作为监督信号让去噪器用一次前向计算就记住精炼效果。实验数据表明这个去噪器实现了接近九倍的速度提升从每秒0.20张图提高到每秒1.88张图同时与完整精炼方案的感知相似度差异LPIPS仅为0.121保持了相当高的保真度。---六、实验结果NTM在基准测试上的表现研究团队在两个设置下系统地评估了NTM的性能。从零训练的设置下NTM在256×256分辨率的文本到图像生成任务上进行了测试使用GenEval一个评估模型能否准确生成包含指定对象、颜色、数量、位置等要素的图像的基准和DPG-Bench使用长而复杂的描述文字评估生成忠实度的基准两个评估指标。结果显示NTM以四个去噪步骤在GenEval上取得了0.82的总分在DPG-Bench上取得了79.64分。作为对比此前最佳的同类正则化流模型STARFlow在GenEval上只有0.56分而且需要256个自回归步骤比NTM慢得多。NTM还与一系列主流扩散模型进行了横向比较SDXL得分为0.55PixArt-α为0.48SD3-Medium为0.62FLUX.1-dev为0.66Janus-Pro-7B为0.80HiDream-I1-Full为0.83Seedream 3.0为0.84Qwen-Image为0.87Nucleus-Image为0.87。NTM从零训练的0.82分在正则化流方法中遥遥领先并与强力的扩散模型基准处于同一量级。在类别条件ImageNet 256×256生成任务上用FID-50K指标衡量图像质量数值越低越好NTM以四步达到了3.83的FID以八步达到3.24以十六步达到2.80。STARFlowFAE版本需要256个自回归步骤才能达到2.67的FIDNTM以少得多的步骤取得了非常接近的结果。这组实验的特别之处在于NTM完全依赖精确的负对数似然训练没有使用任何对抗损失或感知损失证明了单纯的精确概率训练就足以产生竞争力十足的生成质量。微调设置下NTM以FLUX.2-klein为基础在512×512分辨率上微调后GenEval得分达到0.76DPG-Bench达到83.38分。这一结果略低于从零训练版本在GenEval上的表现研究者指出位置关系和颜色属性绑定等子任务在当前微调阶段仍有提升空间可能需要更长时间的训练或更强的预训练骨干网络。消融实验还表明使用T4步的微调设置在质量与速度之间取得了最佳平衡T8和T16虽然在细节保留上有所提升但推理速度相应降低。---七、当NTM只走一步时为什么会失败以及这说明了什么研究团队在论文的讨论部分坦诚地分析了NTM的局限性。当把步数压缩到T1时NTM的生成质量会严重退化产生模糊扭曲的图像。研究者指出这不是训练上的问题而是一个根本性的容量瓶颈单步设置下整个数据分布的非高斯结构必须完全由轻量的变换器独自承担而预测器退化为单步高斯采样提供不了任何非高斯建模能力。轻量变换器每块4层的表达能力远不如STARFlow的深层块每块24层以上加多个模块因此单步质量远不如STARFlow。如果把变换器加深到和STARFlow相当确实可以恢复单步质量但推理速度又会被自回归解码拖回到STARFlow的水平完全失去了少步骤设计的意义。这个失败案例揭示了NTM框架内在的设计权衡空间变换器越深、步数可以越少但推理延迟也越高变换器越浅、步数需要越多但每步的解码开销越低。NTM在T4到T8的区间内找到了最佳平衡点变换器足够轻以保持快速推理步数足够少以满足实际应用需求而多步结构又为轻量变换器分担了建模负担。这种权衡关系也为未来研究指出了方向自适应深度变换器、沿轨迹渐进式分配容量等架构创新有望进一步将精确似然生成推向更少的步骤乃至单步生成。---说到底NTM做了一件看起来矛盾却又合乎逻辑的事它用更复杂的数学工具正则化流换来了更简单的生成过程更少的步骤。传统方法的困境在于为了让每一步的数学假设成立必须把整个生成过程切成很多很小的碎片。NTM则选择了另一条路每一步都承认真实分布的复杂性用可逆变换器把复杂问题转化为简单问题然后在新坐标系里用精确的概率工具求解。这使得四步就足以完成五十步才能达到的质量。对普通用户来说这意味着未来的AI绘图工具可以变得更快——不是牺牲质量换速度而是通过更聪明的数学框架同时做到两者。更有意义的是NTM保留了精确计算图像概率的能力。这个看似抽象的性质在现实中有很多潜在的应用你可以用它来检测一张图是否是AI生成的或者评估生成图像在某个语境下的合理性。这个研究最引人深思的地方或许在于速度与精度的权衡并非永恒的物理定律而只是工具选择的结果。换对了工具鱼和熊掌有时候真的可以兼得。有兴趣深入了解技术细节的读者可以通过arXiv编号2605.08078查阅完整论文代码也已开源在苹果官方GitHub仓库ml-starflow中。---QAQ1NTM和传统扩散模型生成图像的方式有什么根本区别A传统扩散模型在每一步都假设图像变化符合钟形曲线高斯分布步骤少时这个假设会失效导致图像模糊。NTM通过一个可逆变换器把图像映射到一个新坐标系在新坐标系里钟形曲线假设精确成立从而在数学上精确描述每一步的真实分布四步就能达到传统方法五十步的质量。Q2NTM保留精确概率计算有什么实际用途A精确概率意味着模型可以为任意一张图像打分衡量它在数学上有多像真实图像。这个能力可以用于检测AI生成内容、过滤质量差的生成结果、以及支持测试时的自我精炼NTM的轨迹分数去噪正是利用了这一点。传统的蒸馏或对抗训练方法则无法提供这种精确的概率评估。Q3NTM在微调时为什么需要辅助损失去掉会怎样ANTM微调初期单纯的概率损失信号不足以约束模型不偏离预训练结果变换器和预测器会相互推卸责任导致训练早期迅速发散、图像质量崩溃。辅助损失强制NTM的均值预测与冻结的预训练模型保持一致提供稳定的锚点让变换器有机会从恒等变换出发逐步学习有意义的空间变换。实验图像显示去掉辅助损失的微调产生的图像完全无法识别。