清华大学与腾讯联手:让AI画图系统学会“推倒重来“
这项由清华大学与腾讯混元联合开展的研究以预印本形式于2026年4月28日发布在arXiv平台论文编号为arXiv:2604.25636。有兴趣深入了解的读者可通过该编号检索完整论文。当你用语言告诉一位画家请画三张长椅排成一排但他交出的作品里只有两张椅子或者椅子摆放得歪歪扭扭你会怎么办你可以告诉他这里缺一张椅子让他在原画上修改也可以干脆把画收起来给他看一眼草稿然后说按照我的要求重新画一幅。这两种方式听起来差别不大但这项研究证明第二种方式产生的效果要好得多——而且好出人意料地多。这就是这篇论文的核心故事。研究团队发现目前主流的AI图像修图方式走错了路并提出了一种名为通过重新生成来精炼Refinement via Regeneration简称RvR的新框架把AI的图文匹配得分从0.78一路拉升到0.91在Geneval基准测试上并在其他多个评测中也取得了显著进步。一、为什么AI生成的图片有时和你说的对不上现代AI绘图系统已经能够生成令人叹为观止的高清图像但它们有一个顽固的弱点一旦你的要求稍微复杂一点比如一只没有尾巴、全身由透明玻璃构成、带着蝴蝶翅膀的猫背景简洁它就很容易在某个细节上栽跟头——可能猫有尾巴可能背景很复杂可能翅膀不见了。这类问题在涉及多个物体、复杂空间关系、特殊属性比如没有、由……构成时尤为突出。研究人员把这类AI绘图工具称为统一多模态模型英文缩写UMM。所谓统一是指这些模型同时具备看图理解、文字生成、图像创作三种能力就像一位既能读稿、又能构思、还能动笔的全能画家。这种全能性带来了一个新的可能让AI在画完一张图之后自己回头检查发现哪里画错了然后修正。这个自我检查与修正的过程就叫做图像精炼image refinement。二、现有的修图方式究竟哪里出了问题目前学术界和工业界最常见的做法是让AI分两步走第一步让AI看着自己画的图和原始文字要求生成一段修改指令比如图中应该再加一张椅子第二步AI按照这段指令在原图上做局部修改。研究团队把这种路径称为通过编辑来精炼Refinement via Editing简称RvE。听起来合情合理但这种做法有两个根本性的缺陷就像一位画家被强制要求只改局部、不动其余部分最终受到了这个规矩的拖累。第一个缺陷是AI在第一步生成的修改指令往往不够完整。还是以三张长椅为例AI可能只发现了少一张椅子这个问题却忽略了原图中扶手太多、椅子排列不自然这些同样需要修正的问题。就好比请一位学生批改作文他只标出了错别字却没有指出逻辑混乱的句子——后续只按这张批改单修改作文依然不合格。第二个缺陷更为根本编辑模式要求AI在改动某些区域的同时把其余区域保持像素级别的不变。这个不改就是不改的规矩对于图像编辑任务比如把红色的花改成蓝色是合理的但对于图像精炼任务来说却是个不必要的束缚。假如原图中有一扇巨大的窗户占据了一半画面而正确答案需要在那里放一张沙发编辑模式的AI会尽力在窗户旁边塞进一张变形缩小的沙发结果反而更难看。因为它不被允许动那扇窗户。研究团队把这个问题概括为编辑模式不必要地缩小了可修改空间让AI的手脚被绑住了自然达不到最好的效果。三、重新生成的思路给画家更大的自由度清华与腾讯的研究团队提出的RvR框架选择了一条完全不同的路。他们不再要求AI生成修改指令也不再要求AI对原图进行局部修改。取而代之的是AI在看完原图和文字要求之后从头生成一张新图——但这个从头并不是完全遗忘而是带着原图的语义记忆重新出发。具体来说这个框架只保留了原图经过一个视觉理解网络ViT一种专门提取图像高层语义信息的网络处理后得到的语义令牌。你可以把这些令牌理解为AI对原图内容的高层理解——比如这张图里有一个公园场景有树、有草坪、有长椅——而不是原图的像素数据。AI拿着这份语义摘要和用户的文字要求重新生成一张新图。这种做法有两个关键优势。其一AI直接对照用户的原始要求来创作不依赖中间那段可能残缺的修改指令避免了错误的叠加传递。其二AI不再被像素级别的一致性所束缚——如果整体构图需要大改它就可以大改只要最终结果符合用户要求即可。就像那位全能画家在了解了你想要什么之后参考了一下草稿的整体风格然后干脆利落地重新画了一幅而不是在草稿上磕磕绊绊地打补丁。四、训练数据怎么准备一条更简洁的流水线有了新思路还需要用合适的数据来训练AI。RvE方法的训练数据需要三要素组成的三元组原图、按照指令修改后的图、修改指令本身。要构建这样的数据必须确保修改图与原图在未改区域像素高度一致这个要求极大地增加了数据构建的难度和成本。RvR的训练数据构建则简单得多分为三个步骤。第一步是生成多样化的文字提示prompt。研究团队请一个大型语言模型具体使用了Gemini充当出题员每次随机抽取一到五个语义维度比如风格、世界知识、数量关系、属性描述等然后生成一段同时包含这些维度的文字提示确保题目足够多样和有挑战性。第二步是让多个不同的AI绘图系统研究团队使用了BAGEL和GPT-4o独立根据这段提示各自画一张图。这里的关键在于两个系统画出的图之间没有任何像素级别的对应关系完全是各自独立创作的结果。这种独立性正是RvR所需要的——训练数据不再强迫AI去记忆从这个像素变成那个像素而是学习从这种语义状态升级到那种语义状态。第三步是请一个视觉语言模型同样使用Gemini当评委判断每张图和原始提示的匹配程度把它标记为对齐或不对齐。最终每道题对应一个三元组一张不够对齐的图作为输入草稿、一张高度对齐的图作为目标成品、以及那段文字提示。整个流程不需要人工标注修改指令也不需要保证两张图在内容上有对应关系因此可以大规模、低成本地自动化生成。五、训练和推理AI如何学会看着草稿重新画在训练阶段AI拿到四样东西一段系统提示类似于分析图与要求的差距然后重新生成一张完全符合要求的图、原始不对齐图的语义令牌、用户的文字要求、以及目标对齐图加上噪声之后的版本。AI的任务是从这些输入出发预测如何一步步去除噪声、还原出目标图像。整个训练过程采用了一种叫做流匹配的技术类似于教AI学会在一堆雪花噪声中逐步雕刻出清晰的图像。值得注意的是与RvE的训练相比RvR在训练过程中特意去掉了一样东西原图的像素级VAE特征VAE是另一种专门提取图像低层像素信息的网络。RvE之所以需要这些低层像素特征是因为它要求AI输出结果与输入图像在像素上高度吻合。但RvR不需要这种约束保留这些特征反而会让AI倾向于抄近路照着原图的像素依样画葫芦而不是真正按照用户要求重新创作。实验结果也印证了这一点去掉低层像素特征后模型性能反而更好。在推理阶段流程极为简洁给AI看一张待改进的图和用户的文字要求AI在语义令牌的引导下从纯噪声出发经过50步去噪生成一张新图。全程不需要中间的修改指令不需要对原图做局部遮盖也不需要指定哪些区域应该修改、哪些区域应该保留。六、实验数据说明了什么研究团队在三个主流的图文匹配评测基准上进行了验证Geneval专注于短句中的物体组合关系、DPGBench测试密集语义提示的匹配程度以及UniGenBench覆盖更广泛的语义维度。这三个基准可以理解为三种不同难度和侧重的考试——有的侧重数数题图里有几个物体有的侧重理解题物体之间的复杂关系有的则是综合卷。以底座模型BAGEL作为基准RvR的提升幅度相当显著。在Geneval上得分从0.78提升到0.91在DPGBench上从84.02提升到87.21在UniGenBench上从61.53跃升到77.41。横向对比来看RvR也明显超过了同样基于BAGEL的RvE方法在Geneval上最强的RvE方法得分约为0.85而RvR达到了0.91在UniGenBench上最强RvE方法约为69.86RvR则为77.41。在Geneval的细分维度上RvR在数数counting这个维度上的提升尤为突出从原始的0.78提升到0.91而位置关系position维度的得分也从0.50大幅提升到0.86。这两个维度恰恰是AI绘图最容易出错的地方也是RvE方法最难以彻底修正的地方——因为纠正数量或位置关系往往需要对整体构图进行较大调整而不是局部补丁。对比其他非统一模型系统如FLUX.1-dev和SD3-MediumRvR加持后的BAGEL也达到了当前最先进的水平这意味着通过精炼机制一个统一多模态模型可以在文图匹配质量上追平甚至超越专门的图像生成系统。七、多轮精炼一遍不够就再来一遍RvR框架天然支持多轮迭代。第一轮精炼之后如果有些语义问题仍未解决可以把精炼后的图再次送入RvR进行第二轮精炼。研究团队通过实验验证了这种迭代的有效性在某些案例中第一轮精炼后橘子的颜色仍然不完全正确经过第二轮精炼后颜色偏差被进一步纠正。同样地某张图中出现了本不应有的背景土星第一轮未能清除第二轮则成功去掉。另一方面研究团队也担心过度精炼会改坏已经正确的内容。实验结果表明这种担心是多余的对于第一轮精炼后已经完全对齐的图像强行进行第二轮精炼不会破坏正确的语义内容有时甚至会进一步优化一些细节比如把只有一个扶手的长椅改成了更自然的无扶手设计。八、RvR究竟是在参考原图还是在无中生有有一个合理的疑问RvR既然号称是重新生成那它和直接忽略原图、重新文字生成一张图有什么区别为了回答这个问题研究团队设计了一个刻意刁难的实验——给RvR提供一张和目标语义完全不同的图比如你想要鲨鱼在海里游泳但给它看的初始图是一片草地和树林然后观察它的行为。结果很有启发性。当初始图的内容与目标语义相容时比如你想要狗在打滚初始图虽然是另一只狗在草地上草地这个背景并无违和感RvR会智能地把草地、树木等相容元素保留在新生成的图中只把不符合要求的部分重新创作。这说明它确实在参考原图的语义而不是完全无视它。相反当初始图的内容与目标语义强烈冲突时比如你想要一只在海里游泳的鲨鱼初始图却是草地和树木——海洋与陆地完全矛盾RvR会果断放弃原图的语义生成一张全新的、符合要求的图。这种能复用就复用必须放弃就果断放弃的灵活性正是RvR相比RvE更高效的原因之一它既不像RvE那样死守原图像素也不会因为原图语义太差而无所适从而是根据实际情况做出最合理的选择。九、消融实验哪些设计真正起了作用研究团队通过一系列对比实验验证了RvR各个设计决策的必要性。首先是精炼训练本身的价值。为了验证RvR的性能提升是来自精炼机制还是仅仅来自高质量的微调数据研究团队做了一个对照把RvR训练数据中的不对齐图丢掉只保留对齐图和文字对然后用这些数据对BAGEL做普通的监督微调SFT。结果DPGBench得分从84.02只提升到84.62——几乎没有进步。这说明RvR的性能提升主要来自精炼机制本身而不是来自数据的质量提升。其次是编辑数据的影响。研究团队尝试把常见的图像编辑数据即那些原图编辑图编辑指令的三元组其中编辑图与原图在未改区域像素高度一致加入RvR的训练中结果DPGBench得分从87.21下降到85.70。这印证了核心论点像素级一致性的数据会让AI重新学回抄原图的倾向从而压缩可修改空间降低精炼效果。最后是低层VAE像素特征的影响。如前所述在推理阶段引入原图的低层VAE特征会导致性能从87.21小幅下降到86.41同样说明这些特征对于语义精炼任务来说是多余的负担。说到底这项研究告诉我们一个非常反直觉的事实当你想让AI把一张图改得更好时给它更多的约束必须保留原图的像素、必须先写出修改指令不但没有帮助反而会成为拖累。放开束缚让AI在高层语义的引导下自由发挥结果反而更好。这对我们理解AI系统的设计有着重要的启示。我们习惯于认为约束越多、越精确结果越可控但在某些任务中过度的约束恰恰会阻止AI找到真正好的解答路径。RvR的成功本质上是一次对任务定义的重新审视——把修改变成重建把遵守原图变成参考原图思路转变的收益远超技术细节上的打磨。当然这套方法目前还需要额外的推理开销多跑一轮生成在追求极致速度的场景下可能有所限制。但随着AI硬件和推理效率的持续提升这个代价将会越来越小。未来AI绘图系统或许会把先画一遍、再精炼一遍作为标准流程就像人类画家起稿之后再精修一样成为理所当然的工作方式。有兴趣深入研究这套框架细节的读者可通过arXiv编号2604.25636查阅完整论文。QAQ1RvR和普通AI重新生成一张图有什么区别ARvR不是完全从零开始生成而是把原图通过视觉理解网络转化为语义摘要ViT令牌然后结合用户的文字要求重新生成。这意味着AI会参考原图中与目标相容的内容比如背景风格、场景元素同时对不符合要求的部分自由修改不受原图像素的束缚。普通重新生成则完全忽视原图结果可能和原图在风格或场景上差异很大。Q2RvR精炼之后还能再精炼吗效果会不会越来越差A可以多轮精炼而且实验表明第二轮精炼确实能进一步纠正第一轮遗留的问题。对于已经对齐正确的内容额外的精炼轮次不会破坏它有时还能改善细节。不过研究目前主要验证了两轮的情况极多轮次后的行为还有待进一步研究。Q3RvR的训练数据如何保证质量A训练数据通过三步自动化流水线构建先用大语言模型生成覆盖多种语义维度的文字提示再用多个不同的AI绘图系统独立生成候选图像最后用视觉语言模型Gemini评判每张图与提示的匹配程度自动筛选出对齐与不对齐的图像配对。整个过程不需要人工标注可以大规模自动化执行。