[NeurIPS‘ 2025] JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching
JarvisArt一、一段话总结JarvisArt 是多模态大模型驱动的智能照片修图智能体可联动Lightroom 超 200 种修图工具经CoT 监督微调 GRPO-R 强化学习两阶段训练搭配A2L 协议实现与 Lightroom 无缝对接构建MMArt-55K 数据集与MMArt-Bench 评测基准在内容保真度上较GPT-4o 提升 60%支持全局与局部精细化非破坏性修图易用性与用户满意度超越传统 Lightroom。二、思维导图三、详细总结1. 研究背景与问题传统专业修图工具如 Lightroom门槛高、耗时长现有 AI 修图方案可调性差、泛化弱、内容保真度不足无法满足个性化需求。2. 核心方案JarvisArt 智能修图智能体JarvisArt 是多模态大语言模型MLLM驱动的智能修图 Agent可理解用户意图、模拟专业修图师推理逻辑智能调度Lightroom 超 200 种修图工具支持全局 局部精细化、非破坏性修图。3. 数据集构建MMArt-55K规模5K 标准样本 50K CoT 增强样本总计55K生成流程源图 - 目标图与 Lightroom 配置生成自然语言修图指令生成专业修图思维链CoT标注场景人像40.8%、风景33.3%、静物20.2%、街拍5.71%4. 两阶段训练策略训练阶段方法目标训练数据第一阶段CoT 监督微调SFT建立基础推理与工具使用能力50K CoT 标注样本第二阶段GRPO-R修图专用分组相对策略优化提升决策与工具操控精度5K 标准指令样本奖励设计总奖励 R∈[0,3]格式奖励 Rf规范输出格式修图操作精度奖励 Rroa评估工具 / 参数匹配度感知质量奖励 Rpq评估色彩与像素保真度5. 核心技术Agent-to-LightroomA2L协议定位智能体与 Lightroom 的标准化对接协议流程握手→文件校验→沙箱执行→异步处理→结果返回价值实现双向反馈、全自动修图执行6. 实验评估1评测基准MMArt-Bench四大场景各 50 样本共200个测试样本含局部修图专用人像子集。2核心指标像素级L1、L2数值越低越好语义级SC指令遵循、PQ感知质量、O√(SC×PQ)数值越高越好3关键结果像素保真度较GPT-4o 提升 60%L1×102 仅12.44指令遵循O 值8.52与 GPT-4o9.18持平超越 Gemini-2-Flash8.08用户偏好主观审美与内容一致性评分第一易用性90% 用户认为易用、高效满意度超越 Lightroom7. 核心创新点提出MLLM 驱动的专业级修图智能体范式构建MMArt-55K高质量修图专用数据集设计SFTGRPO-R两阶段训练与三维奖励机制制定A2L标准化对接协议打通专业修图软件实现任意分辨率、非破坏性、全局 局部精细化修图四、关键问题与答案问题 1JarvisArt 相比 GPT-4o 等通用多模态模型修图核心优势是什么答案核心优势是内容保真度大幅提升较 GPT-4o 高 60%、支持Lightroom 200 专业工具的精细化参数调控、实现非破坏性修图与任意分辨率处理局部修图无畸变与伪影更贴合专业修图逻辑。问题 2JarvisArt 的 GRPO-R 强化学习采用哪三种奖励各自作用是什么答案采用格式奖励、修图操作精度奖励、感知质量奖励。格式奖励规范输出结构修图操作精度奖励确保工具与参数选择准确感知质量奖励保障修图后视觉效果与色彩、像素保真度。问题 3JarvisArt 的 MMArt 数据集有何独特性为何能支撑专业修图训练答案独特性在于全真实照片、含 CoT 思维链标注、配套 Lightroom 参数配置、支持任意分辨率覆盖四大真实场景兼顾普通用户与专业编辑指令为模型提供专业修图推理逻辑与工具使用依据。Abstract 翻译照片修图已成为当代视觉叙事的重要组成部分帮助用户实现美学表达与创意呈现。Adobe Lightroom 等专业工具功能强大但需要大量专业知识与手动操作而现有 AI 自动化方案虽能简化流程却普遍存在可调性有限、泛化能力差等问题难以满足多样化、个性化的编辑需求。为弥补这一差距本文提出JarvisArt—— 一款由多模态大语言模型MLLM驱动的智能体它能理解用户意图、模仿专业摄影师的推理过程并智能调度 Lightroom 中超过 200 种修图工具。JarvisArt 采用两阶段训练流程首先通过思维链监督微调建立基础推理与工具使用能力随后使用修图专用分组相对策略优化GRPO‑R进一步提升决策水平与工具操控精度。本文还提出智能体‑Lightroom 通信协议A2L实现与 Lightroom 的无缝对接。为评估模型性能我们构建了全新的MMArt‑Bench 评测基准数据来自真实用户修图案例。实验表明JarvisArt 具备友好的交互体验、出色的泛化能力与全局 / 局部精细化调控能力为智能照片修图开辟了新路径。值得注意的是在 MMArt‑Bench 上JarvisArt 的内容保真度像素级指标较 GPT‑4o 平均提升 60%同时保持了与 GPT‑4o 相当的指令遵循能力。1. 引言翻译照片修图是现代摄影的基础环节可让用户对曝光、色彩、对比度和影调进行调整以获得富有表现力的高品质图像。Adobe Lightroom、PicsArt 等商业工具提供了丰富的手动控制功能但需要专业技能与大量时间投入对非专业用户形成了使用门槛。现有的自动化修图方法 —— 包括零阶 / 一阶优化、强化学习以及基于扩散模型的编辑等 —— 虽提升了自动化程度但在风格多样性、精细调整能力和场景泛化性上仍存在局限。近年来以 GPT‑4o、Gemini‑2‑Flash 为代表的指令驱动多模态模型实现了自然语言驱动的编辑但往往会牺牲内容保真度、精细属性控制以及对高分辨率图像的支持。基于大语言模型LLM的智能体在自主任务执行与问题求解领域取得了突破性进展这启发我们探索一种全新的照片修图范式一款易用、智能的艺术创作智能体能够理解用户意图并输出专业级修图效果。为此本文提出JarvisArt它具备以下能力精准解析视觉输入与自然语言指令嵌入专业修图知识模拟修图师的推理过程高效操控 Lightroom 中的 200 余种操作通过直观界面支持全局与局部双重调整。所有规划与工具调用过程完全透明用户可根据个人偏好交互式优化修图工作流。要将这一构想落地必须解决三大核心挑战高质量数据稀缺原图 / 目标图、文本指令、修图参数、缺乏专家级推理策略、缺少标准化的智能体‑Lightroom 集成协议。为攻克这些难题我们首先设计了一套可扩展的数据生成流程构建出MMArt‑55K数据集包含 5K 标准样本与 50K 带思维链增强的多粒度样本。随后采用两阶段后训练方案监督微调SFT让模型学习 “理解 → 推理 → 决策将 Lightroom 操作记录为 ROC 文件” 的完整工作流面向修图任务的分组相对策略优化GRPO‑R结合多维度工具使用奖励进一步优化决策能力与泛化性。最后本文提出智能体‑Lightroom 协议A2L实现 JarvisArt 与 Lightroom 之间无缝、自动化的修图执行。最终JarvisArt 能够深度理解用户意图生成多样化风格效果并流畅完成全局与局部区域调整输出极具视觉表现力的图像。2. 相关工作翻译照片修图研究者已提出多种自动化流程来简化手动修图工作。早期的零阶与一阶优化方法受限于参数预测能力不足且依赖预训练代理模型。基于强化学习的方法试图模仿人类修图流程并具备一定可解释性但无法捕捉艺术创作思路也缺乏深度的用户交互。基于扩散模型的方法在高保真图像生成中占据主导但依赖固定提示词缺少多轮推理与灵活的语言对齐能力限制了开放式编辑的效果。近年来统一图像编辑模型在理解与生成能力上取得双重突破典型代表包括闭源模型 GPT‑4o、Gemini‑2‑Flash以及开源模型 Janus‑Pro、UniTok、QLIP、VARGPT‑v1.1 等。尽管如此这些方法仍存在三大关键局限破坏性编辑通过重新生成所有像素完成修改损害原图内容完整性缺少可交互、可解释的局部属性控制如皮肤柔化、局部提亮受生成模型架构限制不支持任意分辨率编辑。与之不同本文提出一种可交互、可解释的修图范式将多模态理解与专家级编辑工具结合实现非破坏性照片修图。JarvisArt 以 “人机协作” 模式赋能用户同时支持场景级编辑与精准局部微调在创作灵活性与专业工作流程严谨性之间取得平衡。强化微调基于规则的强化微调如 OpenAI o1、Deepseek‑R1在数学推理、代码生成等任务上表现出色。后续研究将这一思路扩展到多模态模型为视觉感知任务设计了专用奖励函数例如图像分类的类别预测正确率、目标检测与定位的 IoU、图形界面定位任务的点击位置精度以及与搜索引擎交互获取最新信息等。但与这些 “存在唯一正确答案” 的任务不同修图任务需要同时预测多个工具及其参数如何设计有效的奖励信号支撑这类任务的学习仍是一个尚未被充分探索的开放性难题。本文为此提出定制化的工具使用奖励让 JarvisArt 具备高级艺术推理与工具调用能力。基于大语言模型的智能体基于大语言模型的智能体之所以能革新 AI 系统主要得益于三项关键进展大语言模型前所未有的推理能力工具操作与环境交互技术的进步支持长期经验积累的先进记忆架构。尽管如此将 LLM 智能体应用于专业照片修图仍存在三个根本性局限缺少领域专用的修图知识库导致无法准确理解用户意图选择合适工具与确定精准参数的决策能力有限缺少标准化协议无法与专业修图软件稳定兼容。为解决这些局限本文提出JarvisArt一个强大的艺术创作智能体整合三大核心能力专业修图知识可精准理解用户指令熟练使用 Lightroom 中的商用修图工具标准化通信协议可与 Lightroom 无缝集成。3. 方法翻译3.1 总览JarvisArt 是一个基于多模态大模型、可交互的照片修图系统同时支持场景级全局调整与区域级局部调整。除文本指令外用户还可通过自由绘制笔刷或可拖拽框选来指定需要调整的局部区域。JarvisArt 的流程分为三个阶段多模态上下文理解解析用户指令、图像内容与感兴趣区域基于摄影原理的策略推理生成专业修图方案工具调度选择合适的 Lightroom 操作与参数并通过 A2L 协议自动执行。形式化表示为f(Q,Isrc)→T{t1,t2,...,tn}其中 Q为用户指令Isrc为原图ti为具体的 Lightroom 操作。最终输出图像为Ieditg(Isrc,T)g(⋅)代表 Lightroom 的执行环境。3.2 数据生成流程本文设计了三阶段数据生成 pipeline用于构建带有显式思维链CoT标注的 MMArt 数据集。每条样本为五元组Isrc,Itgt,Q,C,O本文设计了三阶段数据生成 pipeline用于构建带有显式思维链CoT标注的 MMArt 数据集。每条样本为五元组Isrc,Itgt,Q,C,OIsrc原图Itgt修图后图Q用户指令C思维链推理过程置于 标签内O修图操作配置ROC 文件置于 标签内阶段 1生成图像对与 Lightroom 配置从 PPR10K、Adobe Lightroom 社区等来源采集原图构建覆盖多种场景与风格的全局 / 局部艺术预设库用 Qwen2.5-VL-72B 进行多模态角色扮演用 Grounding DINO 做精准区域定位执行区域检测 → 预设推荐 → 预设应用 → 人工验证四步流程生成高质量修图结果最终得到 原图目标图Lightroom 操作记录。阶段 2生成用户指令用 Qwen2.5-VL-72B 将图像对与操作记录转化为场景级 区域级自然语言指令覆盖普通用户与专业编辑两种风格。阶段 3生成推理过程先由模型生成初始 CoT再经迭代优化得到简洁、连贯、符合专业逻辑的思维链。3.3 JarvisArt 框架3.3.1 思维链监督微调CoT SFT以 CoT 标注数据进行监督微调目标统一输出格式建立用户意图理解、审美判断等基础推理能力初步掌握 Lightroom 工具选择与参数配置能力。3.3.2 面向推理的强化学习GRPO-R在 SFT 基础上使用修图专用分组相对策略优化GRPO-R进一步提升艺术推理与工具使用精度。总奖励由三部分组成RRfRroaRpq∈[0,3]格式奖励 Rf保证输出格式规范修图操作精度奖励 Rroa评估工具名、参数名、参数值的匹配程度感知质量奖励 Rpq从色彩分布一致性与像素保真度两方面评估视觉效果。3.3.3 智能体–Lightroom 协议A2LA2L 是 JarvisArt 与 Lightroom 之间的标准化客户端–服务端接口流程分为五步握手文件校验沙箱执行异步处理返回结果该协议支持双向通信、结构化消息、资源管理与 ROC→Lua 自动翻译可直接驱动 Lightroom 完成自动化修图。4. 实验翻译4.1 实验设置实现细节JarvisArt 以Qwen2.5-VL-7B-Instruct为基座模型。MMArt-Bench 评测集本文提出全新评测基准MMArt-Bench从 MMArt 数据集中采样而来包含四大场景评估指标使用 6 项指标区域级评测在指定掩码区域内计算以上指标。对比基线对比主流开源与闭源模型所有测试图统一裁剪为 512×512因部分基线不支持高分辨率与任意尺寸输入。4. 实验翻译4.1 实验设置实现细节JarvisArt 以Qwen2.5-VL-7B-Instruct为基座模型。思维链监督微调CoT SFT在 MMArt 数据集的 50K 条思维链样本上训练batch size2学习率 1e-5训练 2 个 epoch使用 8 块 A10080G显卡。强化学习GRPO-R在 5K 标准指令样本上训练batch size2学习率 1e-6每个查询生成 4 条回复训练 2 个 epoch使用 16 块 A10080G显卡。MMArt-Bench 评测集本文提出全新评测基准MMArt-Bench从 MMArt 数据集中采样而来包含四大场景人像、风景、街拍、静物每类 50 个样本共 200 个样本。区域级评测使用带掩码标注的人像子集50 张。评估指标使用 6 项指标L1、L2像素级误差越低越好SC指令遵循程度0–10越高越好PQ感知质量与无失真程度0–10越高越好O综合得分O √(SC × PQ)越高越好区域级评测在指定掩码区域内计算以上指标。对比基线对比主流开源与闭源模型开源3DLUT、RSFNet、InstructPix2Pix、MagicBrush、OmniGen、VARGPT-v1.1、Step1X-Edit闭源GPT-4o、Gemini-2-Flash所有测试图统一裁剪为 512×512因部分基线不支持高分辨率与任意尺寸输入。4.2 实验结果4.2.1 在 MMArt-Bench 上的评估如表 1 所示JarvisArt 在全部 10 项指标上达到当前最优水平内容保真度显著领先L1×10² 仅12.44比 GPT-4o22.84低 45.6%效果更好。指令遵循能力强劲综合得分O8.52接近 GPT-4o9.18超过 Gemini-2-Flash8.08。局部编辑优势更明显人像等局部修图无 “恐怖谷” 伪影无内容畸变远优于其他模型。结论JarvisArt 基于 Lightroom 的非破坏性编辑流程大幅提升内容保真度与视觉自然度。4.2.2 用户偏好研究招募 80 名用户对四大模型Step1X-Edit、Gemini-2-Flash、GPT-4o、JarvisArt进行主观打分维度为内容一致性保留原图信息审美质量视觉观感结果JarvisArt 获得最高用户偏好在主观视觉效果上最受认可。同时招募 30 名不同背景用户对比 JarvisArt 与 Adobe Lightroom 的易用性采用 5 分制问卷易用性100% 用户认为 JarvisArt 简单易学66.7% 给出满分。复杂度与效率96.67% 用户认为复杂度适中86.67% 认为使用流畅。功能一致性与整合度90% 用户给出高分远优于 Lightroom。整体满意度93.33% 愿意继续使用90% 对使用有信心均超过 Lightroom。4.2.3 GRPO-R 训练奖励变化可视化格式奖励快速收敛并保持稳定。修图操作精度ROA奖励上升最快因 SFT 已提供基础参数偏好。感知质量PQ奖励波动后逐步上升因视觉效果搜索空间更大。JarvisArt 未出现类似数学推理模型的 “顿悟时刻”原因是艺术推理无法每步获得实时视觉反馈未来可引入代理环境做分步验证。5. 消融实验训练策略对比三种方案仅 SFT仅 RLGRPO-R从头训练SFT RL本文方法结果SFTRL 效果最优。仅 RL 因缺少基础推理能力搜索空间过大难以优化。奖励设计对比不同奖励组合Format ROAFormat PQFormat ROA PQ本文完整奖励结果三项奖励联合使用效果最好。ROA 保证工具与参数准确。PQ 保证视觉效果。二者互补共同提升修图质量与准确性。6. 结论翻译本文提出JarvisArt一款由多模态大模型驱动、可交互、可解释的智能修图智能体可对接 Lightroom 200 余种专业工具支持任意分辨率、非破坏性照片编辑。为训练该智能体本文构建了MMArt-55K数据集5K 标准样本 50K 思维链样本并采用两阶段训练CoT 监督微调建立基础推理与工具使用能力GRPO-R 强化学习配合定制奖励进一步提升决策精度与泛化性。同时提出Agent-to-LightroomA2L通信协议实现智能体与 Lightroom 无缝自动化对接。在 MMArt-Bench 上的大量实验表明JarvisArt 显著超越现有图像编辑方法在内容保真度、指令遵循、局部精细控制与用户体验上均达到业界领先水平。