港大联合团队:AI图像分割模型存在位置识别与概念理解分离缺陷
这项由香港大学电子与计算机工程系、中山大学计算机科学与工程学院及香港大学CASIC联合完成的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.09591感兴趣的读者可以通过该编号在arXiv平台检索到完整论文。一、当AI圈出了物体它真的认识那个物体吗假设你请一位助手帮你在一张照片里找到北极熊。助手很快在某个区域画了一个圈说在这里。你满意地点点头——但随后你发现那张照片其实被人恶作剧地修改过了一只普通的棕熊被搬进了白雪皑皑的极地场景。这位助手之所以画出那个圈只是因为白雪背景暗示了北极熊的存在而不是因为他真正看懂了那只熊本身是什么。这正是这篇论文所揭示的核心问题。现代AI图像分割模型——也就是那些能在图片里把各种物体精确圈出来的AI——到底是真的理解了概念还是只不过在按线索对号入座图像分割是计算机视觉领域一项基础性任务通俗来说就是让AI在图片里把每一个像素归属到正确的物体上。近年来随着SAMSegment Anything Model由Meta开发、SAM2、SAM3等模型相继出现分割技术从只能认识预设几十类物体进化到了给什么文字描述就能找什么的开放式阶段。你可以输入水晶雕塑AI就去图里找水晶雕塑输入玉雕它就去找玉雕。这听起来很了不起但研究团队提出了一个尖锐的质疑这些AI在根据文字描述找物体时真的是在理解概念本身还是只是在走捷径——抓住最显眼的视觉线索就匆忙下判断为了回答这个问题研究团队设计了一套全新的测试体系命名为CAFECounterfactual Attribute Factuality Evaluation反事实属性真实性评估。这套测试的核心思路是专门制造一批视觉上具有误导性的图片然后看AI会不会上当。二、现有测试方法的局限只考在哪里不考是什么在理解CAFE为什么重要之前有必要先说清楚现有测试方法究竟缺少什么。现有的图像分割测试基准最出名的是COCO、LVIS、ADE20K等数据集。这些数据集的逻辑很简单给AI一张图问它狗在哪里AI画出来的区域和人工标注的区域重叠度越高成绩就越好。这类测试本质上是在考定位能力——你能不能把目标的位置找准。后来研究者意识到光考定位还不够还得看AI会不会产生幻觉也就是图里根本没有那个东西AI却一本正经地画了个圈。于是出现了HalluSegBench等专门测试物体级幻觉的基准。这类测试会准备两张对比图一张是有目标物体的真实图另一张是把目标物体去掉或替换掉的假图。测试AI的方法是在真图里应该找到并圈出目标在假图里应该说没有我找不到。但研究团队指出这两类测试都有一个共同的盲点它们都没有测试属性层面的理解能力。换句话说当一个物体确实还在图里但它的某些属性——比如外观、所处环境、材质——被改变了导致视觉上看起来更像另一种东西时AI能不能保持清醒知道这还是原来那个东西不是我被骗得那个东西打一个更具体的比方一只装着橙汁的可乐瓶贴上了百事可乐的标签放进了麦当劳的场景里。一个真正懂得辨别的人会仔细看瓶子里的颜色和质感意识到这是橙汁不是可乐。而一个只会走捷径的人看到百事可乐标签和麦当劳背景立刻就说这是百事可乐——不管里面装的是什么。现有的测试基准测不出AI是哪种反应。CAFE正是为填补这个空白而生。三、CAFE的设计哲学制造精心设计的视觉陷阱CAFE的整体设计可以用布置三种不同类型的视觉陷阱然后看AI能否识破来理解。研究团队首先从三个权威数据集——COCO验证集2017年版、LVIS验证集和SA-Co/Gold——挑选出原始图片和对应的物体标注区域。然后他们使用AI图像编辑工具Nano-banana-2模型对图片进行精确修改同时保留原始标注区域不动。最关键的是每张修改后的图片都配上两种提示词一种正向提示词对应修改后图片里那个区域真正是什么另一种负向提示词看起来合理但实际上是错误的描述专门用来迷惑AI。三种陷阱分别代表三种不同的迷惑机制。第一种叫表面仿冒Superficial Mimicry专门针对AI依赖表面花纹来识别物体的弱点。操作方法是保留物体的整体形状和结构但把表面涂装成另一种东西的样子。以论文中的一个例子为例研究团队取了一张行李箱的图片把行李箱的表面重新绘制成了长颈鹿皮肤的花纹——那种黄褐色的不规则斑块图案。行李箱的形状、把手、拉链都还在但整个表面看起来就像是长颈鹿皮。正确答案是行李箱suitcase而误导性的负向提示词是长颈鹿giraffe。另一个例子是花瓶被涂上了西瓜的纹路正确答案是花瓶误导词是西瓜。第二种叫情境冲突Context Conflict专门针对AI依赖周围环境来判断物体身份的弱点。这里修改的不是物体本身而是物体所处的背景场景。比如一个玩滑板的人背景被换成了冰雪山坡。那个人的身体、服装、姿势完全没有变化但因为周围出现了雪景AI很可能把他误认为是单板滑雪者而不是滑板者。再比如一只泰迪熊背景被换成了白雪覆盖的极地场景于是误导词变成了北极熊。正确答案仍然是泰迪熊因为那个毛绒玩具本身没有任何变化。第三种叫本体冲突Ontological Conflict这是三种陷阱里最根本性、也是最难识破的一种。它针对的是物体的材质或本质属性。这里不只是改个表面或换个背景而是把整个物体的物质构成彻底替换但保留其整体形状。比如一只鸟被重新渲染成了水晶雕塑形状还是鸟的形状但整个物体变成了晶莹剔透的水晶质感。这时候正确答案是水晶雕塑amethyst crystal误导词是活鸽子living dove。又比如一架飞机形状的物体被重新渲染成了云朵的质感正确答案是云误导词是真实飞机real airplane。这三种陷阱构成了从表面到情境再到本质的递进层次测试AI在不同深度的概念理解能力。四、数据集的精心构建从近五万张到两千张的严苛筛选光有好的设计思路还不够数据质量同样至关重要。研究团队详细介绍了整个数据集的制作流程这个过程本身就像是一道有多重质检关卡的精密生产线。制作流程分为几个阶段。首先研究团队对COCO、LVIS、SA-Co/Gold三个数据集的图片进行仿射变换处理调整分辨率以适配AI图像生成模型的输入需求。然后他们使用Gemini-3模型根据图片内容和目标物体类别自动生成具体的编辑指令——比如把这只狗的毛皮完全重新着色为老虎的高对比度黑橙条纹图案同时确保狗的姿势、轮廓和骨骼结构保持不变。这些指令非常精确明确规定了什么应该改变、什么必须保持原样。基于这些指令Nano-banana-2模型执行实际的图像编辑工作生成了总计48,423张原始候选图片。然而这48,423张候选图片并没有全部进入最终数据集而是经过了严格的三阶段人工筛选。第一阶段由人工标注员进行初步筛查剔除明显有瑕疵的图片比如编辑后物体轮廓模糊、修改效果不自然等。第二阶段进行更细致的二次复核专门检查每张图片的编辑效果是否达到预期的误导性同时确认正向和负向提示词的合理性。第三阶段由三位人工专家进行交叉验证只有当其中至少两位专家都认为编辑效果可靠、语义标注正确时这张图片才能最终入选。经过这三道关卡最终只有2,146张图片入选CAFE数据集保留率仅为4.4%。这种极高的淘汰率确保了每一张进入测试集的图片都具备足够的质量被测试的区域清晰可辨正向提示词描述的概念真实准确负向提示词确实具有视觉上的误导性但语义上是错的。最终数据集的构成是来自COCO-Val2017的1,239个样本占57.7%来自SA-Co/Gold的513个样本占23.9%来自LVIS-Val的394个样本占18.4%。按陷阱类型分表面仿冒类1,111个51.8%情境冲突类593个27.6%本体冲突类442个20.6%。数据集包含656个不同的正向提示词和500个不同的负向提示词组合出1,669种提示词配对类型其中86.7%的配对只出现一次保证了测试内容的多样性避免AI通过死记硬背某些特定配对来作弊。五、评测规则的设计不只看找没找到还要看为什么找到CAFE的评测方式比普通分割测试更精密值得专门解释一番。当AI面对一张CAFE图片和一个提示词时它会输出两样东西一个分割区域预测的物体轮廓以及一个置信度分数AI有多确定这里有符合描述的物体。CAFE的评测系统会同时考量这两个输出并区分几种不同的情况。面对正向提示词时研究团队最希望看到的是AI给出的分割轮廓与真实标注的物体轮廓高度重叠用IoU也就是交并比这个指标来衡量需要超过设定的阈值τ并且置信度分数也足够高超过阈值t。这样的情况被记为目标对齐真正例TA-TP是成功的表现。如果AI确实找到了物体但置信度不够高或者虽然置信度高但找错了位置则分别被记录为不同类型的失败。面对负向提示词时正确答案应该是AI的置信度分数低于阈值表示它识破了陷阱判断这里没有你要找的那个东西。这被记为真负例TN是理想的拒绝反应。然而如果AI置信度很高——也就是上当了——研究团队会进一步追问AI画出的那个错误区域是不是正好对准了那个被修改过的目标区域如果是说明AI确实被那个区域的误导性视觉属性骗了这被记为目标对齐假正例TA-FP是最直接的概念混淆证据如果AI画的区域不在目标物体上而是在图片的其他地方则被记为非对齐假正例UA-FP性质稍有不同。基于这套分类研究团队定义了一系列评测指标。目标对齐假正率AFPR直接反映AI被误导性属性欺骗的比例。更严格的概念置换率ACSR衡量的是最坏情况AI不但被负向提示词骗了画出了错误区域而且同时没能正确响应正向提示词——也就是说AI彻底搞混了把错的认成对的把对的反而忽略了。这两个指标越低越好代表AI越不容易被误导。此外研究团队还沿用了SAM3原论文中使用的类别门控F1分数cgF1这个指标综合考量了AI对正向提示词的定位准确率和对负向提示词的识别拒绝率是一个衡量整体性能的综合指标。六、测试结果AI们的成绩出人意料地差研究团队在CAFE上测试了多种主流AI分割模型结果揭示了一个相当普遍的问题。被测试的模型分为三类。第一类是端到端模型包括SAM3Meta开发、YOLO-World采用大规模视觉-语言预训练的实时开放词汇检测模型、OpenSeeD在COCO全景分割和Objects365数据集上训练的统一分割框架。第二类是多模型级联框架包括Grounded SAM2将Grounding DINO的文本定位能力与SAM2的分割能力结合起来的流水线、OWLv2与SAM1的组合先用OWLv2检测定位再用SAM1生成精细轮廓。第三类是一个特殊的智能体方案研究团队称之为CAFE-SAM3它用GPT-5.5作为思考推理的大脑SAM3作为执行分割的手通过多轮交互来做出更谨慎的判断。在整体cgF1分数上SAM3以38.5的总分在非智能体模型中表现最好但这个分数本身就说明问题已经相当突出。YOLO-World总分21.1OpenSeeD总分15.1Grounded SAM2总分仅9.9OWLv2与SAM1的组合总分27.9。然而当研究者把三种陷阱类型分开来看情况更能说明问题。几乎所有模型在本体冲突类型上的表现都糟糕到令人吃惊。SAM3在本体冲突上的cgF1分数是-10.5——没错是负数。YOLO-World是-5.9OpenSeeD是-4.0OWLv2SAM1是-8.0。负的cgF1意味着AI的判断和正确答案的相关性呈负相关也就是说AI越有把握反而越可能是错的。看误报率数据更能感受到这种崩塌的程度。在本体冲突陷阱下SAM3有高达66.3%的负向提示词被它错误接受——也就是说超过三分之二的时候当你告诉SAM3给我找真实飞机而图里那个飞机形状的东西其实是云朵时SAM3会一本正经地圈出那个云朵信心十足地告诉你找到了。YOLO-World在本体冲突上的误报率高达89.6%OpenSeeD是63.3%OWLv2SAM1是62.7%。Grounded SAM2更是在所有三种陷阱类型上都接近百分之百的误报率——99.3%的本体冲突负向提示词都被它接受了。对于Grounded SAM2的情况研究团队特别指出了一个微妙之处这个模型的概念置换率ACSR反而很低。这并不是因为它对概念的理解更好而是因为它对正向提示词和负向提示词都照单全收几乎对所有提示词都给出高置信度的响应。换句话说它的策略是遇到任何提示词都画个圈所以虽然不会出现接受了错的同时拒绝了对的的极端混淆情况但这种无差别接受本身就是能力的缺失而不是能力的体现。另一个值得关注的现象是所有非智能体模型在pmF1正向提示词的掩膜匹配准确率上的分数都相对较高通常在40%到60%以上。这意味着这些模型在面对正向提示词时定位能力是还不错的——它们能找到物体在哪里。但IL-MCC图像级概念识别的马修斯相关系数分数却普遍很低甚至为负。这两组数据之间的落差正是这项研究最想展示的现象定位能力好并不代表概念理解能力强。AI可以很准确地知道这个区域里有东西但同时无法正确判断这个东西究竟是不是你问的那个概念。七、当AI学会先想一想智能体方案的突破与局限面对上述种种失败研究团队尝试了一种不同的方案——让AI在回答之前先进行多步推理而不是直接凭直觉给出答案。CAFE-SAM3智能体的工作方式可以这样理解它不是一个简单的输入问题→给出答案的系统而是一个能进行多轮对话和工具调用的推理过程。以GPT-5.5作为核心推理引擎CAFE-SAM3在面对一个图像和提示词时会先调用SAM3尝试分割获得初步结果后会主动放大观察某些区域examine_masks工具仔细检查材质、纹理等细节然后再综合判断是该接受还是拒绝这个提示词。整个过程最多可以进行10轮交互每一轮都在积累更多的判断依据。这种先观察、再分析、后决定的流程带来了显著的性能提升。CAFE-SAM3的总体cgF1分数达到63.3比直接使用SAM3提高了24.8分。在三种陷阱类型中本体冲突类的提升最为突出cgF1从-10.5跃升到44.7IL-MCC从-0.241提升到0.633误报率从66.3%降到29.2%概念置换率从37.8%降到6.8%。论文附录中提供了两个具体的对话案例可以生动地说明智能体方案的思考方式。第一个案例是一张情境冲突类型的图片提示词是心电图监视器。图片里有一台苹果iMac台式电脑显示器摆在桌上还有一些医疗环境的布置。SAM3直接用了那台iMac显示器来响应——毕竟它是图里最显眼的屏幕。但CAFE-SAM3的推理过程完全不同它先尝试了ECG monitor这个提示词SAM3返回了iMac然后它分析认为那是台式电脑显示器而非医疗设备紧接着它又用patient monitor重试这次SAM3没找到任何东西最终它重新检视整张图片得出结论——图里根本没有真正的心电图监视器所以调用了report_no_mask汇报无结果工具拒绝了这个提示词。这个正确答案是SAM3单独无法给出的。第二个案例是一张表面仿冒类型的图片原本是一只玩具鸟被涂上了老虎的条纹提示词是玩具老虎理应被拒绝。然而CAFE-SAM3在这个案例上失败了——它在放大检查区域时看到了橙黑相间的条纹认为这完全符合玩具老虎的特征于是接受了这个错误的提示词。这个失败案例恰好说明了表面仿冒陷阱的顽固性即使是有推理能力的智能体有时也会因为表面视觉特征过于强烈而产生误判。智能体在本体冲突和情境冲突上的改善幅度远大于表面仿冒原因正在于此。这种对比揭示了一个重要规律显式推理能力对于需要超越视觉表象、思考物体本质的判断特别有帮助比如本体冲突但当误导信息直接来自物体自身的视觉外观时比如表面仿冒仅靠多步推理也难以完全克服。八、本体冲突为何如此顽固背后的认知根源贯穿整个实验结果的一条主线是本体冲突是三种陷阱里最难攻克的。这不是偶然的背后有深刻的认知逻辑。研究团队在论文中对此给出了一个有启发性的解释。SAM3配备了一个专门用于判断图里有没有这个概念的模块叫做图像级存在检测头。这个模块在面对表面仿冒和情境冲突时表现得还算可以——SAM3在表面仿冒类的误报率是10.3%情境冲突类是7.9%说明这个模块确实帮助SAM3在一定程度上抵抗了表面花纹和环境背景的干扰。但到了本体冲突这个模块完全失效误报率飙升到66.3%。这背后的原因可能是SAM3的训练数据和训练方式让它非常善于通过全局形状来匹配概念。当一个东西的形状是飞机的形状时SAM3的存在检测头就很容易被激活认为这里有飞机——哪怕那个飞机形状的东西其实是云朵。换句话说SAM3并没有真正学会区分形状像X和真的是X之间的差异。这种依赖形状的识别策略在正常情况下非常有效毕竟大多数飞机形状的东西确实是飞机但在本体冲突场景下就暴露出了根本性的缺陷。如果用一个日常比喻来理解这就像一个从来没有接触过仿真食物的孩子第一次看到高度仿真的塑料水果会伸手去咬——因为他的判断系统建立在看起来像苹果的东西就是苹果上而没有建立起苹果应该有苹果的材质和质感这一层更本质的认知。AI模型面临的正是同类问题。这对AI领域有重要的启示意义单纯提升模型在标准数据集上的定位精度并不能解决概念理解层面的问题。要让AI真正理解概念而不是仅仅匹配视觉模式可能需要在训练数据和训练目标的设计上进行根本性的改变。九、负向提示词的设计学问避免语义模糊的技巧研究团队在构建CAFE时遇到了一个相当棘手的问题如何设计公平的负向提示词既能产生视觉误导性又不会造成语义上的模糊争议。这个问题在本体冲突类型里尤为突出。研究团队举了一个例子如果一只玩具鹿被AI渲染为雕塑风格那么这只玩具鹿到底算是玩具还是鹿还是玩具鹿在LVIS这类数据集里一个物体可以同时拥有多个合法标签这种模糊性在普通数据集里是可以接受的但在专门测试概念理解的CAFE里就会造成混乱。为了处理这个问题研究团队采用了加限定词的策略。当本体冲突导致物体的原始身份变得模糊时负向提示词不是简单地用原始物体名称而是加上表明真实或功能性的修饰词比如real airplane真实飞机而不是单纯的airplaneliving dove活生生的鸽子而不是单纯的dovefunctional blender有功能的搅拌机而不是单纯的blender。这种设计逻辑在图示中也有清晰呈现一个呈现在图中的云朵被塑造成飞机的形状它在视觉上确实resembles an airplane像飞机但语义上它是云而不是real airplane。通过加入real这个限定词测试的边界就更清晰了——如果AI说图里有real airplane那就是彻底的误判而不是语义层面可争辩的边界案例。所有本体冲突类的标注都经过了严格的专家交叉复核确保这种语义清晰性。这也解释了为什么本体冲突类的样本最终数量442个比另外两类少——筛选标准更严通过的比例也更低。说到底CAFE这项研究揭示的核心问题是在AI视觉领域认出在哪里和真正理解是什么是两种截然不同的能力而现有的测试方法长期以来只在认真考前者却对后者几乎视而不见。研究团队通过构建2,146个精心设计的视觉陷阱清楚地展示了当前主流分割模型面对属性级别的概念混淆时几乎普遍性的困境——尤其当物体的材质和本质被替换时模型的错误率可以高达六七成。这项研究直接告诉我们现阶段把图像分割AI用于需要精细概念理解的场景时应当保持审慎。比如当AI被用于医学影像中识别特定组织类型或者在工业检测中辨别材质差异时这种认出形状但不懂本质的弱点可能产生实际的后果。而CAFE-SAM3智能体方案的成功也提示了一条改进路径让AI在回答之前有机会进行多步推理和细节检查能够显著提升面对困难情况的准确率尽管这还远未达到人类的判断水准。从更长远的角度看如何让AI模型从识别视觉模式真正进化到理解物体概念将会是接下来几年视觉AI领域一个核心的研究方向。CAFE提供了一个有价值的测试工具帮助研究者诊断模型的具体短板所在。感兴趣的读者可以通过arXiv:2605.09591检索完整论文代码和数据集也已在GitHub和HuggingFace平台公开。QAQ1CAFE测试基准和COCO、LVIS等常见分割数据集有什么本质区别ACOCO、LVIS等传统数据集主要测试AI能不能把物体的位置找准属于定位能力测试。CAFE的不同之处在于它测试的是AI在面对视觉上有误导性的图片时能不能正确理解这个区域到底是什么概念。CAFE专门制造了物体外观被改变、背景被替换、材质被替换等三类陷阱来区分AI是真正理解了概念还是只是在走视觉捷径。Q2SAM3在本体冲突类型上为什么失败得特别彻底ASAM3的训练方式让它非常依赖物体的全局形状来匹配文字描述。当一个飞机形状的东西出现时哪怕整个物体的材质已经变成了云朵SAM3的判断模块还是容易被形状激活认为这里有飞机。本质上它没有学会区分形状像X和真的是X的差别而这种区分需要对物体的材质、质感、物理属性有更深入的理解是目前端到端训练的分割模型普遍欠缺的能力。Q3CAFE-SAM3智能体方案凭什么能在本体冲突上大幅改善表现ACAFE-SAM3把GPT-5.5作为推理大脑让它在给出最终答案之前可以多次与SAM3交互先让SAM3尝试分割然后放大检查材质和纹理细节再结合整体场景判断物体的真实本质最终决定接受还是拒绝这个提示词。这种多步推理过程让AI有机会在判断形状之外还考虑材质和物理属性因此在需要理解物体本质的本体冲突场景下效果最突出。但面对表面仿冒时因为误导信息直接来自物体表面即使多步推理也难以完全克服。