ICML 2025 | 贝叶斯熵 + 多模态提示,USAM 重新定义 SAM 不确定性量化框架
Segment Anything ModelSAM凭借强大的通用分割能力成为计算机视觉领域的“明星模型”但在医疗诊断、自动驾驶等安全关键场景中仅能完成分割还不够——我们需要知道SAM的预测“有多靠谱”近日Timo Kaiser等人提出的UncertainSAMUSAM为SAM打造了一套高效的不确定性量化方案既解决了传统方法计算成本高的问题又能精准定位不确定性来源让SAM的应用更可控、更可靠。一、为什么要给SAM做“不确定性体检”SAM的出现让任意对象分割变得简单但它的预测并非绝对准确小模型可能漏分割鱼尾细节模糊的提示可能让SAM“误解”分割目标甚至同一提示下SAM可能输出多个合理结果——这些都是SAM的“不确定性”主要来自三个方面模型不确定性认知不确定性模型参数不足导致的误差比如小模型精度不如大模型提示不确定性偶然不确定性提示信息不充分比如单个坐标点没精准指向目标任务不确定性偶然不确定性分割任务本身模糊比如提示点可能对应多个对象。传统的不确定性量化方法要么依赖SAM自带的置信度分数SamScore要么用测试时增强等耗时策略既不准确又不高效。而UncertainSAM的出现恰好填补了这一空白。图1小型SAM模型左因参数不足漏分割鱼尾细节大型模型右则能精准分割可见模型不确定性的实际影响二、UncertainSAM的核心创新精准高效的双轮驱动UncertainSAM的核心突破在于“理论框架轻量级实现”的结合既建立了完整的不确定性量化体系又解决了落地难的问题。创新点1首个SAM专属贝叶斯不确定性量化框架论文首次为SAM的类无关特性量身打造贝叶斯熵近似方法通过蒙特卡洛采样思路把图像增强、多提示采样、多模型集成、多任务掩码生成结合起来精准拆解出模型、提示、任务三类不确定性。这套框架为SAM的不确定性分析提供了“黄金基准”能清晰定位每一种误差来源。创新点2轻量级USAM估计器实时量化不确定性贝叶斯方法虽精准但计算成本极高——而USAM直接“借力”SAM的预训练特征用简单的多层感知机MLP实现了高效推理 它将SAM输出的256维掩码令牌mask token和IoU令牌拼接输入到三层MLP中端到端训练后直接预测不确定性无需复杂采样真正做到“实时量化”。图2USAM方法总体结构——直接利用SAM的掩码令牌和IoU令牌通过MLP快速预测各类不确定性创新点3多场景验证性能效率双优USAM在SA-V、MOSE、ADE20k、DAVIS、COCO等多个主流数据集上完成验证既能精准指导“是否需要换大模型”“是否需要优化提示”又能大幅降低计算成本相比贝叶斯方法效率提升显著。三、UncertainSAM的核心玩法精准定位不确定性来源USAM的核心价值在于不仅能判断“SAM预测不可靠”还能说清“为什么不可靠”并给出解决方案1. 模型不确定性该不该换大模型USAM能量化“小模型是否够用”——如果Tiny模型的不确定性高说明换Large模型能显著提升精度若不确定性低用小模型就能兼顾效率和精度还能降低能耗。实验中USAM的MLPΔ^*_Θ与贝叶斯熵H_Θ性能相当且计算成本可忽略是节能又精准的选择。2. 提示不确定性要不要优化提示单个坐标提示可能不够精准比如遮挡的自行车USAM能识别这种“提示不足”的情况提醒用户优化提示比如增加多个坐标点。实验中USAM的Δ^*_X_P在提示优化任务中表现略优于贝叶斯方法能精准定位需要优化的提示样本。3. 任务不确定性要不要人工监督SAM会输出多个掩码提议实际应用中常选SamScore最高的但可能并非最优。USAM能识别“任务模糊”的样本提醒人工选择匹配真实值的掩码在任务监督场景中USAM的性能远超贝叶斯方法和传统SamScore。图4USAM可视化案例——左列高/低提示不确定性样本自行车提示不足导致分割不准中列高/低任务不确定性样本提示点可能对应多对象右列模型不确定性样本小模型分割斑马不如大模型四、实验说话USAM凭什么成为新SOTA论文通过大量实验验证了USAM的优势核心结论如下1. 性能碾压传统方法在分割不确定性量化任务中预测IoU的USAM_L模型AUC得分远超SamScore、像素熵等传统方法即使是SamScore专门优化的任务USAM的表现也更优。2. 效率一骑绝尘贝叶斯方法依赖蒙特卡洛采样计算时间大幅增加而USAM的MLP几乎不增加额外耗时甚至比计算像素熵更快真正做到“实时量化”。表7USAM与其他方法的运行时间对比——USAM的MLP计算开销最低贝叶斯方法耗时显著更高3. 特征有效性验证将掩码令牌或IoU令牌置0后USAM的性能虽有下降但仍保持准确而两者结合时效果最佳证明SAM的这两类令牌包含了丰富的不确定性信息。五、总结让SAM从“能用”到“好用”UncertainSAM的核心贡献是为SAM建立了首个完整的不确定性量化理论框架同时用轻量级的USAM估计器解决了落地难题。它不仅能精准识别SAM预测的不可靠区域还能定位根源——是模型不行、提示不好还是任务模糊在安全关键领域这种“知其然也知其所以然”的不确定性量化能力让SAM从“通用分割工具”升级为“可靠的决策辅助系统”。而USAM的高效性也让它能轻松集成到实际应用中兼顾精度与能耗。未来将USAM融入SAM的训练过程或许能进一步提升SAM的不确定性处理能力——这也为SAM的迭代升级指明了新方向。毕竟在计算机视觉的落地场景中“知道自己哪里不行”比“单纯做得好”更重要。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】