点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自遥感与深度学习题目Asking like Socrates: Socrates helps VLMs understand remote sensing images会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026论文https://arxiv.org/abs/2511.22396数据RS-EoT-4K数据集(自合成)https://huggingface.co/datasets/ShaoRun/RS-EoT-4K主页https://geox-lab.github.io/Asking_like_Socrates/年份2025单位中南大学、百度公司、浙江大学CVPR2026 遥感AI方向合集CVPR2026创新点提出RS-EoTRemote Sensing Evidence-of-Thought范式通过语言驱动的迭代视觉证据寻求机制解决遥感图像的伪推理问题设计SocraticAgent多智能体自博弈系统模拟苏格拉底式问答过程合成高质量推理轨迹数据提出两阶段渐进式强化学习策略先在细粒度定位任务上增强RS-EoT能力再在通用VQA任务上泛化创新性地将简单VQA数据重构为多选题格式配合分级奖励函数实现稳定的强化学习训练背景现有多模态推理模型在遥感RS任务中普遍存在伪推理现象——尽管能生成明确的推理链但性能不升反降。作者将此归因于一瞥效应Glance Effect模型仅进行单次粗略的全局感知就开始推理导致视觉证据不完整推理过程依赖语言自洽性而非视觉证据。遥感图像具有空间范围广、尺度变化大、视觉线索稀疏细微等特点单次感知难以支撑有效推理。人类分析遥感图像时会采用迭代检查和逐步细化的循环过程。受此启发作者提出需要一种新的推理范式让推理过程引导感知动态寻求新的视觉证据而非依赖固定的初始视图从而实现基于证据的真正推理。数据RS-EoT-4K数据集数据来源从FIT-RS、VRSBench、DroneVehicle、SARLang-1M、EarthVQA、RSVQA等6个数据集中采样涵盖RGB、红外INF和SAR三种模态共计4.3K样本数据合成方法通过SocraticAgent系统自动合成推理轨迹包含Reasoner推理者和Perceiver感知者的多轮对话记录每个样本包含原始查询、多轮问答过程和最终答案评估基准数据集通用VQA任务FIT-RSFG-VQA、FIT-RSFG-SC、VRSBench-VQA、RSVQA细粒度定位任务DIOR-RSVG、VRSBench-Ref方法SFT阶段RS-EoT冷启动RS-EoT推理范式核心原则推理由自然语言协调语言作为制定假设、规划证据寻求步骤和细化中间结论的主要媒介视觉信息作为按需证据模型在每个推理步骤主动寻求、验证和整合局部视觉证据通过语言驱动推理和目标化证据检索的迭代循环实现基于证据的决策SocraticAgent数据合成系统系统架构Reasoner推理者基于GPT-5-mini仅接收文本查询和基本图像元数据执行纯文本推理并向Perceiver提出感知问题Perceiver感知者基于Gemini-2.5-flash接收遥感图像和Reasoner的问题提供基于图像的准确答案Verifier验证者基于doubao-seed-1.6-thinking验证Reasoner的最终答案是否与真实标签一致自博弈提示机制提示Reasoner其合作者感知能力弱迫使其进行详细问题分解并提出简单的增量式问题提示Perceiver其合作者推理能力弱迫使其提供准确但简洁的答案不包含无关信息确保多轮对话收敛为详细、渐进式的推理轨迹RL阶段增强和泛化RS-EoT第一阶段细粒度定位强化学习训练目标在细粒度定位任务DIOR-RSVG、VRSBench-Ref上进行强化学习利用这些任务天然需要细粒度视觉证据寻求的特性专门增强RS-EoT能力奖励设计基于IoU交并比的准确性奖励直接使用预测边界框与真实边界框的IoU作为奖励格式化奖励确保输出包含完整的think/think块和有效的边界框格式第二阶段通用VQA强化学习多选题数据重构策略将现有简单VQA数据集转换为多选题格式以避免奖励欺骗随机反转部分QA对的答案创建错误选项形成以下哪些QA对与该遥感图像匹配的多选题分级奖励函数选项级别的对称准确性奖励正确选择正确选项和正确拒绝错误选项均获得正奖励所有选项等权重避免训练崩溃迫使模型通过多轮推理和证据聚合来验证每个选项结果与分析RS-EoT-7B在多个遥感VQA和细粒度定位基准测试中均达到最优性能显著超越现有多模态推理模型和遥感专用推理模型。注意力动态分析和案例研究证实模型采用了清晰的推理-证据寻求迭代循环验证了RS-EoT范式能够缓解一瞥效应并实现真正的基于证据的推理。更多图表分析可见原文本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看