SARES-DEIM: Sparse Mixture-of-Experts Meets DETR for Robust SAR Ship Detection稀疏混合专家与 DETR 相结合实现鲁棒 S
论文《SARES-DEIM: Sparse Mixture-of-Experts Meets DETR for Robust SAR Ship Detection》提出了一种面向合成孔径雷达SAR舰船检测的新型目标检测框架。以下是对其核心研究内容的全面总结一、研究背景与问题SAR 舰船检测面临三大挑战相干斑噪声SAR 固有的成像噪声严重干扰目标特征。近岸杂波港口、海岸等背景复杂易产生虚警。小目标检测困难传统网络的下采样操作容易丢失小舰船的细节信息。现有方法如 YOLO 系列、标准 DETR多面向光学图像缺乏对 SAR 物理散射特性的建模能力导致在复杂海上场景中性能受限。二、提出方法SARES-DEIM作者提出一个端到端的 DETR 风格检测框架核心包括两个创新模块1.SARESMoESAR 感知的混合专家模块采用稀疏门控机制动态地将特征路由到多个领域专家小波专家、空间专家、频率专家、混合专家。不同专家分配给不同金字塔层级P3/P4/P5分别处理去噪、细节保留、杂波抑制等任务。包含一个共享专家用于基础语义提取保证稳定性。实现场景自适应的特征增强有效抑制噪声和杂波。2.SDEP空间到深度增强金字塔利用空间到深度SPD变换无损地将高分辨率 P2 层1/4 尺度特征注入检测金字塔。避免传统下采样造成的小目标细节丢失显著提升小舰船的定位精度。整体框架仍保持 DETR 的端到端结构无需 NMS 和锚点结合 Transformer 解码器进行目标查询与预测。三、实验与性能数据集HRSID高分辨率 SAR 舰船数据集含 5604 图像块16951 个实例。SAR-Ship-Dataset多传感器大规模数据集含 43819 个舰船切片。主要结果HRSID指标SARES-DEIMDEIM基线提升mAP50:9576.4%73.0%3.4%mAP5093.8%92.0%1.8%Precision93.1%92.4%-Recall88.0%84.4%3.6%在 SAR-Ship-Dataset 上也显著优于 YOLOv8、YOLOv11、RT-DETR、D-FINE、SAR-D-FINE 等 SOTA 方法。消融实验结论SARESMoE 单独使用mAP50:95 提升 2.3%。SDEP 单独使用mAP50:95 提升 2.1%。两者结合效果最佳证明二者互补SDEP 保留结构SARESMoE 滤除噪声。可视化分析类激活图CAM显示SARESMoE 能显著抑制背景杂波仅激活目标区域。检测框更紧贴目标IoU 更高。专家激活分析验证了不同层级需要不同专家的设计合理性。四、主要贡献总结首次将稀疏混合专家MoE与 DETR 结合用于 SAR 舰船检测提出 SARESMoE 模块实现领域自适应的特征增强。设计 SDEP 颈部通过空间到深度变换无损保留高分辨率细节显著提升小目标定位能力。在两大公开数据集上达到新的 SOTA 性能超越 YOLO、DETR 及专用 SAR 检测器。提供系统的消融与可视化分析验证各模块的有效性与协同作用。五、未来工作方向将领域感知路由机制扩展到多模态SAR 光学融合场景。进一步优化架构以平衡计算效率与表示能力适应不同部署平台如星载、无人机载。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要合成孔径雷达SAR图像中的舰船检测从根本上受到固有相干斑噪声、复杂近岸杂波以及小尺度目标普遍存在的挑战。主要为光学图像设计的传统检测器对 SAR 特定的退化现象通常鲁棒性有限并且在空间下采样过程中会丢失精细的舰船特征。为解决这些限制我们提出了 SARES-DEIM一个基于 DETR检测 Transformer范式的领域感知检测框架。我们方法的核心是 SARESMoESAR 感知专家选择混合专家该模块利用稀疏门控机制选择性地将特征路由到专门的频率专家和小波专家。这种稀疏激活架构有效滤除相干斑噪声和语义杂波同时保持高计算效率。此外我们引入了空间到深度增强金字塔SDEP颈部以保留浅层阶段的高分辨率空间线索显著提升小目标的定位能力。在两个基准数据集上的大量实验证明了 SARES-DEIM 的优越性。值得注意的是在具有挑战性的 HRSID 数据集上我们的模型实现了 76.4% 的 mAP50:95 和 93.8%93.8% 的 mAP50m超越了最先进的 YOLO 系列和专用 SAR 检测器。索引词SAR 舰船检测DETR混合专家空间到深度卷积高精度检测。I. 引言合成孔径雷达SAR舰船检测 [1]–[5] 已成为海上态势感知的基石提供了不可或缺的全天候、昼夜监控能力。尽管有这些优势SAR 独特的侧视成像机制引入了一个基本矛盾目标后向散射特征与非平稳背景干扰的纠缠。具体而言普遍的相干斑噪声、复杂的近岸杂波以及极端的尺度变化表现为高虚警率和漏检特别是在高杂波近岸环境中嵌入的小尺度目标上。现有的 SAR 舰船检测器通常遵循两种技术范式YOLO 系列和 DETR 风格检测器。YOLO 系列 [6]–[8] 虽然为单阶段架构建立了流行的基准但严重依赖于手工设计的启发式方法如预定义的锚点设置和非极大值抑制NMS。这些手工设计的组件在不同的 SAR 传感器和海况其中散射模式变化显著下通常表现有限的泛化能力。相反DETR 风格检测器 [9]–[13] 提供了一个简化的端到端框架通过将检测公式化为二分匹配问题消除了复杂手工先验的需求。然而大多数通用 DETR 变体主要为光学图像设计在很大程度上对 SAR 目标独特的物理散射特性不敏感。因此它们存在表征刚性瓶颈静态权重共享算子难以从低信噪比SNR背景中辨别精细的舰船特征从而限制了它们在复杂海上监控应用中的性能上限。在这项工作中我们认为 SAR 检测的主要挑战在于不同海上场景中多样化的表征需求。例如近海目标需要鲁棒的频域滤波来抑制相干斑而近岸目标需要高分辨率空间辨别能力以区分船体与视觉上相似的港口基础设施。最近的研究强调了频域交互和协同多频模块在增强航空和 SAR 图像目标表示方面的关键作用 [14]–[16]。受这些见解的启发我们通过混合专家MoE理念 [17]–[19] 采用分而治之的策略。然而原版 MoE 架构缺乏领域特定的指导导致专家利用不理想。为了弥补这一差距我们提出了 SARES-DEIM其核心是一个 SAR 感知的专家选择 MoESARESMoE模块。通过结合由稀疏路由机制管理的小波、空间和频域专家SARESMoE 能够根据局部散射上下文自适应地分解特征。这种稀疏激活不仅最小化了冗余计算还通过领域特定的特征细化实现了相干斑噪声和语义杂波的同时抑制。此外我们发现标准主干网络中的激进下采样经常丢弃对小尺度舰船定位至关重要的精细线索。虽然最近的工作已经探索了位置细化的特征金字塔以缓解遥感中的定位退化 [20]但我们特别设计了空间到深度增强金字塔SDEP颈部以解决 DETR 架构中固有的深度语义损失问题。与主要从 1/8 尺度P3开始聚合特征的传统特征金字塔不同SDEP 显式地从 P2 层1/4 尺度获取高分辨率信息。通过使用空间到深度卷积SPDConv[21]SDEP 执行无损下采样将丰富的空间细节注入检测头。这种设计确保了小目标的结构完整性得以保留减轻了步长卷积造成的信息损失并为具有挑战性的海上场景建立了更具判别性的表示。贡献我们提出了 SARES-DEIM一个鲁棒的基于 DETR 的框架它连接了通用目标检测与 SAR 领域需求。我们提出了 SARESMoE一个具有稀疏路由的 SAR 感知混合专家模块以高效激活领域特定专家。我们设计了 SDEP 颈部通过空间到深度卷积从 P2 层获取精细空间线索用于小舰船定位。在 HRSID 和 SAR-Ship-Dataset 上的广泛评估展示了强大的性能包括在 HRSID 上达到 76.4% 的 mAP50:95 和 93.8% 的 mAP50。II. 相关工作A. YOLO 系列与 DETR 风格范式在 SAR 检测中的比较SAR 舰船检测已从启发式重型框架迅速演变为端到端预测范式。作为代表性单阶段检测器的 YOLO 系列 [6]–[8] 已广泛用于海上监控。这些方法通常依赖密集先验例如预定义的锚框和非极大值抑制NMS来解析多个检测。尽管在某些场景下有效但这些手工设计的组件在不同 SAR 传感器上通常表现出有限的泛化能力并且可能在具有重叠后向散射特征的密集舰船集群中导致严重的漏检。最近检测 TransformerDETR[9] 及其变体通过消除锚点和 NMS将检测公式化为二分匹配问题引入了一种范式转变。为了进一步提高性能上限诸如 DEIM [12] 和 D-FINE [13] 等框架开发了密集的一对一匹配机制和基于分布的定位细化为高精度目标检测建立了强大的基线。与主要为光学图像设计的通用 DETR 变体不同我们的 SARES-DEIM 针对 SAR 数据的独特物理特性进行了定制。它结合了改进的匹配策略和面向 SAR 的架构归纳偏置以增强在高杂波和低信噪比条件下的特征鲁棒性。B. 特征融合与条件计算有效的多尺度表示和自适应建模对于处理舰船的大尺度变化和 SAR 背景的高度非均匀性至关重要。传统的特征金字塔结构如 FPN [22]能有效聚合多尺度语义但通常会因激进的步长下采样而导致结构信息丢失。为了缓解细粒度细节的退化诸如 SPDConv [21] 等方法采用空间到深度变换以无损方式保留空间信息。同时自适应条件计算已在广泛的视觉任务中展现出强大的有效性包括可控图像编辑、布局一致生成和细粒度服装合成 [23]–[29]。这些进展表明当输入分布复杂或高度多样化时条件感知特征变换可以显著提高表示的灵活性和鲁棒性。受这一系列研究的启发混合专家MoE[17]–[19] 范式提供了一种通过稀疏自适应路由来扩展模型容量的自然机制。然而传统的 MoE 门控通常仅依赖于空间特征这可能忽略 SAR 目标独特的频域后向散射特性从而导致在具有挑战性的海上场景中专家选择不理想。为了实现鲁棒的多尺度检测和场景感知表示SARES-DEIM 引入了两个关键设计。首先SDEP 颈部利用空间到深度机制显式地从高分辨率 P2 层中挖掘细粒度线索确保小尺度舰船的结构特征在特征聚合过程中得以保留。其次SARESMoE 模块采用 SAR 感知的专家选择策略通过专门的小波和频率专家自适应地建模不同的散射模式。通过将保留细节的融合与领域特定的动态路由相结合我们的方法在物理可解释性和最先进的检测性能之间取得了更好的平衡。III. 提出的方法A. 概述B. SARESMoESAR 感知专家选择混合专家标准卷积层在整个图像上应用静态滤波器忽略了 SAR 信号的非平稳特性。在海上场景中目标和杂波在不同尺度上表现出截然不同的谱特性和空间特性。为了解决这个问题我们提出了 SARES-MoE 模块它将先进的频域和小波域算子整合到一个尺度感知的混合专家框架中。物理解释的专家设计我们通过利用最先进的动态算子来设计正交专家并通过尺度感知分配策略进行分配小波与空间专家分配给 P3浅层包含对相干斑高度敏感的微小舰船。我们采用 WTConv [31] 作为小波专家执行可学习的软阈值去噪并采用 GhostNet 模块 [32] 作为空间专家在保持平衡表示的同时保留细粒度的结构细节。频率与混合专家分配给 P4/P5深层需要全局频谱滤波来处理复杂的海杂波。我们采用 FADC [33] 的频率选择机制来构建频率专家该机制执行多尺度频率选择滤波以自适应地抑制频谱杂波。此外混合专家结合了并行的频域和小波域分支以处理复杂的多尺度散射场景。这种设计确保了模型能够根据每个金字塔层级的物理需求在“细节保留模式”和“杂波抑制模式”之间动态切换。C. SDEP空间到深度增强金字塔在 SAR 图像中检测微小舰船的根本障碍在于标准步长卷积引起的混叠这会侵蚀高频散射特征。为了解决这个问题我们提出了 SDEP 颈部它通过显式地将来自浅层的细粒度空间线索注入语义金字塔建立了一个理论上无损的细节传递机制。IV. 实验与分析为了评估所提出的 SARSE-DEIM 的有效性我们在两个广泛使用的 SAR 舰船检测基准 HRSID [34] 和 SAR-Ship-Dataset [35] 上进行了全面的实验。我们的方法与几个最先进的SOTA检测器按照标准评估协议进行了比较。数据集HRSID [34] 是一个高分辨率 SAR 舰船检测数据集包含 5,604 个图像块和 16,951 个舰船实例。它从全景 Sentinel-1 和 TerraSAR-X 图像中裁剪而来空间分辨率从 1m 到 5m提供了包括近岸和远海环境在内的多样化场景用于多尺度评估。SAR-Ship-Dataset [35] 包含从 102 幅高分-3 和 108 幅 Sentinel-1 图像中提取的 43,819 个舰船切片。其分辨率跨度从 3m 到 25m并包含多种极化模式是评估跨多传感器自适应表示能力的理想测试平台。A. 与最先进方法的比较1) 在 HRSID 上的比较据我们所知SARES-DEIM 在所有评估指标上均在 HRSID 上建立了新的最先进水平。如表 I 所示我们的模型与一系列检测器进行了比较包括经典架构Faster R-CNN, SSD, FCOS、SAR 特定方法CSCF-Net, SAR-D-FINE、通用 YOLO 系列YOLOv8, YOLOv11以及面向精度的 DETR 变体RT-DETR, D-FINE, DEIM。2) 在 SAR-Ship-Dataset 上的比较在高度多样化的 SAR-Ship-Dataset 上我们将所有方法的 S 级配置进行比较以确保一致的评估协议。如表 II 所示SARES-DEIM 在多传感器场景下展现了出色的鲁棒性。B. 消融研究与分析1) 架构组件分析为了量化每个提出组件的贡献我们在 HRSID 上进行了消融研究。表 III 显示基线 DEIM-S 模型无任何增强达到了 73.0% 的 mAP50:95。单独添加 SDEP 颈部行 5带来了显著的 2.1% 提升mAP50:95 达到 75.1%验证了高分辨率空间线索对于精确的边界框回归至关重要。单独添加 SARESMoE行 4带来了 2.3% 的显著提升75.3%。当两者结合形成完整的 SARES-DEIM行 8时mAP50:95 达到 76.4%比基线高出 3.4%。这些结果证实了 SARESMoE 和 SDEP 的协同效应SDEP 保留结构完整性而 SARESMoE 提供领域特定的噪声抑制。2) 路由机制分析为了阐明 SAR 感知路由的有效性我们在 HRSID 上比较了不同的门控策略。表 IV 显示无专家选择均匀门控的模型达到 74.2% 的 mAP50:95。采用 Top-1 选择最自信的专家达到了 74.8%。我们提出的 Top-2 选择策略达到了 75.3% 的最佳性能。这表明允许路由器激活多个专家的组合可以提供更丰富的表示同时保持稀疏性。3) 专家组成分析表 VI 分析了每个金字塔层级的专家分配。在 P3 层仅使用空间专家导致 mAP50:95 显著下降 1.5%与完整 SARESMoE 的 75.3% 相比。仅使用小波专家恢复了部分性能74.1%。在 P4 层混合专家74.2%略优于仅频率专家73.9%。在 P5 层仅频率专家74.6%优于混合专家73.8%。这些结果验证了不同层级需要不同专家专长的设计直觉。C. 可视化为了直观地展示 SARES-DEIM 的优越性我们从三个互补的角度提供了全面的定性评估检测结果、专家级激活分析和模块级消融可视化。1) 定性检测评估图 2 显示了 DEIM 基线和 SARES-DEIM 之间的视觉比较。在大多数孤立的和高密度目标的场景中两种模型都表现出高召回率。然而得益于 SDEP 颈部保留高分辨率空间线索的能力我们的模型产生了更紧密贴合目标船体的边界框。在最具有挑战性的近岸场景中基线预测显示出由沿海基础设施触发的高频冗余假阳性。相比之下我们的模型有效抑制了这些杂波引起的错误保持了更干净的检测输出。2) 专家级激活分析图 3 可视化了 SARESMoE 内单个专家配置的类激活图CAM。均匀门控图 3h导致目标强度减弱和显著的背景语义泄漏。相比之下完整的 SARESMoE图 3i利用双分支专家选择机制动态地调动最适合任务的神经通路产生仅在舰船目标上的集中的、高强度的激活并彻底抑制了背景噪声。3) 模块级消融可视化图 4 比较了四种配置的输出。基线图 4a表现出扩散的热力图激活。基线 SARESMoE图 4b显著抑制了背景杂波。基线 SDEP图 4c产生了更强烈的目标相关激活和结构化的定义。完整的 SARES-DEIM图 4d实现了最具说服力的视觉性能热力图呈现出最大的目标中心焦点背景区域几乎没有激活同时产生了最高 IoU 的边界框。V. 结论在本文中我们提出了 SARES-DEIM一个建立在 DETR 范式之上的领域感知检测框架专门针对 SAR 舰船检测进行了定制。通过重新思考复杂 SAR 环境中的表示瓶颈我们引入了 SARESMoE一个 SAR 感知的专家选择混合专家模块它动态地将特征路由到专门的频率专家和小波专家通过增加的模型容量有效抑制相干斑噪声和近岸杂波。为了克服普遍存在的微小目标漏检问题我们进一步设计了 SDEP 颈部它利用空间到深度卷积将高分辨率空间细节无损地传递到预测头。在 HRSID 和 SAR-Ship-Dataset 基准上的广泛评估证明了 SARES-DEIM 的有效性。在 HRSID 上我们的方法达到了 76.4% 的 mAP50:95 和 93.8% 的 mAP50在所有评估指标上超越了现有的 YOLO 系列、DETR 变体和 SAR 特定检测器为高精度海上监控建立了新的性能上限。在未来的工作中我们计划将此领域感知路由机制扩展到多模态SAR-光学融合场景并进一步研究架构优化以平衡不同部署平台上的表示能力和计算需求。