云挡住了卫星，算法还能画出洪水地图吗？

张

张建站

2026/7/5 1:41:51

10分钟阅读

穿过云层看洪水HLS时间序列如何把被云遮住的洪水地图补完整穿过云层看洪水光学卫星被云挡住后还能画出连续洪水地图吗一、研究背景洪水监测为什么总和云层过不去1. 洪水需要高频监测但卫星不是时时在线2. SAR不怕云但也不是万能答案3. 光学卫星信息丰富但最怕“白屏”二、论文要解决的核心问题不是“识别水”而是“补完整”三、方法总览三步走把“云下空白”变成连续洪水图四、第一步用遥感大模型先把“看得见的水”识别出来1. 为什么不用传统水体指数2. Prithvi-100M给HLS影像用的遥感基础模型3. 大模型这一步表现如何五、第二步云下面怎么补关键是“历史水体出现频率”1. 什么是水体出现频率2. 为什么不能简单按历史水体频率填充六、次最大稳定性假设别盯着一个固定阈值要看局部统计关系七、第三步用时空MRF让洪水图别“闪烁”八、从水体图到洪水图还要剔除“本来就有的水”九、实验设计四个国家四种典型洪水场景十、实验结果一HLS组合显著提高观测频率十一、实验结果二云下重建精度明显优于传统填补方法十二、实验结果三最大洪水范围和淹没时长更完整十三、SAR加入后有没有帮助有但还需要协调十四、这篇论文的创新点到底在哪里1. 它把“云下洪水重建”从普通水体填补中单独拎了出来2. 它使用遥感基础模型进行水体提取3. 它提出了次最大稳定性假设4. 它用时空MRF提高连续性5. 它把结果推向应急真正关心的产品十五、通俗理解这套方法像一个会补拼图的调查员十六、它对实际救灾有什么意义1. 提高阴雨天气下的洪水地图完整性2. 提高洪水过程监测频率3. 支持灾后损失评估4. 适合开放数据驱动的业务化应用十七、也要冷静看待这套方法还有哪些局限1. 它仍然依赖历史水体出现频率2. 云量太高时重建不确定性仍会上升3. 计算效率有改进空间4. 光学和SAR融合仍需解决一致性问题5. 它主要解决二维范围不直接给出水深十八、和KDFIMv2有什么区别可以这样理解十九、总结这篇论文最值得记住的是“不要让云层决定洪水地图的完整性”论文信息穿过云层看洪水光学卫星被云挡住后还能画出连续洪水地图吗一句话读懂这篇论文这篇论文解决的不是“如何在晴天识别水体”而是“洪水发生在阴雨天、卫星图被云挡住时如何把被遮住的水面合理补出来并形成连续的洪水过程图”。洪水监测有一个很尴尬的现实洪水越严重天气往往越糟天气越糟光学卫星越看不见。遥感论文里经常会展示非常清楚的洪水边界图蓝色是水灰色是陆地红色是新增淹没区。但真实灾害现场并不总是这样理想。很多时候卫星图上最醒目的不是洪水而是一大片白色云层。于是一个关键问题出现了如果一张洪水影像有一半被云挡住我们到底应该把云下面留空还是想办法恢复出它背后的洪水范围武汉大学李志伟等人在论文《Beyond clouds: Seamless flood mapping using Harmonized Landsat and Sentinel-2 time series imagery and water occurrence data》中提出了一套面向云雨洪水场景的连续洪水制图方法。它的核心思路不是简单“去云”也不是凭空生成一张好看的图而是把三类信息合在一起当前卫星影像中已经看见的水体历史上这个位置出现水的频率前后时相中水体变化的空间和时间连续性。最终它让被云遮挡的洪水图从“缺了几块的拼图”变成更连续、更完整、更适合应急分析的洪水时间序列。一、研究背景洪水监测为什么总和云层过不去1. 洪水需要高频监测但卫星不是时时在线洪水不是静态的。今天水还在河道里明天可能漫过堤岸后天可能淹没农田再过几天又开始退水。对救灾来说最重要的不是某一天的洪水边界而是整个过程洪水什么时候开始扩张哪些区域最先被淹峰值范围有多大水退得快不快某个村镇或农田到底淹了几天这就要求卫星既要看得清也要来得勤。但单颗卫星有重访周期Landsat、Sentinel-2虽然都是开放数据但并不是每天都能对同一地区提供清晰观测。洪水持续时间若只有几天观测间隔太长就可能直接错过峰值。2. SAR不怕云但也不是万能答案很多人会说既然光学卫星怕云那用SAR不就好了SAR确实有巨大优势。它能穿透云雨白天晚上都能工作是洪水监测的重要数据源。但SAR也有自己的难题城市区域建筑物和水体会产生复杂散射窄河道、植被覆盖和风浪会影响水体识别开放SAR数据源相对有限Sentinel-1B在2021年12月发生故障后Sentinel-1有效重访频率进一步下降。也就是说SAR像是一个能在雨夜工作的观察员但它并不一定每天都来也不一定在所有地表场景都看得准。3. 光学卫星信息丰富但最怕“白屏”光学卫星的优势也非常明显影像直观波段丰富Landsat和Sentinel-2长期开放HLS产品把Landsat-8/9和Sentinel-2A/B进行了协调可以形成约2—3天频率、30米分辨率的时间序列。问题是洪水多发生在强降雨和多云天气中。云一来光学影像就像监控摄像头被人贴了白纸不是算法不努力而是地表信息真的被挡住了。过去很多研究为了避免麻烦直接只选晴空影像做洪水制图。但这样一来最关键的阴雨洪水阶段反而被跳过了。这篇论文正是从这里切入不要只在晴天谈洪水监测要在真正云多雨多的洪水场景里尝试恢复被遮住的洪水信息。二、论文要解决的核心问题不是“识别水”而是“补完整”传统水体提取方法已经很多了。比如NDWI、MNDWI等水体指数利用水体在不同波段上的反射差异来区分水和陆地机器学习和深度学习方法则可以自动学习更复杂的光谱和空间特征。但这些方法有一个共同前提你得先看见地面。如果某个区域被云挡住水体指数也好深度学习也好都没法直接从“白云”里识别出地表洪水。因此这篇论文真正解决的是三个更实际的问题问题为什么难云下区域怎么补洪水是动态变化不是永久水体不能简单按历史水面填充不同时间的图怎么统一前后图像受云量、传感器和噪声影响结果容易闪烁洪水过程怎么表达应急管理需要最大淹没范围和淹没时长而不只是单张水体图换句话说这篇论文不是简单地问这张图哪里是水而是问这段时间里洪水到底怎样扩张、持续和退去即使有云我们能不能把过程补得更完整三、方法总览三步走把“云下空白”变成连续洪水图论文提出的流程可以概括为三步论文图1整体流程图这三步对应三个非常通俗的动作先看清能看见的地方用大模型从HLS影像中提取水体再推断云下面可能是什么利用历史水体出现频率和局部阈值重建云遮挡区最后让时间序列别乱跳用时空马尔可夫随机场让前后结果更连贯。下面逐个拆开讲。四、第一步用遥感大模型先把“看得见的水”识别出来1. 为什么不用传统水体指数传统水体指数最大的优点是简单、快、容易解释。比如MNDWI可以快速突出水体但它也容易遇到几个问题阈值需要人工设定不同地区、不同季节、不同传感器的最佳阈值不一样山影、建筑阴影、湿土、薄云等都可能干扰判断洪水区域地表复杂水体边界并不总是清晰。因此论文没有把水体提取完全交给水体指数而是使用了一个遥感大模型。2. Prithvi-100M给HLS影像用的遥感基础模型论文使用的是Prithvi-100M这是NASA和IBM团队基于HLS影像预训练的遥感基础模型。它可以理解为一个已经看过大量地球观测影像的“遥感底座模型”。论文图2Prithvi-100M–Sen1Floods11模型结构作者在这个基础上采用Prithvi-100M–Sen1Floods11架构并用Sen1Floods11洪水数据集进一步微调让模型更适合水体和洪水分割任务。输入影像包括六个波段Blue 蓝光Green 绿光Red 红光NIR 近红外SWIR1 短波红外1SWIR2 短波红外2。模型输出的是每个像素是否为水。3. 大模型这一步表现如何在Sen1Floods11测试集上微调后的模型总体精度达到97.35%F1-score为0.895。与预训练模型相比微调后精度略有提升尤其是精确率提升到了88.93%。这里有一个细节很关键论文认为水体提取中的“误报”比“漏报”更麻烦。为什么如果漏掉了一些真实水体后续云区重建和时间序列优化还有机会补回来但如果一开始把陆地误判成水后面可能会把这个错误继续传播导致洪水范围被夸大。所以作者更看重减少误报。五、第二步云下面怎么补关键是“历史水体出现频率”这篇论文最有特色的部分就是云下重建。论文图3云遮挡水体图重建示意它没有直接生成一幅无云影像而是在水体图层上做重建不去恢复云下面的真实颜色只判断云下面到底更可能是水还是非水。这就降低了问题难度也更符合洪水制图需求。1. 什么是水体出现频率论文使用了Global Surface WaterGSW数据集中的水体出现频率。这个数据是根据1984—2021年的历史Landsat观测统计出来的。每个像素都有一个数值表示历史上它被观测为水体的频率。可以这样理解水体出现频率直观含义90%几乎常年有水可能是河道、湖泊、水库50%季节性水体时有时无5%很少出现水可能只在洪水或特殊年份被淹0%历史上几乎未被观测为水如果云下面的像素历史上经常是水同时附近云外区域也显示为水那么它现在是水的可能性就更高。这听起来很自然但直接用历史频率会有坑。2. 为什么不能简单按历史水体频率填充因为洪水恰恰常常发生在“历史上不常有水”的区域。如果一个村庄或农田平时从不积水历史水体出现频率可能接近0。但洪水来时它可能被完全淹没。所以不能简单规定水体出现频率高于某个固定值就判为水低于这个值就判为陆地。这样会漏掉大量低频洪水。论文为此提出了一个更稳健的思路submaximal stability assumption可以译作“次最大稳定性假设”。名字有点抽象但背后的想法很接地气。六、次最大稳定性假设别盯着一个固定阈值要看局部统计关系论文的观察可以概括为三点平常水体范围通常落在历史最大水体范围之内洪水这类动态水体往往出现在低水体频率区域水体出现频率越低受云遮挡和历史观测不足影响越大不确定性越高。因此作者没有直接使用固定水体频率阈值而是在局部窗口内计算两个直方图一个统计云外区域所有像素的水体出现频率另一个只统计云外且当前被识别为水的像素的水体出现频率。然后计算两者的像素数量比例。通俗地说就是问在这个局部区域里历史水体频率达到多少时当前云外像素大多数已经表现为水如果某个频率段上云外像素中有相当比例被当前影像识别为水那么云下相邻像素只要历史水体频率也超过这个门槛就有理由被补成水。论文最终使用的像素数量比例阈值是0.35。局部窗口初始大小为50 × 50像素如果有效像素不足则逐步扩大窗口。云外区域统计历史水体频率云外且当前为水的区域统计历史水体频率计算像素数量比例确定局部水体频率阈值判断云下像素是水还是非水这一步的聪明之处在于它不是用全国统一阈值去填云而是在每个局部区域内根据当前洪水状态和历史水体频率自动找阈值。这对复杂洪水尤其重要。比如溃坝洪水中有些地方水体扩张有些水库水面反而下降。如果用全局阈值很容易顾此失彼局部自适应窗口则更能适应不同区域的变化。七、第三步用时空MRF让洪水图别“闪烁”云区重建之后仍可能有问题。比如某个像素第一天被判为水第二天被云遮挡后补成非水第三天又被判为水。如果这种跳变没有真实物理原因就会让洪水时间序列很不稳定。论文用时空马尔可夫随机场spatiotemporal MRF来做进一步优化。这个方法的直观假设有两个空间上水体通常是连片的不会像椒盐噪声一样随机散落时间上同一位置的水体状态往往会持续一段时间尤其在洪水过程中不会毫无规律地每天反复变化。所以MRF会综合考虑一个像素周围的邻居以及前后几天的状态选择一个更合理的水/非水类别。论文中空间邻域设置为3 × 3像素时间邻域为目标日期前后5个时间片。同时对重建像素赋予比清晰观测像素更低的权重承认“补出来的结果”本身不如真实观测可靠。这点很重要。它不是盲目相信重建结果而是在优化时告诉模型真实看到的像素更可信云下推断的像素可以参考但不要让它过度主导结果。八、从水体图到洪水图还要剔除“本来就有的水”得到连续水体图之后还不能直接说所有水都是洪水。河流、湖泊、水库原本就有水它们不是新增洪水。论文通过洪水前的最大水体范围来区分洪水前就存在的水标记为 pre-flood water洪水期间新增出现的水标记为 floodwater其他区域非水。最终可以得到三类结果类型含义非水未被水覆盖洪水前水体原本存在的河湖水面洪水淹没区洪水期间新增淹没区域在此基础上还能进一步合成最大洪水范围图洪水淹没持续时间图洪水过程变化图。这比单张水体图更接近真实应急需求。九、实验设计四个国家四种典型洪水场景论文没有只在一个案例上验证而是选择了四个全球研究区研究区洪水类型与特点印度阿萨姆2022年5—8月洪水频发洪水区云量高洪水范围变化明显巴基斯坦信德省2022年8—9月洪水影响范围广卫星重访较密云量相对较少巴西南里奥格兰德2023年10月洪水强降雨导致河流泛滥云量重可用观测少美国密歇根2020年5月溃坝洪水水体同时扩张和收缩重建难度高这四个案例覆盖了不同气候、不同水文过程和不同云量条件。其中密歇根溃坝洪水尤其有意思它不是单纯“水越淹越多”而是有的地方水涨有的地方水退。这样的场景能检验方法是否只是机械扩张水体还是能适应局部变化。十、实验结果一HLS组合显著提高观测频率论文使用HLS影像也就是协调后的Landsat-8/9和Sentinel-2时间序列。论文图5四个研究区的重建结果把两个传感器系列合起来后四个研究区的平均观测间隔明显缩短研究区原始平均间隔使用更多HLS局部覆盖影像后印度阿萨姆8.3天3.1天巴基斯坦信德省5.0天2.5天巴西南里奥格兰德6.2天3.2天美国密歇根4.4天2.9天这说明Landsat和Sentinel-2的融合不是锦上添花而是直接关系到能否捕捉洪水过程。对于变化很快的洪水多看一次可能就多抓住一个关键阶段。十一、实验结果二云下重建精度明显优于传统填补方法论文通过模拟不同云量条件对比了本文方法和典型gap-filling方法。论文图7不同云量下重建结果对比核心结果很清楚阶段对比方法F1-score本文方法F1-score洪水期间0.8710.931洪水前/后0.7720.903也就是说在洪水期间F1-score提高了0.060在洪水前后提高了0.131。从总体精度看本文方法在洪水期间和非洪水期间分别达到96.46%和97.91%。不同云量下本文方法平均F1-score分别为云量条件平均F1-score低云量小于30%0.955中云量30%—60%0.920高云量大于60%0.875可以看到云越多精度确实会下降但在高云量下方法仍保持了相对可用的表现。更重要的是论文指出云量越高时空MRF优化越重要。因为当可见信息变少时前后时相和邻域关系能提供更强的约束。十二、实验结果三最大洪水范围和淹没时长更完整单张洪水图能告诉我们某一天哪里有水但灾害评估更关心两个综合指标最大洪水范围这场洪水最多淹到了哪里淹没持续时间一个区域被水覆盖了多久。论文图9云重建前后的最大范围和持续时间对比论文比较了使用原始云污染水体图和使用重建后水体图合成的结果。结果显示重建后的水体序列可以生成更完整的最大洪水范围图也能得到空间连续性更好的淹没时长图。这很好理解。如果原始序列中很多日期被云遮住那么你统计淹没时长时就会漏掉大量信息。某块区域可能连续淹了10天但因为其中6天被云遮住原始方法可能只能记录到4天。云下重建的价值就在这里它不只是让单张图更完整还让整个洪水过程的统计结果更可信。十三、SAR加入后有没有帮助有但还需要协调论文也讨论了加入Sentinel-1 SAR影像的可能性。理论上SAR不怕云应该能增强重建结果。实验结果显示加入SAR后F1-score有小幅提升约0.12%。这个提升并不算大原因也很现实SAR和光学影像成像机制不同同一天获取的SAR水体图和光学水体图也可能不完全一致SAR在城市、植被、水面风浪等场景中会出现特有误差直接把SAR水体图堆进光学时间序列仍会带来跨传感器不一致。因此论文的态度是谨慎乐观SAR确实有潜力尤其在持续浓云条件下很重要但未来需要解决SAR与光学水体图的统一和协调问题。这也是后续多源洪水监测研究的重要方向。十四、这篇论文的创新点到底在哪里1. 它把“云下洪水重建”从普通水体填补中单独拎了出来已有水体gap-filling方法多面向常年水体或季节性水体。但洪水是不稳定的、快速变化的、低频出现的。直接套用常规水体补洞方法容易漏掉洪水扩张区或把历史河湖信息误用到当前洪水。这篇论文明确把场景限定在云雨洪水过程下提出更适合动态洪水的重建策略。2. 它使用遥感基础模型进行水体提取传统水体指数依赖阈值机器学习依赖手工特征。本文使用Prithvi-100M基础模型并在洪水数据集上微调使水体提取更自动化也更适合多地区、多传感器场景。这代表了一种趋势遥感任务正在从“每个任务单独设计特征”走向“基础模型迁移到具体任务”。3. 它提出了次最大稳定性假设这是本文方法的关键思想。它承认历史水体频率有用但也承认它有偏差它既利用历史信息又不盲目相信历史信息。通过局部窗口和像素数量比例方法能更稳健地确定云下重建阈值。4. 它用时空MRF提高连续性洪水图不是单张照片而是一段时间序列。论文用空间邻域和时间邻域约束让水体结果更符合“水体连片、状态持续”的常识从而减少噪声和跳变。5. 它把结果推向应急真正关心的产品论文不仅展示单期洪水图还合成最大洪水范围和淹没时长图。这意味着它不仅关注算法精度也关注灾害管理中真正会使用的产品形式。十五、通俗理解这套方法像一个会补拼图的调查员可以把洪水制图想象成拼图游戏。卫星影像给了你一部分拼图但很多块被云盖住了。普通方法可能有两种做法看不见的地方直接空着按历史经验粗略填上。本文方法更像一个谨慎的调查员先用大模型识别已露出的水体查历史档案看这些位置过去有多常出现水观察周围云外区域当前是不是已经被水覆盖根据局部统计关系判断云下区域再检查前后几天结果是否连贯最后输出完整的洪水过程图。它不是凭空想象而是在“当前观测、历史经验、时空连续性”之间做平衡。十六、它对实际救灾有什么意义1. 提高阴雨天气下的洪水地图完整性洪水应急最怕地图有大片空白。空白区域可能正是受灾最严重的地方。这套方法能在云遮挡区域给出更合理的水/非水判断减少洪水图中的空洞。2. 提高洪水过程监测频率HLS时间序列可以达到约2—3天频率。结合重建方法后即便某些日期有云也能尽量保留过程信息。这对判断洪水峰值、退水节奏和后续风险很重要。3. 支持灾后损失评估最大淹没范围可以用于估算受灾面积淹没时长则对农田损失、道路中断、基础设施影响评估非常关键。淹没一天和淹没两周灾害后果完全不同。4. 适合开放数据驱动的业务化应用本文主要使用HLS、GSW等开放数据并公开了代码和数据。这意味着方法具备较强的推广潜力尤其适合缺少商业高分数据支持的区域。十七、也要冷静看待这套方法还有哪些局限1. 它仍然依赖历史水体出现频率GSW水体出现频率来自历史观测。如果某场极端洪水淹没了历史上几乎从未被淹的区域历史水体频率可能无法提供足够提示。论文也指出这可能限制方法对气候变化背景下极端洪水事件的捕捉能力。2. 云量太高时重建不确定性仍会上升当一幅影像几乎全被云覆盖局部可用观测太少重建就会更依赖历史数据和前后时相。这时结果仍有价值但不应被当作完全等同于真实观测。3. 计算效率有改进空间局部滑动窗口方法比全局阈值更精细但计算更慢。论文以印度阿萨姆案例为例24景HLS影像、平均云量76.10%的时间序列在普通桌面电脑上完整处理耗时约9234秒。其中局部重建步骤比传统全局方法更耗时。这对于离线分析可以接受但要做近实时业务还需要进一步优化。4. 光学和SAR融合仍需解决一致性问题SAR能补充云下信息但SAR水体图和光学水体图存在物理机制差异。未来不是简单“把SAR加进来”就行而是要解决跨传感器水体定义和误差模式不同的问题。5. 它主要解决二维范围不直接给出水深本文重点是洪水范围、最大范围和淹没时长。对于应急决策来说水深同样关键。未来若能结合DEM、水动力模型或水位观测就有机会从“哪里被淹”进一步走向“淹了多深”。十八、和KDFIMv2有什么区别可以这样理解如果把这篇论文和前面那篇KDFIMv2放在一起看会很有意思。维度Beyond cloudsKDFIMv2主要数据HLS光学时间序列 GSW水体频率光学 SAR DEM 物理约束核心问题云遮挡下的二维洪水范围补全观测缺口下的连续洪水过程、水深和时长重建关键方法大模型水体提取历史水体频率重建时空MRFSAR/光学协同水面高程连续性 DEM水深计算输出重点洪水范围、最大淹没范围、淹没时长洪水范围、水深、持续时间等三维/四维信息特色充分利用HLS高频光学序列专门处理云下补图强调知识驱动和物理可解释的缺测补全可以说Beyond clouds更像是在回答光学卫星被云挡住时二维洪水范围能不能补完整KDFIMv2则进一步回答多源卫星都有缺口时能不能重建洪水的时空连续过程甚至估计水深两者并不是简单替代关系而是同一研究方向上的不同层次。十九、总结这篇论文最值得记住的是“不要让云层决定洪水地图的完整性”这篇论文最打动人的地方不是用了大模型也不是某个指标提高了多少而是它抓住了洪水遥感中的一个真实痛点灾害最严重的时候往往也是遥感观测最不完整的时候。如果我们只依赖无云影像就会错过很多关键时刻如果我们把云下区域直接留空洪水图就无法支撑完整的应急分析如果我们粗暴按历史水体填补又可能忽略低频极端洪水。本文提出的做法是在这三者之间找到平衡用遥感大模型提升当前可见区域的水体识别用历史水体出现频率为云下区域提供先验用局部自适应阈值避免简单套用全局经验用时空MRF保证洪水过程图更连续最终服务于最大淹没范围和淹没时长等实际产品。一句话概括它不是让卫星真的穿透云层而是让算法学会在云层遮挡下更谨慎、更连续地恢复洪水过程。这正是“Beyond clouds”这个题目的含义越过云层不是靠魔法而是靠当前观测、历史知识和时空逻辑共同推理。论文信息论文题目Beyond clouds: Seamless flood mapping using Harmonized Landsat and Sentinel-2 time series imagery and water occurrence data作者Zhiwei Li、Shaofen Xu、Qihao Weng期刊ISPRS Journal of Photogrammetry and Remote Sensing卷页216185–199发表时间2024DOI10.1016/j.isprsjprs.2024.07.022Downloadhttps://www.sciencedirect.com/science/article/pii/S0924271624002892