笔记：场景图生成综述（Scene Understanding）

张

张建站

2026/6/18 23:34:17

10分钟阅读

论文源https://doi.org/10.1016/j.neucom.2023.127052期刊名nuerocomputing 计算机科学二区注标题号不对应文内章节号目录注标题号不对应文内章节号1. 论文标题2. 关键词Keywords3. 摘要4.引言5. Scene Graph 定义6. 场景图生成7.其他内容简述1. 论文标题Scene Graph Generation: A Comprehensive Survey场景图生成一篇系统性综述2.关键词KeywordsScene Graph Generation场景图生成Visual Relationship Detection视觉关系检测Object Detection目标检测Scene Understanding场景理解3. 摘要近年来深度学习技术在物体检测领域取得重大突破并催生了大量场景理解任务。场景图因其强大的语义表征能力和在场景理解中的应用价值成为研究热点。场景图生成SGG是指将图像或视频自动映射为语义结构化场景图的任务该过程需要对检测到的物体及其关系进行正确标注。本文对近期研究成果进行了全面综述旨在系统梳理现有视觉关系检测方法综合阐释 SGG 的机制与策略。最后文章对当前存在的问题及未来研究方向进行了深入探讨。通过本综述读者将能更全面地理解当前研究进展。重点SGG把图像/视频 → 语义结构化场景图需要正确识别物体关系本文目标系统整理视觉关系检测VRD方法从机制与策略层面解释 SGG讨论问题与未来方向4.引言Scene Understanding 问题的演化可简述为Image Classification → Detection → Segmentation → Panoptic但这些都只关心“物体是什么/在哪”真正对于环境理解需要物体间交互、环境和物体的关系因此出现了VRD视觉关系检测HOI人与物体交互Scene Graph场景图这里的“图”是数据结构意义上的图对象节点属性关系边是一种结构化可组合可与语言对齐的表示应用驱动Fig.1Image CaptioningVQAImage RetrievalImage GenerationReferring Expression此文贡献138 篇 SGG 文献的系统综述以“特征表示特征精炼”为主线的 2D SGG 分析覆盖 2D / 时空 / 3D SGG 数据集与评测5. Scene Graph 定义要素Object物体Attribute属性Relation关系Triplet 形式⟨subject, predicate, object⟩⟨object, is, attribute⟩图结构视角本质是有向图实际使用中节点带属性的物体边关系Scene Graph vs Knowledge GraphKG抽象、稳定、跨场景Scene Graph图像特定、瞬时、视觉依赖关键观点理想的 scene graph 在给定场景下是唯一的2D / 3D / 时序 Scene Graph2D有视角歧义3D消除空间歧义Video关系随时间变化 →时空场景图6. 场景图生成总览SGG ≠ 单纯关系分类核心在于关系预测之前的特征构造与特征精炼方法创新集中在 (b)(c)(a)(d) 属于前置条件与输出端(a) Object Detection前置模块不是研究重点使用 Faster R-CNN / RPN产生subject boxobject boxpredicate ROI subject ∪ object多数工作直接用现成 detector或用 GT box排除检测误差结论检测质量重要但不是 SGG 方法分类依据(b) Feature Representation特征表示核心问题Union box 的 appearance 特征不足以判别关系关系多信息联合判断多模态特征Appearance解决“看起来像什么”Semantic解决“是什么东西”Spatial解决“相对位置”Context缩小可行语义空间Prior Information先验信息Statistical Prior数据集共现频率Language Prior词向量 / 语义相似度Commonsense Knowledge常识知识Source知识来源数据集统计 / 外部知识库ConceptNet, WikiFormulation建模方式共现矩阵 / 图结构 / 概率约束Usage使用位置特征精炼 / 推理阶段 / 训练约束(c) Feature Refinement特征精炼核心部分总体目标引入上下文保证关系预测的结构一致性与语义合理性Message Passing消息传递核心思想关系不是孤立的对象 / 关系之间存在依赖两级传播局部Triplet 内S ↔ P ↔ O全局Scene Graphobject ↔ object ↔ relation常见结构ChainRNN / LSTMTreeTreeLSTMVCTreeGraphGNN / CRFAttention Mechanism注意力机制作用选择性利用信息抑制无关上下文两类Self-Attention强化单个对象/关系表征Context-Aware Attention从图结构中选择关键邻居Visual Translation Embedding视觉平移嵌入动机同一 predicate 在不同对象间差异巨大Zero-shot / long-tail 问题两种形式不显式建模 predicate embedding显式建模 ⟨S, P, O⟩ 共同嵌入(d) Relation Prediction关系预测使用分类器输出 predicate生成 ⟨s, r, o⟩ triplets7.其他内容简述Section 4数据集汇总Section 5性能对比与评测指标Section 6开放问题与未来方向Section 7总结

3步解锁城通网盘满速下载：ctfileGet开源工具完全指南

3步解锁城通网盘满速下载：ctfileGet开源工具完全指南【免费下载链接】ctfileGet 获取城通网盘一次性直连地址项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 还在为城通网盘80KB/s的龟速下载而烦恼吗？ctfileGet作为一款开源前端解析工…...

2026/6/18 23:39:30 阅读更多 →

Rimworld Mod制作进阶：从零复刻太阳能发电机核心逻辑

1. 逆向工程原版太阳能发电机当你第一次在Rimworld中放置太阳能发电机时，有没有好奇过它背后的工作原理？作为Mod开发者，理解游戏底层机制远比单纯使用现成组件更有价值。今天我们就来拆解这个看似简单却暗藏玄机的电力设备。原版太阳能发电…...

2026/6/19 0:14:40 阅读更多 →

如何快速解决Windows热键冲突：热键侦探完整使用指南

如何快速解决Windows热键冲突：热键侦探完整使用指南【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是不是经…...

2026/6/4 16:16:42 阅读更多 →