论文源https://doi.org/10.1016/j.neucom.2023.127052期刊名nuerocomputing 计算机科学二区注标题号不对应文内章节号目录注标题号不对应文内章节号1. 论文标题2. 关键词Keywords3. 摘要4.引言5. Scene Graph 定义6. 场景图生成7.其他内容简述1. 论文标题Scene Graph Generation: A Comprehensive Survey场景图生成一篇系统性综述2.关键词KeywordsScene Graph Generation场景图生成Visual Relationship Detection视觉关系检测Object Detection目标检测Scene Understanding场景理解3. 摘要近年来深度学习技术在物体检测领域取得重大突破并催生了大量场景理解任务。场景图因其强大的语义表征能力和在场景理解中的应用价值成为研究热点。场景图生成SGG是指将图像或视频自动映射为语义结构化场景图的任务该过程需要对检测到的物体及其关系进行正确标注。本文对近期研究成果进行了全面综述旨在系统梳理现有视觉关系检测方法综合阐释 SGG 的机制与策略。最后文章对当前存在的问题及未来研究方向进行了深入探讨。通过本综述读者将能更全面地理解当前研究进展。重点SGG把图像/视频 → 语义结构化场景图需要正确识别物体 关系本文目标系统整理视觉关系检测VRD方法从机制与策略层面解释 SGG讨论问题与未来方向4.引言Scene Understanding 问题的演化可简述为Image Classification → Detection → Segmentation → Panoptic但这些都只关心“物体是什么/在哪”真正对于环境理解需要物体间交互、环境和物体的关系因此出现了VRD视觉关系检测HOI人与物体交互Scene Graph场景图这里的“图”是数据结构意义上的图 对象节点 属性 关系边是一种结构化可组合可与语言对齐的表示应用驱动Fig.1Image CaptioningVQAImage RetrievalImage GenerationReferring Expression此文贡献138 篇 SGG 文献的系统综述以“特征表示 特征精炼”为主线的 2D SGG 分析覆盖 2D / 时空 / 3D SGG 数据集与评测5. Scene Graph 定义要素Object物体Attribute属性Relation关系Triplet 形式⟨subject, predicate, object⟩⟨object, is, attribute⟩图结构视角本质是有向图实际使用中节点 带属性的物体边 关系Scene Graph vs Knowledge GraphKG抽象、稳定、跨场景Scene Graph图像特定、瞬时、视觉依赖关键观点理想的 scene graph 在给定场景下是唯一的2D / 3D / 时序 Scene Graph2D有视角歧义3D消除空间歧义Video关系随时间变化 →时空场景图6. 场景图生成总览SGG ≠ 单纯关系分类核心在于关系预测之前的特征构造与特征精炼方法创新集中在 (b)(c)(a)(d) 属于前置条件与输出端(a) Object Detection前置模块不是研究重点使用 Faster R-CNN / RPN产生subject boxobject boxpredicate ROI subject ∪ object多数工作直接用现成 detector或用 GT box排除检测误差结论检测质量重要但不是 SGG 方法分类依据(b) Feature Representation特征表示核心问题Union box 的 appearance 特征不足以判别关系关系 多信息联合判断多模态特征Appearance解决“看起来像什么”Semantic解决“是什么东西”Spatial解决“相对位置”Context缩小可行语义空间Prior Information先验信息Statistical Prior数据集共现频率Language Prior词向量 / 语义相似度Commonsense Knowledge常识知识Source知识来源数据集统计 / 外部知识库ConceptNet, WikiFormulation建模方式共现矩阵 / 图结构 / 概率约束Usage使用位置特征精炼 / 推理阶段 / 训练约束(c) Feature Refinement特征精炼核心部分总体目标引入上下文保证关系预测的结构一致性与语义合理性Message Passing消息传递核心思想关系不是孤立的对象 / 关系之间存在依赖两级传播局部Triplet 内S ↔ P ↔ O全局Scene Graphobject ↔ object ↔ relation常见结构ChainRNN / LSTMTreeTreeLSTMVCTreeGraphGNN / CRFAttention Mechanism注意力机制作用选择性利用信息抑制无关上下文两类Self-Attention强化单个对象/关系表征Context-Aware Attention从图结构中选择关键邻居Visual Translation Embedding视觉平移嵌入动机同一 predicate 在不同对象间差异巨大Zero-shot / long-tail 问题两种形式不显式建模 predicate embedding显式建模 ⟨S, P, O⟩ 共同嵌入(d) Relation Prediction关系预测使用分类器输出 predicate生成 ⟨s, r, o⟩ triplets7.其他内容简述Section 4数据集汇总Section 5性能对比与评测指标Section 6开放问题与未来方向Section 7总结