结合外部知识库与适应性推理的场景图生成模型

引用本文

王旖旎, 高永彬, 万卫兵, 等. 结合外部知识库与适应性推理的场景图生成模型[J]. 计算机工程, 2022, 48(9), 230-238. DOI: 10.19678/j.issn.1000-3428.0062268.

WANG Yini, GAO Yongbin, WAN Weibing, et al. Scene Graph Generation Model Combined with External Knowledge Base and Adaptive Reasoning[J]. Computer Engineering, 2022, 48(9), 230-238. DOI: 10.19678/j.issn.1000-3428.0062268.

基金项目

国家自然科学基金青年科学基金项目（61802253）

作者简介

王旖旎（1995—），女，硕士研究生，主研方向为计算机视觉、图像处理;
高永彬，副教授;
万卫兵，副教授;
杨淑群，教授;
郭茹燕，硕士研究生

文章历史

收稿日期：2021-08-05
修回日期：2021-10-15

Contents Abstract Full text Figures/Tables PDF

结合外部知识库与适应性推理的场景图生成模型

王旖旎 , 高永彬 , 万卫兵 , 杨淑群 , 郭茹燕

上海工程技术大学电子电气工程学院，上海 201600

收稿日期：2021-08-05；修回日期：2021-10-15

基金项目：国家自然科学基金青年科学基金项目（61802253）

作者简介：王旖旎（1995—），女，硕士研究生，主研方向为计算机视觉、图像处理; 高永彬，副教授; 万卫兵，副教授; 杨淑群，教授; 郭茹燕，硕士研究生.

E-mail: gaoyongbin@sues.edu.cn

摘要：为在场景图生成网络中获得重要的上下文信息，同时减少数据集偏差对场景图生成性能的影响，构建一种基于外部知识库与适应性推理的场景图生成模型。利用结合外部知识库的目标检测模块引入语言先验知识，提高实体对关系类别检测的准确性。设计基于Transformer架构的上下文信息提取模块，采用两个Transformer编码层对候选框和实体对关系类别进行处理，并利用自注意力机制分阶段实现上下文信息合并，获取重要的全局上下文信息。构建特征特殊融合的适应性推理模块，通过软化分布并根据实体对的视觉外观进行适应性推理关系分类，缓解实体对关系频率的长尾分布问题，提升模型推理能力。在VG数据集上的实验结果表明，与MOTIFS模型相比，该模型在谓词分类、场景图分类和场景图生成子任务上的Top-100召回率分别提升了1.4、4.3、7.1个百分点，对于多数关系类别具有更好的场景图生成效果。

Scene Graph Generation Model Combined with External Knowledge Base and Adaptive Reasoning

WANG Yini , GAO Yongbin , WAN Weibing , YANG Shuqun , GUO Ruyan

School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai 201600, China

Abstract: To obtain better contextual information in the Scene Graph Generation(SGG) network while reducing the impact of dataset bias, this study proposes a SGG model based on an external knowledge base and adaptive reasoning.First, the proposed model uses a target-detection module combined with an external knowledge base to provide the model with linguistic priori knowledge to improve the accuracy of relationship-category detection for entity pairs.Second, the model designs a transformer architecture-based context information extraction module to process the candidate box and entity pair relationship labels through two transformer-coding layers, and merge the context information in stages using the self-attention mechanism to obtain more meaningful global context information.Finally, as the relationship frequencies are affected by the long-tail distribution, the model designs a feature-specific fusion of adaptive inference modules to alleviate this problem by softening the distribution and by adaptively reasoning about relationship classification based on the visual appearance of entity pairs.Experimental results on the Visual Genome (VG) dataset show that using the proposed model, Top-100 Recall(Recall@100, R@100) on Predicate Classification(PredCls), Scene Graph Classification(SGCls), and Scene Graph Generation(SGGen) subtasks is increased by 1.4, 4.3, and 7.1 percentage points, respectively, compared with the MOTIFS model.Furthermore, the proposed model achieves better SGG effect for most relationship categories.

开放科学（资源服务）标志码（OSID）：

0 概述

场景图^[1]是图像内容的结构化表示，不仅可以表示图像中所有的实体，而且可以表示不同实体对之间的关系信息，由一系列有序的主语-谓语-宾语三元组来表达图像中的语义、空间和从属信息。一个完整的场景图能够代表一个场景数据集的详细语义，场景图的相关研究极大促进了人们对于计算机视觉^[2-3]、自然语言处理^[4]及其跨领域任务^[5]的理解。场景图生成（Scene Graph Generation，SGG）任务相比于目标检测^[6]、对象交互^[7]、活动识别^[8]等任务不仅需要检测场景中物体的类别和位置，还需要推理这些组件之间的复杂关系，因此场景图生成成为近年来计算机视觉领域的研究热点。

现有的场景图生成方法通常依赖检测模型或者引入上下文信息辅助对象识别。文献[9]利用目标检测模型对图像中的物体进行检测与分类，并分别对物体和关系进行建模。文献[10]提出图区域卷积神经网络（Graph Region Convolutional Neural Network，Graph RCNN），利用注意力机制的图卷积神经网络捕捉上下文信息以更好地进行信息传递，优化边的连接。文献[11]引入一种端到端模型，该模型通过基于循环神经网络（Recurrent Neural Network，RNN）的消息传递来迭代完善关系和实体预测。文献[12]将实体和谓词映射到一个低维的嵌入向量空间，其中谓词为主体和客体的联合框的嵌入特征之间的翻译向量，这种关系被建模为一个简单的向量转换，即主语+ 谓语≈宾语，极大改善了场景图中的视觉关系。文献[13]对Visual Genome（VG）数据集^[14]上的关系和实体对之间的统计共现进行分析，通过统计实体对及其子结构（MOTIFS）的共现频率，设计一种基于长短期记忆（Long Short-Term Memory，LSTM）网络^[15]的上下文信息传递模型，对实体和关系的全局上下文信息进行编码从而大幅改善了关系之间的特征表示。文献[16]以结构图的形式表示数据集中的统计学知识，并以此作为额外知识纳入深度传播网络，有效规范了可能的关系分布，改善了预测的模糊性。

场景图中的结构化表示由实体及其关系构成，随着实体数量的增长，场景图生成模型的计算量大幅增加。除此之外，现实世界中关系分布严重不均，视觉关系长尾分布导致关系推理模型发生过拟合。事实上，实体在视觉图像中并不是孤立存在的，实体和关系被放置在一个彼此共同变化的视觉环境中。根据先验知识推理规范化语义空间，将特定布局中的实体相连接，建立图像中实体间的关系进行高层次推理。例如，“person”与“horse”，根据常识知识推理，它们的关系应该是“person riding horse”，而不仅是“person on horse”。基于此，本文构建一种结合外部知识库与适应性推理的场景图生成模型，简称为EASG，主要包括目标检测、上下文信息提取和适应性推理3个模块。

1 相关工作 1.1 目标检测

目标检测是计算机视觉领域的研究重点，同时也是视觉理解的基础任务。文献[17]将具有自主学习能力且鲁棒性较强的卷积神经网络（Convolution Neural Network，CNN）引入目标检测领域，之后便利用多种基于CNN的目标检测算法来提高物体检测准确率。YOLO系列^[18-20]和SSD^[21]作为一段式的代表模型，主要思想是将物体分类与定位在一个阶段内完成，但YOLO模型目标位置精度不足，SSD模型结构冗杂。两段式的代表模型Faster-RCNN^[6]通过设计一个区域候选网络（Region Proposal Network，RPN）来代替传统的选择性搜索算法，大大减少了目标候选框的数量，具有较好的目标检测效率。Mask-RCNN^[22]在Faster-RCNN的基础上引入ROI Align代替原本的ROI Pooling，使得目标检测精度进一步提高，因此本文采用Mask-RCNN作为模型的底层检测器。

1.2 场景图生成中的先验知识

场景图可以将图像中有意义的信息表示为图形节点和连线，具体细节如图 1所示（彩色效果见《计算机工程》官网HTML版）。语言先验通常使用从外部知识库嵌入语义词的信息来微调关系预测，从而提高视觉关系检测的准确性。语言先验可以通过对语义相关物体的观察来帮助视觉关系的识别。例如，“horse”和“elephant”可能被安排在语义相似的环境中，尽管“person”和“elephant”共同出现在训练集中并不常见，但通过引入语言先验知识和研究“person riding horse”，模型就能学习到“person riding elephant”。对场景图生成而言，关系是对象的连接，它的语义空间比对象的语义空间更宽。由于关系分布的空间大及其长尾性质，因此仅使用训练集中的注释是不够的，并且研究人员也很难收集到足够数量的标记的训练数据。

	Download: JPG larger image
图 1 场景图结构示例 Fig. 1 Example of scene graph structure

研究人员对语言先验知识的引入进行了大量研究并取得了一定的研究成果。文献[9]同时训练一个视觉外观模块和一个语言模块，语言模块将语义关系投射到一个嵌入空间，然后结合这两个模块来推断图像中的视觉关系。文献[23]从网络公开的文本收集外部语言知识，提取语义信息，通过统计人类用来描述对象对之间的关系的词汇和表达方式来实现外部知识库的嵌入。文献[24]使用词嵌入来获得语义图，同时构建一个空间场景图来编码图像中的全局上下文信息之间的相互依赖关系，通过结合先前的语义和视觉场景有效地学习视觉关系的潜在表征。

本文建立基于外部知识库与适应性推理的场景图生成模型。首先，设计结合外部知识库（Wikipedia）的目标检测模块，利用GloVe算法^[25]对外部知识库中的语言先验进行编码，为模型提供推断关系的语言先验知识，提高视觉关系预测的准确性。然后，构建基于Transformer^[26]的上下文信息提取模块（简称为TRSG），利用两个Transformer编码层结构对图像中的候选框和实体对关系进行处理，并分阶段进行上下文信息的合并，以此得到全局上下文信息，并由解码层对实体对之间的关系进行预测，通过捕捉图像中的上下文信息来推理图结构中的结构化信息，得到更重要的全局上下文表达和图像中的场景信息。最后，建立特征特殊融合的适应性推理模块，通过对数据集中的关系频率分布进行软化，并根据每个实体对的视觉外观适应性推理其关系频率分布来有效降低数据集中的长尾分布影响，提升模型推理能力。

2 基于外部知识库与适应性推理的场景图生成模型

场景图是图像中内容信息的拓扑结构表示。给定一幅图像I，通过场景图生成模型可得到一幅由图像中各个实体的类别和位置以及每个实体对之间的关系组成的关系图，可将其定义为关系三元组：

1）$ {\boldsymbol{B}}=\left\{{\boldsymbol{b}}_{1}, {\boldsymbol{b}}_{2}, \cdots , {\boldsymbol{b}}_{i}, \cdots , {\boldsymbol{b}}_{n}\right\} $表示一系列目标候选框的集合，其中$ {\boldsymbol{b}}_{i} $表示第$ i $个区域的边界框。

2）$ \boldsymbol{O}=\left\{{\boldsymbol{o}}_{1}, {\boldsymbol{o}}_{2}, \cdots , {\boldsymbol{o}}_{i}, \cdots , {\boldsymbol{o}}_{n}\right\} $表示一系列和候选框$ \boldsymbol{B} $对应的实体集合，其中$ {\boldsymbol{o}}_{i} $表示和$ {\boldsymbol{b}}_{i} $区域对应的实体。

3）$ \boldsymbol{R}=\left\{{\boldsymbol{r}}_{1\to 2}, {\boldsymbol{r}}_{1\to 3}, \cdots , {\boldsymbol{r}}_{i\to j}, \cdots , {\boldsymbol{r}}_{n\to n-1}\right\} $表示对应的实体对之间的关系标签，其中$ {\boldsymbol{r}}_{i\to j} $表示$ \left({\boldsymbol{b}}_{i}, {\boldsymbol{o}}_{i}\right) $和$ \left({\boldsymbol{b}}_{j}, {\boldsymbol{o}}_{j}\right) $之间的关系。

因此，场景图$ p\left(G|I\right) $的概率分布可以分解如下：

$ p\left(G|I\right)=p\left(\boldsymbol{B}|I\right)p\left(\boldsymbol{O}|\boldsymbol{B}, I\right)p\left(\boldsymbol{R}|\boldsymbol{O}, \boldsymbol{B}, I\right) $

(1)

本文提出的结合外部知识库与适应性推理的场景图生成模型的整体框架和物体边界框及对应实体细节图分别如图 2和图 3所示（彩色效果见《计算机工程》官网HTML版）。首先，在给定的一幅图像中，通过目标检测模块生成物体边界框和物体的类别分类概率。然后，在Transformer的上下文捕捉模块中，输出包含上下文信息的实体类别标签以及谓语关系的上下文信息表示。最后，将得到的关系上下文信息表示进行特殊的特征融合，并且利用融合处理过的频率偏差进行实体对的关系预测。

	Download: JPG larger image
图 2 结合外部知识库与适应性推理的场景图生成模型框架 Fig. 2 Framework of scene graph generation model combined with external knowledge base and adaptive reasoning

	Download: JPG larger image
图 3 物体边界框及对应实体细节图 Fig. 3 Object bounding box and corresponding entity detail map

2.1 结合外部知识库的目标检测

使用以ResNeXt-101-FPN^[27-28]为主干网络的Mask-RCNN架构作为模型的基础目标检测器。对于给定的一幅图像I，检测器会生成一组候选框集合$ \boldsymbol{B}=\left\{{\boldsymbol{b}}_{1}, {\boldsymbol{b}}_{2}, \cdots , {\boldsymbol{b}}_{i}, \cdots , {\boldsymbol{b}}_{n}\right\} $表示图像中每个实体的空间信息，并且提取通过ROI Align层输出的候选框$ {\boldsymbol{b}}_{i} $对应的特征向量$ \boldsymbol{F}={\left\{{\boldsymbol{f}}_{i}\right\}}_{i=1}^{n} $以及实体标签概率的向量$ \boldsymbol{L}={\left\{{\boldsymbol{l}}_{i}\right\}}_{i=1}^{n} $，同时引入类似Wikipedia的外部知识库以此提供推断关系的语言先验信息，采用GloVe算法对语言先验进行编码，使用整个Wikipedia进行训练。

2.2 基于Transformer的上下文提取

该模块通过2个Transformer架构进行上下文信息提取。第1个是实体上下文特征计算，第2个是关系上下文特征计算。Transformer架构分为编码器和解码器部分，其中编码器部分由多个注意力层组成，由于本文只涉及编码器部分，因此解码器部分在此不再赘述。注意力机制可以使深度学习模型关注特征向量的特征图中的重要部分，并忽略其余冗杂信息。编码器中的自注意力层作用于$ \boldsymbol{Q} $、$ \boldsymbol{K} $、$ \boldsymbol{V} $这3组向量，并根据$ \boldsymbol{q} $和$ \boldsymbol{k} $向量之间的相似度分布对$ \boldsymbol{v} $向量进行加权求和，计算公式如下：

$ \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}\right)=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\boldsymbol{Q}{\boldsymbol{K}}^{\mathrm{T}}}{\sqrt{d}}\right)\boldsymbol{V} $

(2)

其中：$ \boldsymbol{Q} $、$ \boldsymbol{K} $、$ \boldsymbol{V} $分别表示$ {\boldsymbol{n}}_{\boldsymbol{q}} $、$ {\boldsymbol{n}}_{\boldsymbol{k}} $和$ {\boldsymbol{n}}_{\boldsymbol{q}} $向量的矩阵表达，各矩阵维度相同；$ d $表示维度。

1）实体上下文特征计算。基于候选区域$ \boldsymbol{B} $的集合，构造一个用于实体标签预测的上下文表示。首先将候选框中得到的每一个向量构造成一个线性序列，如式（3）所示。然后送入Transformer结构中进行编码，如式（4）和式（5）所示。

$ {\boldsymbol{X}}_{n}=\left[\left({\boldsymbol{b}}_{1}, {\boldsymbol{f}}_{1}, {\boldsymbol{l}}_{1}\right), \left({\boldsymbol{b}}_{2}, {\boldsymbol{f}}_{2}, {\boldsymbol{l}}_{2}\right), \cdots , \left({\boldsymbol{b}}_{n}, {\boldsymbol{f}}_{n}, {\boldsymbol{l}}_{n}\right)\right] $

(3)

$ {\boldsymbol{h}}_{i}=\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left({\boldsymbol{W}}_{i}^{\boldsymbol{q}}{\boldsymbol{X}}_{\boldsymbol{q}}, {\boldsymbol{W}}_{i}^{\boldsymbol{k}}{\boldsymbol{X}}_{\boldsymbol{k}}, {\boldsymbol{W}}_{i}^{\boldsymbol{v}}{\boldsymbol{X}}_{\boldsymbol{v}}\right) $

(4)

$ S\left(\boldsymbol{X}\right)=\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{c}\mathrm{a}\mathrm{t}\left({\boldsymbol{h}}_{1}, {\boldsymbol{h}}_{2}, \cdots , {\boldsymbol{h}}_{n}\right){\boldsymbol{W}}^{\boldsymbol{o}} $

(5)

其中：$ {\boldsymbol{W}}_{i}^{\boldsymbol{q}}\in {\mathbb{R}}^{{d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}\times {d}_{\boldsymbol{q}}} $，$ {\boldsymbol{W}}_{i}^{\boldsymbol{k}}\in {\mathbb{R}}^{{d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}\times {d}_{\boldsymbol{k}}} $，$ {\boldsymbol{W}}_{i}^{\boldsymbol{v}}\in {\mathbb{R}}^{{d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}\times {d}_{\boldsymbol{v}}} $，$ {\boldsymbol{W}}_{i}^{\boldsymbol{o}}\in {\mathbb{R}}^{{d}_{\boldsymbol{v}}\times {d}_{\mathrm{m}\mathrm{o}\mathrm{d}\mathrm{e}\mathrm{l}}} $。自注意力层的输出是一组具有与$ \boldsymbol{X} $维度相同的元素$ S\left(\boldsymbol{X}\right)=\left[{\tilde{\boldsymbol{X}}}_{1}, {\tilde{\boldsymbol{X}}}_{2}, \cdots , {\tilde{\boldsymbol{X}}}_{n}\right] $，$ {\tilde{\boldsymbol{X}}}_{i} $为$ {\boldsymbol{X}}_{i} $中每个元素的加权总和。自注意力机制使$ \boldsymbol{B} $中的所有元素均提供了关于潜在对象的信息。

将经过自注意力层和残差操作后的$ S\left(\boldsymbol{X}\right) $送入解码层，对每一个候选区域进行解码即可得到包含上下文信息的实体类别标签：

$ {\widehat{\boldsymbol{o}}}_{i}=\mathrm{a}\mathrm{r}\mathrm{g}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{W}}^{i}\ell\left({\boldsymbol{X}}_{i}\right)\right)\in {\mathbb{R}}^{\left|C\right|} $

(6)

其中：$ \ell $表示进行线性变换操作；C表示常量。

2）关系上下文特征计算。在该模块中，为实体对关系预测构建另一个Transformer结构。将结合上下文信息后的实体标签$ {\widehat{\boldsymbol{o}}}_{i} $和$ {\tilde{\boldsymbol{X}}}_{i} $送入Transformer以构建候选框$ \boldsymbol{B} $和实体$ \boldsymbol{O} $的上下文表达，如式（7）所示：

$ {\boldsymbol{d}}_{i}=\mathrm{T}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}\mathrm{f}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{e}\mathrm{r}\left({\tilde{\boldsymbol{X}}}_{i};\boldsymbol{W}{\widehat{\boldsymbol{o}}}_{i}\right) $

(7)

其中：$ \boldsymbol{D}=\left({\boldsymbol{d}}_{1}, {\boldsymbol{d}}_{2}, \cdots , {\boldsymbol{d}}_{n}\right) $，$ {\boldsymbol{d}}_{i} $代表每一个候选区域的边上下文特征；$ \boldsymbol{W} $是$ {\widehat{\boldsymbol{o}}}_{i} $对应的参数映射矩阵。

2.3 特征特殊融合的适应性推理模块

在获得先验语言知识和实体上下文信息后，进一步提出一个用于关系分类的特征特殊融合的自适应推理模块（简称为ARE），主要包括数据集频率软化、特征特殊融合和实体对偏差适应。

1）采用数据集中关系频率的先验信息改善关系分类性能。由于MOTIFS中提出的频率（FREQ）基线方法受数据集长尾分布的影响，几乎无法识别低频关系，因此采用一个LogSoftmax函数来稳定数据的方差，保持原始长尾分布在经过Log变换后接近于正态分布，即：

$ {\tilde{\boldsymbol{P}}}^{i\to j}=\mathrm{L}\mathrm{o}\mathrm{g}\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{P}}^{i\to j}\right) $

(8)

其中：$ {\boldsymbol{P}}^{i\to j}\in \mathbb{R} $代表数据集中关系的原始频率分布；$ {\tilde{\boldsymbol{P}}}^{i\to j} $代表线性化的原始频率分布。

2）为衡量中间状态之间的距离，引入一种特殊的特征融合方式，通过中间状态之间的欧几里得距离来调整包含了上下文信息的关系特征$ {\boldsymbol{u}}_{i, j} $^[29]，即DIST：$ \boldsymbol{x}\mathrm{*}\boldsymbol{y}=\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U}\left(\boldsymbol{x}+\boldsymbol{y}\right)-{\left(\boldsymbol{x}-\boldsymbol{y}\right)}^{2} $。将包含了上下文信息的关系特征进行特殊融合，如式（9）所示：

$ {\boldsymbol{h}}_{i, j}=\left({\boldsymbol{W}}_{\mathrm{g}}{d}_{i}\right)\mathrm{*}\left({\boldsymbol{W}}_{\mathrm{l}}{d}_{j}\right)\circ {\boldsymbol{u}}_{i, j} $

(9)

其中：$ {\boldsymbol{h}}_{i, j}\in {\mathbb{R}}^{4\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }096} $；$ {\boldsymbol{W}}_{\mathrm{g}}\mathrm{、}{\boldsymbol{W}}_{\mathrm{l}}\in {\mathbb{R}}^{4\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }096\times 150} $分别代表该实体对中的主语特征和宾语特征构成的矩阵；$ {\boldsymbol{u}}_{i, j} $表示实体$ i $和$ j $所在区域$ {\boldsymbol{b}}_{i} $、$ {\boldsymbol{b}}_{j} $的并集对应特征。

3）为使每个实体对的频率先验可以根据不同实体对进行调整，引入一种选择性注意力机制。该机制可以根据实体对的视觉外观特征修改先验知识，如式（10）所示。因为场景图中关系都是成对存在的，所以对于每一个可能存在关系的边，计算其关系概率，如式（11）所示。

$ {\boldsymbol{R}}_{\mathrm{p}\mathrm{r}}=\mathrm{S}\mathrm{i}\mathrm{g}\mathrm{m}\mathrm{o}\mathrm{i}\mathrm{d}\left({\boldsymbol{W}}_{\mathrm{p}}{\boldsymbol{u}}_{i, j}\right) $

(10)

$ p\left({\boldsymbol{R}}_{i, j}|\boldsymbol{O}, \boldsymbol{B}\right)=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\boldsymbol{W}}_{\mathrm{r}}{\boldsymbol{u}}_{i, j}+{\boldsymbol{R}}_{\mathrm{p}\mathrm{r}}\circ {\tilde{\boldsymbol{P}}}^{i\to j}\right) $

(11)

其中：$ {\boldsymbol{R}}_{\mathrm{p}\mathrm{r}}\circ {\tilde{\boldsymbol{P}}}^{i\to j} $表示关系频率偏差向量；$ {\boldsymbol{W}}_{\mathrm{r}} $表示实体对并集特征所对应的矩阵。

3 实验结果与分析

本节EASG模型的实验细节和参数设置，在公开VG^[14]数据集上与现有场景图生成模型进行对比实验和消融实验。为验证EASG模型的场景图生成性能，在VG数据集的谓词分类（Predicate Classification，PredCls）、场景图分类（Scene Graph Classification，SGCls）、场景图生成（Scene Graph Generation，SGGen）这3个子任务和Top-K召回率（Recall@K，R@K）、平均Top-K召回率（mean Recall@K，mR@K）这2类指标下进行性能评价。最后对EASG模型在关系类别标签上的分布情况进行可视化展示。

3.1 数据集与评估标准

采用VG数据集训练和评估EASG模型。VG数据集包含108 077张图片，共有75 000种实体类别和37 000种关系类别，平均每张图片包含38个实体和22个关系标注。根据文献[11]提出的VG拆分子集，其中包含了最频繁的150种实体类别和50种关系类别（不包含背景标签），每张图片平均有11.6个目标和6.2个关系，出现频率最高的10种关系（on、has、wearing、of、in、near、with、behind、holding、above）几乎占据所有数据的90%，而剩余的40类关系（others）仅占10%，如图 4所示（彩色效果见《计算机工程》官网HTML版）。整个数据集分别按照70%和30%分成训练集和测试集，还按照MOTIFS从训练集中随机采样5 000张图片作为验证集调整超参数。

	Download: JPG larger image
图 4 关系类别标签在VG数据集中的占比 Fig. 4 Proportion of relationship category labels in the VG dataset

场景图生成任务的目标是输出实体的位置及其类别标签，并以此为条件预测实体对之间的关系，最终预测主语-谓语-宾语类似三元组。因此，在以下3个子任务上评估场景图生成模型：1）PredCls，给定一组具有真实注释的实体类别标签和边界框预测实体对的关系类别；2）SGCls，给定一组具有真实注释的实体边界框，预测实体的类别标签以及实体对的关系类别；3）SGGen，给定一张图像，预测图像中的实体边界框位置、实体类别标签以及实体对关系类别。

因为不可能对图像中所有关系进行注释，所以使用R@K作为场景图生成的评价指标，即前K个预测中预测正确的比率。但在传统召回率计算中，一对物体只能有一个关系参与最终的排序计算，约束给定实体对仅能获取一种关系，因此采用由MOTIFS^[13]提出的无关系约束的召回率，该指标允许一对实体的所有关系都参与排序计算。另外，考虑到VG数据集的长尾效应，不同关系的分布严重不均，传统召回率通常只需学会“on”、“has”和“near”等主要的关系类别，即使忽视大部分关系类别也能获得很好的结果，因此还采用mR@K^[16]作为评价指标，该指标将所有谓语类别的召回率单独计算再求平均值，使得所有类别的重要性相同。

3.2 实验设置

与文献[11, 13]中的场景图生成模型类似，本文在实验中采用以ResNeXt-101-FPN为主干网络的Mask-RCNN作为EASG模型的底层检测器，检测器用于检测图像中的目标候选框。在4个GeForce RTX 1080Ti上使用动量为0.9的SGD来训练底层检测器的模型参数，批次大小为8，每个批次中每张图采样256个ROIs，其中75%为背景图。初始学习率为8×10^-3，每经过一个批次学习率修改为原本的1/10。检测器阈值为0.5，最终在VG数据集上的平均精度均值（Mean Average Precision，mAP）为28.49。

使用SGD算法在VG数据集上训练EASG模型。PredCls和SGCls这2个任务的批次大小为16，初始学习率为0.001，SGGen任务的批次大小和初始学习率分别为12和0.001。对于SGGen，每张图采样80个ROIs，并在实体类别预测中使用交并比（Intersection over Union，IoU）为0.5的非极大值抑制（Non-Maximum Suppression，NMS）^[30]。使用GloVe预训练向量作为词向量表征，GloVe是由包含400 000个词汇的Wikipedia语料库组成的预训练模型。

3.3 与现有模型的比较

EASG模型与视觉关系检测（Visual Relationships Detection，VRD）^[9]、消息迭代传递（Iterative Message Passing，IMP）^[11]、关联式嵌入（Associative Embedding，AE）^[31]、FREQ^[13]、Graph-RCNN^[10]、MOTIFS^[13]、知识嵌入路由网络（Knowledge-Embedded Routing Network，KERN）^[16]、GPS-Net^[32]、UVTransE^[33]等模型在VG数据集的3个子任务设置下进行性能比较。

表 1给出不同场景图生成模型在VG数据集的3个子任务上的R@K，其中K设置为20、50、100，最优指标值用加粗字体标示。为了有效区分语义相近情况下场景图生成的性能变化，实验根据生成场景图是否有关系约束^{[13, 16]}将实验结果划分为实体对只有一种关系（constraint）和实体对可以有多种关系（unconstraint）两类。

表 1 VG数据集上不同场景图生成模型的R@K实验结果 Table 1 R@K experimental results of different scene graph generation models on the VG dataset

%
关系约束	模型	SGGen			SGCls			PredCls			平均值
关系约束	模型	R@20	R@50	R@100	R@20	R@50	R@100	R@20	R@50	R@100	平均值
constraint	VRD		0.3	0.5		11.8	14.1		27.9	35.0	14.9
	AE	6.5	8.1	8.2	18.2	21.8	22.6	47.9	54.1	55.4	27.0
	IMP	14.6	20.7	24.5	31.7	34.6	35.4	52.7	59.3	61.3	37.2
	FREQ	20.1	26.2	30.1	29.3	32.3	32.9	53.6	60.6	62.2	40.7
	GRCNN		11.4	13.7		29.6	31.6		54.2	59.1	33.3
	MOTIFS	21.4	27.2	30.3	32.9	35.8	36.5	58.5	65.2	67.1	41.7
	KERN		27.1	29.8		36.7	37.4		65.8	67.6	44.1
	GPS-Net	22.6	28.4	31.7	36.1	39.2	40.1	60.7	66.9	68.8	43.8
	UVTransE		30.1	33.6		35.9	36.6		65.3	67.3	44.8
	EASG	25.6	33.1	37.4	36.9	40.2	40.8	60.3	66.7	68.5	45.5
unconstraint	AE		9.7	11.3		26.5	30.0		68.0	75.2	36.8
	FREQ		25.3	30.9		40.5	43.7		71.3	81.2	48.8
	MOTIFS		30.5	35.8		44.5	47.7		81.1	88.3	54.7
	KERN		30.9	35.8		45.9	49.0		81.9	88.9	55.4
	EASG		36.6	43.2		49.9	52.6		82.9	89.8	59.2

下载CSV 表 1 VG数据集上不同场景图生成模型的R@K实验结果 Table 1 R@K experimental results of different scene graph generation models on the VG dataset

由表 1可以看出，EASG模型在3个子任务的R@20、R@50、R@100指标上均优于对比模型。FREQ模型对于预测给定实体和标签之间的频繁关系，性能表现较好，这表明了实体对及其关系之间的统计相关性和其他线索（如上下文信息）具有同等重要的作用。MOTIFS模型通过使用Bi-LSTM对全局上下文编码隐式地捕获数据相关性，在3个子任务上均取得了显著进步。KERN模型通过知识图显示地统计了实体及其关系之间的相关性，进一步提高了在3个子任务上的性能表现。EASG模型因为利用了外部知识信息和Transformer编码结构以及适应性推理，进一步改善了场景图生成任务的性能，平均值相较于MOTIFS模型和UVTransE模型分别提高了3.8和0.7个百分点。

由于VG中类别不平衡问题，已有研究通常在频率较低的类别中性能较差。为了与现有模型进行更全面的比较，在表 2的VG数据集的3个任务上给出了mR@50和mR@100的结果。由表 2可以看出，在constraint和unconstraint两种情况下，EASG模型的平均值分别为12.3%和27.3%，相比于MOTIFS模型提升了3.3和6.7个百分点，相比于KERN模型提升了0.6和0.8个百分点。

下载CSV 表 2 VG数据集上不同场景图生成模型的mR@K实验结果 Table 2 mR@K experimental results of different scene graph generation models on the VG dataset

由以上讨论和比较可以看出，EASG模型在mR@K和R@K指标方面均有所改善，但因为R@K指标只关注图像中的关系是否被完全预测而不关注不同关系标签之间的预测情况，所以为更直接地比较性能改善情况和样本数量之间的关系，对不同关系标签的R@K指标进行比较。图 5给出了在SGGen子任务上MOTIFS和EASG模型的R@50实验结果。由图 5可以看出：MOTIFS模型对于“on”、“has”、“wearing”等高频关系的预测表现较好，但是对于“part of”、“to”、“made of”等样本较少的关系整体表现不佳，导致R@50指标数值较低，几乎不可避免地偏向了更高频的关系标签。EASG模型不仅利用Transformer的自注意力机制分阶段进行上下文信息合并，从而得到更有意义的全局上下文信息，而且利用外部知识库提供先验信息，同时通过整合外部知识库和视觉图像中的上下文信息来明确规范化语义空间，并且利用适应性推理去预测关系标签，从而引导模型更好地学习样本数量较少的低频关系标签，这样就可以较好地解决关系分配不均的问题。由此可见，EASG模型不仅在高频关系标签表现较好，而且在中低频关系标签预测上也得到了大幅度的性能提升，在一定程度上缓解了数据关系分布不平衡的问题。

	Download: JPG larger image
图 5 MOTIFS和EASG模型在不同关系类别标签下的R@50实验结果 Fig. 5 R@50 experimental results of MOTIFS and EASG models under different relationship category labels

3.4 消融实验结果分析

通过设置消融实验验证EASG模型中各个组件对场景图生成的具体贡献。表 3给出了消融实验结果。将结合类似Wikipedia的外部知识库的目标检测模块、基于Transformer的上下文提取模块（TRSG）和特征特殊融合的适应性推理模块（ARE）逐一添加到MOTIFS基线模型中，验证引入外部知识库对场景图生成的影响。在MOTIFS基线模型基础上将实体预测到的词向量替换为Wikipedia外部知识库的词向量嵌入，3个子任务相对于MOTIFS基线模型均有不同程度的提升，其中SGCls子任务平均提升了0.7个百分点。对于MOTIFS基线模型中的Bi-LSTM，将其替换为两个Transformer结构以此提取视觉中的上下文信息，TRSG中的自注意力机制极大地提升了场景图生成性能，各项指标均得到了大幅度提升，其中SGGen子任务平均提升了5.4个百分点。在此基础上，本文在关系预测阶段加入适应性推理模块，虽然该模块在SGGen和SGCls子任务提升效果微弱，但在PredCls子任务上相比于MOTIFS基线模型得到了平均1.5个百分点的大幅提升。最后，将所有组件进行联合，性能得到大幅度提升。这表明每个组件在实体标签及其成对关系预测中均具有关键作用。

下载CSV 表 3 消融实验结果 Table 3 Ablation experiment results

3.5 定性分析

为更直观地展示EASG模型的场景图生成效果，图 6给出了部分可视化结果，为每幅图像选择了SGCls子任务下的前10个关系，其中，虚线表示检测到的实体或谓词被正确预测并且与真实情况重叠，实线表示正确的预测但在数据集中未被标记，点直线表示被错误分类的谓词。由图 6可以看出，EASG模型对于常见错误类型具有更好的预测性能，例如：在图 6（a）中，EASG模型预测了比原本标注的“near”更合适的“in front of”；在图 6（b）中，由于谓词的模糊性（“wears”与“wearing”），因此数据标注是“man wears shirt”，但EASG模型预测为“man wearing shirt”；在图 6（c）中，数据标注是“cup in window”，但EASG模型预测为“cup behind window”。由此可见，EASG模型比定量分析结果更好，可预测许多看似正确的关系类别，而这些关系类别在原始数据标注中并不存在。

	Download: JPG larger image
图 6 基于EASG模型的场景图生成可视化结果 Fig. 6 Visualization results of scene graph generation based on EASG model

4 结束语

本文提出一种结合外部知识库和适应性推理的场景图生成模型（EASG）。鉴于先验知识已被证明可以显著提高场景图的生成质量，设计结合外部知识库的目标检测模块来获取额外的语义信息。利用改进的Transformer架构对图像中的全局上下文信息进行编码并分段实现信息合并，增强关系标签的信息量，规范化场景图的语义空间。应用特征特殊融合的适应性推理模块，缓解了数据集关系频率受长尾分布的影响。通过在VG数据集上的对比实验和消融实验结果证明了EASG模型相比于其他模型具有更优的场景图生成性能。后续将针对SGG任务的数据不平衡现象，引入因果推理解决数据集偏置问题，进一步提高场景图生成的准确性。

参考文献

[1]	JOHNSON J, KRISHNA R, STARK M, et al. Image retrieval using scene graphs[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2015: 3668-3678.
[2]	AGRAWAL A, LU J S, ANTOL S, et al. VQA: visual question answering[J]. International Journal of Computer Vision, 2017, 123(1): 4-31. DOI:10.1007/s11263-016-0966-6
[3]	JOHNSON J, HARIHARAN B, VAN DER MAATEN L, et al. CLEVR: a diagnostic dataset for compositional language and elementary visual reasoning[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2901-2910.
[4]	YAO T, PAN Y W, LI Y H, et al. Exploring visual relationship for image captioning[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 684-699.
[5]	CHANG A, SAVVA M, MANNING C D. Learning spatial knowledge for text to 3D scene generation[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2014: 2028-2038.
[6]	REN S Q, HE K M, GIRSHICK R, et al. Faster RCNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[7]	YAO B P, LI F F. Modeling mutual context of object and human pose in human-object interaction activities[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2010: 17-24.
[8]	GUO G D, LAI A. A survey on still image based human action recognition[J]. Pattern Recognition, 2014, 47(10): 3343-3361. DOI:10.1016/j.patcog.2014.04.018
[9]	LU C W, KRISHNA R J, BERNSTEIN M, et al. Visual relationship detection with language priors[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 852-869.
[10]	YANG J W, LU J S, LEE S, et al. Graph RCNN for scene graph generation[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2018: 670-685.
[11]	XU D F, ZHU Y K, CHOY C B, et al. Scene graph generation by iterative message passing[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 5410-5419.
[12]	ZHANG H W, KYAW Z, CHANG S F, et al. Visual translation embedding network for visual relation detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 3107-3115.
[13]	ZELLERS R, YATSKAR M, THOMSON S, et al. Neural MOTIFS: scene graph parsing with global context[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2018: 5831-5840.
[14]	KRISHNA R, ZHU Y K, GROTH O, et al. Visual Genome: connecting language and vision using crowdsourced dense image annotations[J]. International Journal of Computer Vision, 2017, 123(1): 32-73. DOI:10.1007/s11263-016-0981-7
[15]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[16]	CHEN T S, YU W H, CHEN R Q, et al. Knowledge-embedded routing network for scene graph generation[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 6163-6171.
[17]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2014: 580-587.
[18]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 779-788.
[19]	REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 7263-7271.
[20]	WANG X L, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN: hard positive generation via adversary for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2606-2615.
[21]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 21-37.
[22]	HE K M, GKIOXARI G, DOLLAR P, et al. Mask RCNN[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 2961-2969.
[23]	YU R C, LI A, MORARIU V I, et al. Visual relationship detection with internal and external linguistic knowledge distillation[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D.C., USA: IEEE Press, 2017: 1068-1076.
[24]	CUI Z, XU C Y, ZHENG W M, et al. Context-dependent diffusion network for visual relationship detection[C]//Proceedings of the 26th ACM International Conference on Multimedia. New York, USA: ACM Press, 2018: 1475-1482.
[25]	PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2014: 1532-1543.
[26]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of Conference on Neural Information Processing Systems. Cambridge, UK: MIT Press, 2017: 5998-6008.
[27]	LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 2117-2125.
[28]	XIE S N, GIRSHICK R, DOLLAR P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 1492-1500.
[29]	ZHANG Y, HARE J, PRUGEL-BENNETT A. Learning to count objects in natural images for visual question answering[C]//Proceedings of International Conference on Learning Representations. New York, USA: ACM Press, 2018: 3755.
[30]	TANG K H, ZHANG H W, WU B Y, et al. Learning to compose dynamic tree structures for visual contexts[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 6619-6628.
[31]	NEWELL A, DENG J. Pixels to graphs by associative embedding[C]//Proceedings of Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2017: 2172-2181.
[32]	LIN X, DING C X, ZENG J Q, et al. GPS-Net: graph property sensing network for scene graph generation[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2020: 3746-3753.
[33]	HUNG Z S, MALLYA A, LAZEBNIK S. Union visual translation embedding for visual relationship detection and scene graph generation[EB/OL]. [2021-07-04]. https://arxiv.org/abs/1905.11624.