基于空间关系与频率特征的视觉问答模型

引用本文

付鹏程, 杨关, 刘小明, 等. 基于空间关系与频率特征的视觉问答模型[J]. 计算机工程, 2022, 48(9), 96-104. DOI: 10.19678/j.issn.1000-3428.0062339.

FU Pengcheng, YANG Guan, LIU Xiaoming, et al. Visual Question Answering Model Based on Spatial Relation and Frequency Feature[J]. Computer Engineering, 2022, 48(9), 96-104. DOI: 10.19678/j.issn.1000-3428.0062339.

基金项目

国家自然科学基金（61772576，61906141）；陕西省自然科学基金（2020JQ-317）；河南省科技厅科技攻关计划（182102210126）

通信作者

杨关（通信作者），副教授、博士

作者简介

付鹏程（1993—），男，硕士研究生，主研方向为机器学习、图像处理;
刘小明，讲师、博士;
刘阳，讲师、博士;
张紫明，硕士研究生;
成曦，硕士研究生

文章历史

收稿日期：2021-08-12
修回日期：2021-10-04

Contents Abstract Full text Figures/Tables PDF

基于空间关系与频率特征的视觉问答模型

付鹏程^1,2 , 杨关^1,2 , 刘小明^1,2 , 刘阳³ , 张紫明^1,2 , 成曦^1,2

1. 中原工学院计算机学院, 郑州 450007;
2. 河南省网络舆情监测与智能分析重点实验室, 郑州 450007;
3. 西安电子科技大学通信工程学院, 西安 710071

收稿日期：2021-08-12；修回日期：2021-10-04

基金项目：国家自然科学基金（61772576，61906141）；陕西省自然科学基金（2020JQ-317）；河南省科技厅科技攻关计划（182102210126）

作者简介：付鹏程（1993—），男，硕士研究生，主研方向为机器学习、图像处理; 刘小明，讲师、博士; 刘阳，讲师、博士; 张紫明，硕士研究生; 成曦，硕士研究生.

通信作者：杨关（通信作者），副教授、博士.

E-mail: 2575240662@qq.com

摘要：视觉问答作为多模态数据处理中的重要任务，需要将不同模态的信息进行关联表示。现有视觉问答模型无法有效区分相似目标对象且对于目标对象之间的空间关系表达不准确，从而影响模型整体性能。为充分利用视觉问答图像和问题中的细粒度信息与空间关系信息，基于自底向上和自顶向下的注意力(BUTD)模型及模块化协同注意力网络(MCAN)模型，结合空间域特征和频率域特征构造多维增强注意力(BUDR)模型和模块化共同增强注意力网络(MCDR)模型。利用离散余弦变换得到频率信息，改善图像细节丢失问题。采用关系网络学习空间结构信息和潜在关系信息，减少图像和问题特征出现对齐错误，并加强模型推理能力。在VQA v2.0数据集和test-dev验证集上的实验结果表明，BUDR和MCDR模型能够增强图像细粒度识别性能，提高图像和问题目标对象间的关联性，相比于BUTD和MCAN模型预测精确率分别提升了0.14和0.25个百分点。

Visual Question Answering Model Based on Spatial Relation and Frequency Feature

FU Pengcheng^1,2 , YANG Guan^1,2 , LIU Xiaoming^1,2 , LIU Yang³ , ZHANG Ziming^1,2 , CHENG Xi^1,2

1. School of Computer Science, Zhongyuan University of Technology, Zhengzhou 450007, China;
2. Henan Key Laboratory on Public Opinion Intelligent Analysis, Zhengzhou 450007, China;
3. School of Telecommunications Engineering, Xidian University, Xi'an 710071, China

Abstract: As an important task in multimodal data processing, Visual Question Answering(VQA) needs to associate and represent information from different modalities.However, existing VQA models can not effectively distinguish similar target objects and can not accurately express the spatial relationship between target objects, thus affecting the model's overall performance.They also have the problem of low recognition of similar objects and wrongly expressing the spatial relationship between target objects.To fully exploit fine-grained and spatial relationship information in images and questions of VQA, this study combines spatial domain and frequency domain features with the Bottom-Up and Top-Down attention(BUTD) model and Modular Co-Attention Network(MCAN) model to construct a multi-dimensional enhanced attention model, called BUDR, and a modular co-enhanced attention network model, called MCDR.BUDR and MCDR models use Discrete Cosine Transform(DCT) to obtain frequency information to improve the image detail loss problem, and Relation Network(RN) to learn spatial structure information and latent relational information to reduce the misalignment of image and question features, and enhance model reasoning capabilities.The experimental results on the VQA v2.0 dataset and the test-dev validation set show that the BUDR and MCDR models can enhance the performance of fine-grained image recognition and improve the correlation between the image and the target object of the question.Compared with the BUTD and MCAN models, the prediction accuracy of the BUDR and MCDR models is increased by 0.14 and 0.25 percentage points, respectively.

开放科学（资源服务）标志码（OSID）：

0 概述

随着移动互联网、大数据和人工智能等技术的快速发展，各种信息大量涌现并以图片、音频、文本等数据形式呈现。这些不同的数据形式属于不同的模态，单模态信息处理通常无法聚焦到感兴趣的区域，多模态信息处理通过融合多个模态中各个模态的信息，实现各个模态的信息交流和转换，从而全面理解并表达信息中蕴含的高层语义，此类将信息抽象为高层语义信息的方式既能保留更多的有效数据信息，又能减少冗余并降低计算开销，因此受到研究人员的广泛关注并成为近年来研究的热点方向。

视觉问答（Visual Question Answer，VQA）^[1]作为多模态数据处理中的重要任务，涉及图像处理、自然语言处理、图像和文本融合等技术，需要将图片和与图片相关的问题作为模型输入，通过模型得出答案作为输出。文献[1]定义了视觉问答任务的概念，采用VGGNet和长短期记忆（Long Short-Term Memory，LSTM）网络来提取图像特征和文本特征。文献[2]使用外部知识库替换图像，应用文本描述图像信息，使得视觉问答问题变成了一般的问答问题。针对上述研究缺乏数据注意力分配的问题，科研人员进行了大量研究并取得了一系列的研究成果。文献[3]根据注意力机制决定关注哪些区域以及问题中哪些单词更重要。文献[4]设计具有动态参数的卷积神经网络（Convolutional Neural Network，CNN）模型，由于不同的问题需要理解的图像粒度不同，因此根据问题适应性进行参数设置。文献[5]依据图像更新问题计算划分区域和问题的相关性，选出相关性高的区域以此对问题进行更新，并通过不断迭代给出最终预测答案。文献[6]使用变分自编码器和LSTM来构建新的算法并将其用来生成问题对应的答案。文献[7]使用图结构来融合表示图像信息和文本信息，将图片编码为场景图，将句子编码为句法依存图，使用神经网络对场景图和依存图进行推理。

图像和问题虽然都可以用特征向量表示，但两者属于不同的特征空间，概率分布差异较大，将向量直接拼接、相加、点乘均不足以表征两种模态的融合特征。针对该问题，文献[8]提出多模态紧凑双线性池化（Multimodal Compact Bilinear pooling，MCB）模型，该模型对图像特征向量与文本特征向量做外积，产生了高维特征向量。针对高维特征向量问题，文献[9]提出多模态低秩双线性（Multimodal Low-rank Bilinear，MLB）池化模型，该模型通过低秩映射矩阵解决了高阶问题，但存在收敛缓慢的问题。文献[10]提出多模态分解双线性池化（Multi-modal Factorized Bilinear pooling，MFB）模型，该模型集合了MCB和MLB模型的优势。文献[11]提出深度模块化协同注意力网络（Modular Co-Attention Network，MCAN）模型。MCAN模型由模块协同注意力层级联组成，每个协同注意力层有两个注意力模块组成。MCAN模型取得了很好的效果，但对于词与词之间的关系以及图像中区域之间的关系缺乏学习，细粒度识别方面也表现不佳。

文献[12]提出基于深度神经网络的VQA模型，将其用于对输入问题和图像进行联合嵌入，并对一组候选答案实现多标签分类。文献[13]设计多模态嵌入的循环聚合网络模型，通过聚合整个场景下的双模态嵌入来捕捉双模态之间的交互。文献[14]认为学习有效的多模态融合特征对视觉问答至关重要，当前模型没有在统一框架下对模态间和模态内的关系进行联合研究，因此建立模态内和模态间注意力流动态融合（Dynamic Fusion with intra-and inter-modality Attention Flow，DFAF）框架实现高效的多模态特征融合。

现有研究表明：图像和问题中有效信息的充分利用对视觉问答模型具有重要的作用。然而，现有视觉问答模型对于特征信息表示不充分，并且模型整体性能受制于信息处理，对象之间的关系信息也未进行针对性表达，同时无法较好地区分相似性物体，导致模型整体性能提升缓慢。针对上述问题，本文构造关系网络（Relational Network，RN）增强对象之间的关系信息，通过增加频率特征改善细粒度识别问题。

1 相关研究

MCAN模型^[11]在多头注意力的顶部构建自注意力（Self Attention，SA）模块和引导注意力（Guided Attention，GA）模块以处理视觉问答的多模式输入特征，如图 1所示，其中，$ \mathit{\boldsymbol{{K}}} $表示键，$ \mathit{\boldsymbol{{V}}} $表示值，$ \mathit{\boldsymbol{{Q}}} $表示查询向量，这三部分构成键值对注意力。自注意力模块由一个多头注意层和一个前馈层组成，$ \mathit{\boldsymbol{{X}}}=[{\mathit{\boldsymbol{{x}}}}_{1};{\mathit{\boldsymbol{{x}}}}_{2};\cdots ;{\mathit{\boldsymbol{{x}}}}_{m}]\in {\mathbb{R}}^{m\times {d}_{x}} $作为输入特征，在多头注意层中学习X中成对样本之间的成对关系$ < {\mathit{\boldsymbol{{x}}}}_{i}, {\mathit{\boldsymbol{{x}}}}_{j} > $，输出特征$ \mathit{\boldsymbol{{Z}}}\in {\mathbb{R}}^{m\times d} $是X中各个特征的加权和结果，在前馈层中获取多头注意层的输出特征，并进一步通过ReLU激活和dropout两层完全连通的方式对其进行转换。

	Download: JPG larger image
图 1 自注意力模块与引导注意力模块 Fig. 1 Self-attention module and guided-attention module

为防止过拟合，可应用残差连接并进行层归一化^[15]。MCAN模型^[11]中使用的引导注意力模块的输入特征为$ \mathit{\boldsymbol{{X}}}\in {\mathbb{R}}^{m\times {d}_{\mathit{\boldsymbol{{x}}}}} $和$ \mathit{\boldsymbol{{Y}}}=[{\mathit{\boldsymbol{{y}}}}_{1};{\mathit{\boldsymbol{{y}}}}_{2};\cdots ;{\mathit{\boldsymbol{{y}}}}_{n}]\in {\mathbb{R}}^{n\times {d}_{\mathit{\boldsymbol{{y}}}}} $，其中Y引导X的注意力学习，X和Y的形状是灵活的，因此它们可以用来表示不同模态的特征（图像或问题）。引导注意力模块对每个配对样本X和Y之间的配对关系$ < {\mathit{\boldsymbol{{x}}}}_{i}, {\mathit{\boldsymbol{{x}}}}_{j} > $进行建模。

文献[16]将PointCNN模型提取的点云特征与CNN提取的图像特征加权融合提高图像分类精度。文献[17]提取不同模态的多尺度特征，通过模态加权提高了多模态行人检测的精度。以上多类型特征的融合为视觉问答任务的特征增强提供了思路。此外，现有的视觉问答模型容易遗漏以下两方面的有效信息：1）细节信息，这些信息对于相似对象的判别特别重要，但容易在训练过程中被错误丢弃；2）空间结构信息，这些信息对推理性问题具有重要作用，显然一般的注意力机制不能较好地保留空间结构信息。

2 多维增强注意力模型

多维增强注意力模型是针对自底向上和自顶向下的注意力（Bottom-Up and Top-Down attention，BUTD）模型^[12]的改进。BUTD模型通过Faster-R-CNN^[18]得到图像感兴趣的区域特征V，采用问题引导的注意力机制给图像中不同的区域打分，使用Softmax将得分转换成权重，图像中的区域特征向量经过加权求和表示为问题所关注的图像区域特征，从而实现自上而下的注意力机制。但是，BUTD模型中细粒度信息以及空间关系信息表示不充分。为解决该问题，本文提出一种BUDR模型。在离散余弦变换（Discrete Cosine Transform，DCT）过程中加入频率特征，改善平均池化的不利影响，简称为BUD模型。在关系网络中加入目标间的关系特征，增强对象间的关系信息，改善细粒度识别不准确的问题，简称为BUR模型。

在BUTD模型的训练过程中存在细节遗漏的情况，而这些细节是区分一些目标的关键，如图 2中第1个问题需要识别对应图中人的面部表情，第2个问题需要在对应图的阴影中识别图中人是否穿了背带裤，第3个问题需要识别纹理相似性很高的橙子、柠檬等水果，第4个问题需要识别穿蓝衣服的所有人。由图 2可以看出，BUTD模型对细粒度特征的辨别程度不高，因此答案预测错误，而BUD模型能够捕获更多的细粒度特征，提高细节问题的预测精确率。

	Download: JPG larger image
图 2 BUD模型与BUTD模型对细节问题的预测结果对比 Fig. 2 Comparison between BUD model and BUTD model for prediction results of detail problems

如果不能避免关系信息丢失，则可能使图像特征和问题特征对齐出现偏差，进而造成预测结果错误，如图 3中第1个问题需要推理出租车、轿车以及公交车之间的空间位置关系，第2个问题需要推理树、长颈鹿和斑马之间的空间位置关系，第3个问题需要推理女孩、冲浪板、指示牌之间的空间位置关系，第4个问题需要推理建筑物和指示牌之间的空间位置关系。由图 3可以看出，BUTD模型对图像中对象之间的空间关系信息学习不充分，因此对于涉及多个对象且需要空间推理的问题经常预测错误，而BUR模型能够学习对象之间的空间关系，提高此类问题的预测精确率。

	Download: JPG larger image
图 3 BUR模型与BUTD模型对关系推理问题的预测结果对比 Fig. 3 Comparison between BUR model and BUTD model for prediction results of relational reasoning problems

本文为改善特征信息表示不充分的问题，利用频率特征来增强细节波动信息，采用关系网络对学习到的关系特征进行数据增强，并将原始特征和经过离散余弦变换处理后的特征以及关系网络提取的特征进行融合，如图 4所示。

	Download: JPG larger image
图 4 多维增强注意力模型框架 Fig. 4 Framework of multi-dimensional enhanced attention model

2.1 频率特征数据增强

BUDR模型对于问题使用标准的LSTM进行处理：

$ {\mathit{\boldsymbol{{h}}}}_{t}=\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}({\mathit{\boldsymbol{{x}}}}_{t}, {\mathit{\boldsymbol{{h}}}}_{t-1}) $

(1)

其中：$ {\mathit{\boldsymbol{{x}}}}_{t} $是问题通过GloVe编码的向量，作为LSTM的输入；$ {\mathit{\boldsymbol{{h}}}}_{t} $是LSTM的输出向量。LSTM层的输出作为注意力机制的查询K，同时LSTM层也作为问题文本的编码模型。在BUTD模型中，在每一个时间步长上，注意力机制的输入都是由LSTM层的输出$ {\mathit{\boldsymbol{{h}}}}_{t-1} $和图像特征的平均池化组成。

$ {\mathit{\boldsymbol{{x}}}}_{t}=[{\mathit{\boldsymbol{{h}}}}_{t-1}, \stackrel{-}{\mathit{\boldsymbol{{v}}}}] $

(2)

这种采用全局平均池化（Global Average Pooling，GAP）特征来实现注意力机制的方法虽然能解决大部分问题，但平均值信息会丢失特征波动的细节信息，对于一些目标容易产生误判，例如不同的特征序列可能具有相同的全局平均值，而它们各自的信息内容却相差很大，如图 5所示。

	Download: JPG larger image
图 5 具有相同全局平均值的特征序列 Fig. 5 Feature sequences with the same global mean values

为克服这一问题引入DCT，DCT不仅具有正交变换性质，而且其基向量对人类语言和图像信息能够进行较好描述，因此在信号处理和图像处理中经常被使用。此外，DCT具有较强的信息集中特性，能够将高频波动信息聚集在一起，避免有效细节信息的丢失，提高细粒度的辨识能力。离散余弦变换表示如下：

$ \begin{array}{l}{\mathit{\boldsymbol{{f}}}}_{k}=\sum\limits_{i=0}^{l-1}{\mathit{\boldsymbol{{v}}}}_{i}\sqrt{\frac{2}{l}}\mathrm{c}\mathrm{o}\mathrm{s}\left(\frac{\mathrm{\pi }k}{l}\left(i+\frac{1}{2}\right)\right)\\ \mathrm{s}.\mathrm{t}.k\in \{\mathrm{0, 1}, \cdots , l-1\}\end{array} $

(3)

其中：$ \mathit{\boldsymbol{{f}}}\in {\mathbb{R}}^{l} $表示DCT的频谱；$ \mathit{\boldsymbol{{v}}}\in {\mathbb{R}}^{l} $表示图像和语言的特征输入，$ {\mathit{\boldsymbol{{v}}}}_{i} $表示图像区域特征，$ i $表示在每行特征中所处的位置，l表示特征向量的长度。如果$ k=0 $，则离散余弦变换表示如下：

$ {\mathit{\boldsymbol{{f}}}}_{0}=\sum\limits_{i=0}^{l-1}{\mathit{\boldsymbol{{v}}}}_{i}\sqrt{\frac{2}{l}}\mathrm{c}\mathrm{o}\mathrm{s}\left(\frac{\mathrm{\pi }\cdot 0}{l}\left(i+\frac{1}{2}\right)\right)=l\cdot \sqrt{\frac{2}{l}}\cdot \stackrel{-}{\mathit{\boldsymbol{{v}}}} $

(4)

由式（4）可以看出，频率最低分量和$ \stackrel{-}{\mathit{\boldsymbol{{v}}}} $成正比。从频率分析的角度看，全局平均池化与离散余弦变换的最低频率等效，仅使用GAP等效于丢弃特征通道上包含大量有用信息的其他频率分量，$ {\mathit{\boldsymbol{{f}}}}_{k} $能够表示更丰富的信息，所以将式（2）加入频率信息表示为$ {\mathit{\boldsymbol{{x}}}}_{t}=[{\mathit{\boldsymbol{{h}}}}_{t-1}, \stackrel{-}{\mathit{\boldsymbol{{v}}}}+\mathit{\boldsymbol{{f}}}] $。这样既能从不同的方面增强数据信息，又可以防止因为细节信息的丢失造成注意力机制的错误匹配。

通过多层感知机（Multi-Layer Perceptron，MLP）得到图像区域和问题文本的相关性得分$ {\mathit{\boldsymbol{{a}}}}_{i, t} $（如式（5）所示），利用Softmax将相关性得分转换成权重向量（如式（6）所示），将权重向量和整张图片加权求和得到经过注意力机制处理的图像特征向量（如式（7）所示），其中问题相关的图像区域将获得更高的权重。注意力机制的实现过程如图 6所示。

$ {\mathit{\boldsymbol{{a}}}}_{i, t}={\mathit{\boldsymbol{{w}}}}_{\mathit{\boldsymbol{{a}}}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{v}}}\mathit{\boldsymbol{{a}}}}{\mathit{\boldsymbol{{v}}}}_{i}+{\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{h}}}\mathit{\boldsymbol{{a}}}}{\mathit{\boldsymbol{{h}}}}_{t}) $

(5)

$ {\mathit{\boldsymbol{{\alpha }}}}_{t}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\mathit{\boldsymbol{{a}}}}_{t}\right) $

(6)

$ {\mathit{\boldsymbol{{y}}}}_{t}=\sum\limits_{i=1}^{K}{\mathit{\boldsymbol{{a}}}}_{i, t}{\mathit{\boldsymbol{{v}}}}_{i} $

(7)

	Download: JPG larger image
图 6 注意力机制的实现过程 Fig. 6 Realization process of attention mechanism

其中：$ {\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{v}}}\mathit{\boldsymbol{{a}}}} $、$ {\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{h}}}\mathit{\boldsymbol{{a}}}} $、$ {\mathit{\boldsymbol{{w}}}}_{\mathit{\boldsymbol{{a}}}} $表示学习参数。

2.2 空间关系数据增强

在BUTD^[12]等视觉问答模型中，注意力机制缺乏对图片中对象之间空间结构关系的表达，这种空间结构信息对于推理问题具有重要作用，因此本文在BUTD模型中加入RN^[19]。RN是一种神经网络模块，具有关系推理的结构，利用约束神经网络来获取关系推理的特性，可加入到目前已有的神经网络构架中，在加入RN后原有网络将具备学习对象间隐藏潜在关系信息的能力。关系网络特征提取过程如图 7所示，其中，$ {\mathit{\boldsymbol{{g}}}}_{\theta } $是维度缩放函数，使用多层感知机来实现，$ {\mathit{\boldsymbol{{f}}}}_{\phi } $是关系网络函数。

	Download: JPG larger image
图 7 关系网络特征提取过程 Fig. 7 Feature extraction process of relation network

在图像中不同目标表示为$ {\mathit{\boldsymbol{{o}}}}_{i} $，$ {\mathit{\boldsymbol{{o}}}}_{i} $的特征维度为2 048，在关系计算过程中需要计算每个维度的关系，计算量很大。若所需得到的关系主要为结构框架式的关系，则无需太多细节特征，因此首先将目标的特征维度用多层感知机转换到低维，然后使用低维特征学习关系信息，再将关系信息用多层感知机扩充到原始特征维度2 048。最后将得到的关系特征和原始的图像特征进行融合，达到数据增强的目的。

在图像中固定提取L个目标对象$ [{\mathit{\boldsymbol{{o}}}}_{1}, {\mathit{\boldsymbol{{o}}}}_{2}, \cdots , {\mathit{\boldsymbol{{o}}}}_{L}] $，为了建立对象间的关系，首先将输入向量从两个正交的方向延拓，如式（8）、式（9）所示。然后将扩展后的两部分按元素进行拼接，如式（10）所示，并采用多层感知机学习其蕴含的关系信息，如式（11）所示，其中，$ {\mathit{\boldsymbol{{W}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}} $表示MLP的权重矩阵，$ {\mathit{\boldsymbol{{b}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}} $表示偏置向量。最后在扩展维数上对学习到的关系值矩阵进行平均，使其与输入序列维数保持一致。

$ [{\mathit{\boldsymbol{{o}}}}_{1}, {\mathit{\boldsymbol{{o}}}}_{2}, \cdots , {\mathit{\boldsymbol{{o}}}}_{L}]=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{1}& \cdots & {\mathit{\boldsymbol{{o}}}}_{1}\\ {\mathit{\boldsymbol{{o}}}}_{2}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{2}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{L}& {\mathit{\boldsymbol{{o}}}}_{L}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\end{array}\right] $

(8)

$ [{\mathit{\boldsymbol{{o}}}}_{1}, {\mathit{\boldsymbol{{o}}}}_{2}, \cdots , {\mathit{\boldsymbol{{o}}}}_{L}]=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\\ {\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\end{array}\right] $

(9)

$ \mathit{\boldsymbol{{O}}}=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{11}& {\mathit{\boldsymbol{{o}}}}_{12}& \cdots & {\mathit{\boldsymbol{{o}}}}_{1L}\\ {\mathit{\boldsymbol{{o}}}}_{21}& {\mathit{\boldsymbol{{o}}}}_{22}& \cdots & {\mathit{\boldsymbol{{o}}}}_{2L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{L1}& {\mathit{\boldsymbol{{o}}}}_{L2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{LL}\end{array}\right] $

(10)

$ {\mathit{\boldsymbol{{r}}}}_{i, j}=\mathrm{R}\mathrm{N}\left({\mathit{\boldsymbol{{o}}}}_{ij}\right)={\mathit{\boldsymbol{{f}}}}_{\phi }({\mathit{\boldsymbol{{W}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}}{\mathit{\boldsymbol{{o}}}}_{ij}+{\mathit{\boldsymbol{{b}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}}) $

(11)

$ \mathit{\boldsymbol{{r}}}=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{r}}}}_{11}& {\mathit{\boldsymbol{{r}}}}_{12}& \cdots & {\mathit{\boldsymbol{{r}}}}_{1L}\\ {\mathit{\boldsymbol{{r}}}}_{21}& {\mathit{\boldsymbol{{r}}}}_{22}& \cdots & {\mathit{\boldsymbol{{r}}}}_{2L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{r}}}}_{L1}& {\mathit{\boldsymbol{{r}}}}_{L2}& \cdots & {\mathit{\boldsymbol{{r}}}}_{LL}\end{array}\right]\to \left[\begin{array}{c}{\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{1}\\ {\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{2}\\ ⋮\\ {\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{L}\end{array}\right] $

(12)

关系网络^[19]能够学习到空间结构信息，在加入关系网络之后原有网络具备了学习对象间隐藏潜在关系信息的能力。图像中不同目标表示为$ {\mathit{\boldsymbol{{o}}}}_{i} $，能使用关系网络学习到不同目标之间的关系。将学习到的关系信息和频率信息加入到式（2）中表示为$ {\mathit{\boldsymbol{{x}}}}_{t}=[{\mathit{\boldsymbol{{h}}}}_{t-1}, \stackrel{-}{\mathit{\boldsymbol{{v}}}}+\mathit{\boldsymbol{{f}}}+\mathrm{R}\mathrm{N}] $。在BUTD模型的注意力机制中引入RN，不仅能够将问题文本与目标图像区域结合，而且能够保留目标图像之间的潜藏关系，避免了BUTD模型的注意力机制遗漏空间结构化细节信息。

3 模块化协同增强注意力网络模型

本文对文献[11]中提出的MCAN模型进行改进，构建模块化协同增强注意力网络模型，简称为MCDR模型。MCAN对图片特征的处理不够精细，协同注意力机制也不能充分表达图像对象之间的关系信息，而MCDR能够更好地捕获图片的细粒度信息，同时增强了视觉与语言的空间关系，对于问题推理具有重要作用。MCDR由模块化协同增强注意力层作为组件堆叠而成，其中模块化协同增强注意力层由自注意力模块、引导注意力模块、DCT模块以及RN模块组成。

3.1 模块化组合

图 8中包含了2个自注意力模块、1个引导注意力模块、1个DCT模块和1个RN模块，通过DCT模块和RN模块生成频率特征和关系网络特征。图像区域$ {\mathit{\boldsymbol{{x}}}}_{i}\in \mathit{\boldsymbol{{X}}} $与问题词$ {\mathit{\boldsymbol{{y}}}}_{i}\in \mathit{\boldsymbol{{Y}}} $之间的交互作用体现在引导注意力模块，利用这种交互作用获得了图像特征的不同权重。问题词的自注意力用SA（Y）表示，$ \{{\mathit{\boldsymbol{{y}}}}_{i}, {\mathit{\boldsymbol{{y}}}}_{j}\}\in \mathit{\boldsymbol{{Y}}} $计算问题词的权重值。图像区域的自注意力用SA（X）表示，$ \{{\mathit{\boldsymbol{{x}}}}_{i}, {\mathit{\boldsymbol{{x}}}}_{j}\}\in \mathit{\boldsymbol{{X}}} $计算图像中不同区域的权重值。经过离散余弦变换和关系网络模块进行数据增强。GA和SA以及DCT和RN共同构成协同增强注意力层，深度级联的多个协同增强注意力层组成模块化协同增强注意力网络模型。

	Download: JPG larger image
图 8 模块化协同增强注意力网络模型框架 Fig. 8 Framework of modular co-enhanced attention network model

3.2 图像和问题表示

输入图像信息以自上而下的方式通过一组特征进行表示^[12]，特征利用Faster R-CNN模型^[18]获得。图像中物体个数通过概率统计设置动态区间m∈[10, 100]。对于第i个对象，表示为特征$ {\mathit{\boldsymbol{{x}}}}_{i}\in {\mathbb{R}}^{{d}_{\mathit{\boldsymbol{{x}}}}} $、图像输入特征矩阵$ \mathit{\boldsymbol{{X}}}\in {\mathbb{R}}^{m\times {d}_{\mathit{\boldsymbol{{x}}}}} $。将输入问题分割为单词，每个问题最多设置为14个单词^[20-21]，使用语料库上预训练的300维GloVe词嵌入^[22]，将问题中的每个单词转化为特征向量。问题中的单词数n∈[1, 14]，问题转化为n×300的张量。通过带有隐藏层的LSTM^[23]，输出问题特征矩阵$ \mathit{\boldsymbol{{Y}}}\in {\mathbb{R}}^{n\times {d}_{\mathit{\boldsymbol{{y}}}}} $。为了方便处理不同长度的对象，需要用零填充X和Y，使其达到最大长度（m=100、n=14）。

3.3 目标函数

经过多头联合注意力学习，输出的视觉特征和文本特征包含了丰富的注意力权重信息，然后通过逐元素相加的方法融合特征，接着利用正则化稳定结果。损失函数表示如下：

$ {L}_{\mathrm{B}\mathrm{C}\mathrm{E}}=-\sum ({\mathit{\boldsymbol{{o}}}}_{i}\mathrm{l}\mathrm{b}{\mathit{\boldsymbol{{a}}}}_{i}+(1-{\mathit{\boldsymbol{{o}}}}_{i}\left)\mathrm{l}\mathrm{b}\right(1-{\mathit{\boldsymbol{{a}}}}_{i}\left)\right) $

(13)

其中：$ {\mathit{\boldsymbol{{o}}}}_{i} $是训练后预测的答案；$ {\mathit{\boldsymbol{{a}}}}_{i} $是真实的答案；$ {L}_{\mathrm{B}\mathrm{C}\mathrm{E}} $衡量预测值和真实值之间的误差，通过深度学习网络的梯度下降不断减小误差，最终得到最小损失值。

4 实验与结果分析

实验在VQA v2.0和GQA数据集^[24]上评估BUDR模型和MCDR模型的性能。通过分别利用DCT和RN与BUTD模型结合以及它们同时与模型结合，体现DCT和RN各自对模型的影响，由于RN压缩到不同规模会对实验结果造成不同影响，因此对其进行定量消融研究。通过设置最佳特征向量维度，将BUDR模型和MCDR模型与现有视觉问答模型进行性能比较。

4.1 数据集

VQA v2.0数据集是视觉问答任务中常用的数据集，对VQA v1.0数据集进行扩充，平衡了问题的答案，避免了数据的先验性。数据集分为训练集、验证集和测试集，每个数据集包含图片及其相关的问题和回答，其中，训练集包含80 000张图片和444 000个问答对，验证集包含4 000张图片和214 000个问答对，测试集包含80 000张图片和448 000个问答对。评价指标包括是否（yes/no）、数量（number）、其他（other）、所有（overall）等4个问题的精确度。

GQA数据集包含113 018张图片和22 669 678个问答对，在收集过程中利用场景图的空间结构信息，在对真实场景图片生成组合问题的同时，尽可能消除语言偏差的影响。评价指标包括：1）Consistency，衡量模型回答的问题的一致性，即对于不同表达方式的相同问题答案是否一致，例如问题“Is there a red apple to the left of the white plate？”和问题“Is the plate to the right of the apple？”，对于相同问题答案应该是一致的；2）Plausibility，衡量模型回答的问题是否符合常识，例如当问苹果的颜色时，模型回答紫色被认为是不符合常识；3）Distribution，衡量预测答案分布与真实答案分布的距离；4）Binary，衡量二值化问题的精确度。

4.2 参数设置

参数设置对实验性能至关重要，合理的参数设置能提高计算效率。在BUDR模型中，实验模型训练13轮，批处理大小为256，输入问题的维度为1 024，输入图像的维度为2 048，随机丢弃率为0.2。在MCDR模型中，实验模型训练13轮，批处理大小为64，输入图像的维度为2 048，输入问题的维度为1 024，多头注意力机制的头数设置为8，随机丢弃率为0.1，使用Adam优化器^[25]。

BUDR模型和MCDR模型使用train和val作为训练集，test-dev和test-standard作为验证集。训练结果在VQA评测网站上进行在线评测（https://eval.ai/web/challenges/challenge-page/830/my-submission）。

4.3 参数分析

为充分发挥模型性能优势，避免过拟合的情况发生，需要验证4个问题的精确度指标在不同轮次的稳定情况以及损失函数值的递减情况，如图 9、图 10所示，可以看出在13轮时4个问题的精确率不再发生变化，而且损失函数值也基本趋于平稳，因此实验轮次设置为13。

	Download: JPG larger image
图 9 精确率指标的变化结果 Fig. 9 Variation results of accuracy index

	Download: JPG larger image
图 10 损失函数值的变化结果 Fig. 10 Variation results of loss function value

4.4 与现有模型的对比

通过消融实验获得合适的关系网络压缩规模，以train作为训练集、val作为验证集。不同RN特征向量维度时的精确率结果如图 11所示，其中BUR模型为BUTD模型与RN的结合，当特征向量维度为70（即图 11中的BUR-70）时性能表现较好。BUTD、BUD和BUDR模型在VQA v2.0数据集和test-dev验证集上的实验结果如表 1所示，其中最优指标值用加粗字体标示，可以看出对于overall问题，最优BUDR模型相比于BUTD模型预测精确率提升了0.14个百分点。BUTD和BUDR模型在GQA数据集和test-standard验证集上的实验结果如表 2所示。由表 2可以看出，最优BUDR模型相比于BUTD模型的各项指标均有所提升，其中Binary提高了1.21个百分点，Consistency提高了2.32个百分点，Distribution提升了8.73%。

	Download: JPG larger image
图 11 不同RN特征向量维度时的精确率结果 Fig. 11 Results of accuracy with different feature vector dimensions of RN

下载CSV 表 1 BUDR模型在VQA v2.0数据集和test-dev验证集上的实验结果 Table 1 Experimental results of BUDR model on VQA v2.0 data set and test-dev validation set

下载CSV 表 2 BUDR模型在GQA数据集和test-standard验证集上的实验结果 Table 2 Experimental results of BUDR model on GQA data set and test-standard validation set

将RN特征向量维度为70的MCDR模型与VQR Baseline^[1]、MFB^[10]、MCAN^[11]、BUTD^[12]、MFH^[26]等现有视觉问答模型进行比较，以train和val作为训练集，在test-dev验证集上的在线验证结果如表 3所示，可以看出对于overall问题，MCDR模型相比于MCAN模型预测精确率提升了0.25个百分点。在train+val+vg（vg是Visual Genome的增强VQA样本）上进行训练，在test-standard验证集上的在线验证结果如表 4所示，可以看出对于overall问题，MCDR模型相比于MCAN模型预测精确率提升了0.09个百分点。

下载CSV 表 3 MCDR模型在VQA v2.0数据集和test-dev验证集上的实验结果 Table 3 Experimental results of MCDR model on VQA v2.0 data set and test-dev validation set

下载CSV 表 4 MCDR模型在VQA v2.0数据集和test-standard验证集上的实验结果 Table 4 Experimental results of MCDR model on VQA v2.0 data set and test-standard validation set

由此可见，本文提出的BUDR模型和MCDR模型相比于经典的BUTD^[12]和MCAN^[11]模型，通过BUTD和DCT+RN以及MCAN和DCT+RN的结合，能够增强图像的细粒度识别能力，提高问题和图像特征之间的相关性，从而提升模型预测精确率。

5 结束语

本文基于BUTD和MCAN模型，结合空间域特征和频率域特征构造BUDR和MCDR模型，利用离散余弦变换增加频率特征，提高细粒度识别能力，同时采用关系网络学习空间结构信息和潜在关系信息，减少问题和图像特征的对齐错误。在VQA v2.0数据集以及test-dev和test-standard验证集上的实验结果表明，BUDR和MCDR模型相比于BUTD和MCAN模型预测精确率更高。后续将引入图卷积神经网络对空间域和频率域特征进行优化得到偏差更小的融合特征，并建立更多有效的映射关系，提高多模态特征的关联表示能力。

参考文献

[1]	ANTOL S, AGRAWAL A, LU J S, et al. VQA: visual question answering[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 2425-2433.
[2]	WU Q, WANG P, SHEN C H, et al. Ask me anything: free-form visual question answering based on knowledge from external sources[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 4622-4630.
[3]	LU J, YANG J, BATRA D, et al. Hierarchical question-image co-attention for visual question answering[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 289-297.
[4]	NOH H, SEO P H, HAN B. Image question answering using convolutional neural network with dynamic parameter prediction[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 30-38.
[5]	LI R, JIA J. Visual question answering with Question Representation Update(QRU)[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 4655-4663.
[6]	JAIN U, ZHANG Z Y, SCHWING A. Creativity: generating diverse questions using variational autoencoders[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6485-6494.
[7]	TENEY D, LIU L Q, VAN DEN HENGEL A. Graph-structured representations for visual question answering[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1-9.
[8]	KLINGLER F, DRESSLER F, CAO J N, et al. MCB—a multi-channel beaconing protocol[J]. Ad Hoc Networks, 2016, 36: 258-269. DOI:10.1016/j.adhoc.2015.08.002
[9]	SOTO-VALERO C. Predicting win-loss outcomes in MLB regular season games—a comparative study using data mining methods[J]. International Journal of Computer Science in Sport, 2016, 15(2): 91-112. DOI:10.1515/ijcss-2016-0007
[10]	YU Z, YU J, FAN J P, et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 1821-1830.
[11]	YU Z, YU J, CUI Y H, et al. Deep modular co-attention networks for visual question answering[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 6281-6290.
[12]	ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 6077-6086.
[13]	SHRESTHA R, KAFLE K, KANAN C. Answer them all! toward universal visual question answering models[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 10472-10481.
[14]	GAO P, JIANG Z K, YOU H X, et al. Dynamic fusion with intra- and inter-modality attention flow for visual question answering[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 6639-6648.
[15]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[16]	施政, 毛力, 孙俊. 基于YOLO的多模态加权融合行人检测算法[J]. 计算机工程, 2021, 47(8): 234-242. SHI Z, MAO L, SUN J. YOLO-based multi-modal weighted fusion pedestrian detection algorithm[J]. Computer Engineering, 2021, 47(8): 234-242. (in Chinese)
[17]	顾砾, 季怡, 刘纯平. 基于多模态特征融合的三维点云分类方法[J]. 计算机工程, 2021, 47(2): 279-284. GU L, JI Y, LIU C P. Classification method of three-dimensional point cloud based on multiple modal feature fusion[J]. Computer Engineering, 2021, 47(2): 279-284. (in Chinese)
[18]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031
[19]	SANTORO A, RAPOSO D, BARRETT D G T, et al. A simple neural network module for relational reasoning[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1706.01427.
[20]	TENEY D, ANDERSON P, HE X D, et al. Tips and tricks for visual question answering: learnings from the 2017 challenge[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 4223-4232.
[21]	KIM J H, JUN J, ZHANG B T. Bilinear attention networks[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1805.07932.
[22]	PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2014: 1532-1543.
[23]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[24]	GOYAL Y, KHOT T, SUMMERS-STAY D, et al. Making the V in VQA matter: elevating the role of image understanding in visual question answering[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6904-6913.
[25]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1412.6980.
[26]	YU Z, YU J, XIANG C C, et al. Beyond bilinear: generalized multimodal factorized high-order pooling for visual question answering[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(12): 5947-5959. DOI:10.1109/TNNLS.2018.2817340