2. 河南省网络舆情监测与智能分析重点实验室, 郑州 450007;
3. 西安电子科技大学 通信工程学院, 西安 710071
2. Henan Key Laboratory on Public Opinion Intelligent Analysis, Zhengzhou 450007, China;
3. School of Telecommunications Engineering, Xidian University, Xi'an 710071, China
开放科学(资源服务)标志码(OSID):
随着移动互联网、大数据和人工智能等技术的快速发展,各种信息大量涌现并以图片、音频、文本等数据形式呈现。这些不同的数据形式属于不同的模态,单模态信息处理通常无法聚焦到感兴趣的区域,多模态信息处理通过融合多个模态中各个模态的信息,实现各个模态的信息交流和转换,从而全面理解并表达信息中蕴含的高层语义,此类将信息抽象为高层语义信息的方式既能保留更多的有效数据信息,又能减少冗余并降低计算开销,因此受到研究人员的广泛关注并成为近年来研究的热点方向。
视觉问答(Visual Question Answer,VQA)[1]作为多模态数据处理中的重要任务,涉及图像处理、自然语言处理、图像和文本融合等技术,需要将图片和与图片相关的问题作为模型输入,通过模型得出答案作为输出。文献[1]定义了视觉问答任务的概念,采用VGGNet和长短期记忆(Long Short-Term Memory,LSTM)网络来提取图像特征和文本特征。文献[2]使用外部知识库替换图像,应用文本描述图像信息,使得视觉问答问题变成了一般的问答问题。针对上述研究缺乏数据注意力分配的问题,科研人员进行了大量研究并取得了一系列的研究成果。文献[3]根据注意力机制决定关注哪些区域以及问题中哪些单词更重要。文献[4]设计具有动态参数的卷积神经网络(Convolutional Neural Network,CNN)模型,由于不同的问题需要理解的图像粒度不同,因此根据问题适应性进行参数设置。文献[5]依据图像更新问题计算划分区域和问题的相关性,选出相关性高的区域以此对问题进行更新,并通过不断迭代给出最终预测答案。文献[6]使用变分自编码器和LSTM来构建新的算法并将其用来生成问题对应的答案。文献[7]使用图结构来融合表示图像信息和文本信息,将图片编码为场景图,将句子编码为句法依存图,使用神经网络对场景图和依存图进行推理。
图像和问题虽然都可以用特征向量表示,但两者属于不同的特征空间,概率分布差异较大,将向量直接拼接、相加、点乘均不足以表征两种模态的融合特征。针对该问题,文献[8]提出多模态紧凑双线性池化(Multimodal Compact Bilinear pooling,MCB)模型,该模型对图像特征向量与文本特征向量做外积,产生了高维特征向量。针对高维特征向量问题,文献[9]提出多模态低秩双线性(Multimodal Low-rank Bilinear,MLB)池化模型,该模型通过低秩映射矩阵解决了高阶问题,但存在收敛缓慢的问题。文献[10]提出多模态分解双线性池化(Multi-modal Factorized Bilinear pooling,MFB)模型,该模型集合了MCB和MLB模型的优势。文献[11]提出深度模块化协同注意力网络(Modular Co-Attention Network,MCAN)模型。MCAN模型由模块协同注意力层级联组成,每个协同注意力层有两个注意力模块组成。MCAN模型取得了很好的效果,但对于词与词之间的关系以及图像中区域之间的关系缺乏学习,细粒度识别方面也表现不佳。
文献[12]提出基于深度神经网络的VQA模型,将其用于对输入问题和图像进行联合嵌入,并对一组候选答案实现多标签分类。文献[13]设计多模态嵌入的循环聚合网络模型,通过聚合整个场景下的双模态嵌入来捕捉双模态之间的交互。文献[14]认为学习有效的多模态融合特征对视觉问答至关重要,当前模型没有在统一框架下对模态间和模态内的关系进行联合研究,因此建立模态内和模态间注意力流动态融合(Dynamic Fusion with intra-and inter-modality Attention Flow,DFAF)框架实现高效的多模态特征融合。
现有研究表明:图像和问题中有效信息的充分利用对视觉问答模型具有重要的作用。然而,现有视觉问答模型对于特征信息表示不充分,并且模型整体性能受制于信息处理,对象之间的关系信息也未进行针对性表达,同时无法较好地区分相似性物体,导致模型整体性能提升缓慢。针对上述问题,本文构造关系网络(Relational Network,RN)增强对象之间的关系信息,通过增加频率特征改善细粒度识别问题。
1 相关研究MCAN模型[11]在多头注意力的顶部构建自注意力(Self Attention,SA)模块和引导注意力(Guided Attention,GA)模块以处理视觉问答的多模式输入特征,如图 1所示,其中,
![]() |
Download:
|
图 1 自注意力模块与引导注意力模块 Fig. 1 Self-attention module and guided-attention module |
为防止过拟合,可应用残差连接并进行层归一化[15]。MCAN模型[11]中使用的引导注意力模块的输入特征为
文献[16]将PointCNN模型提取的点云特征与CNN提取的图像特征加权融合提高图像分类精度。文献[17]提取不同模态的多尺度特征,通过模态加权提高了多模态行人检测的精度。以上多类型特征的融合为视觉问答任务的特征增强提供了思路。此外,现有的视觉问答模型容易遗漏以下两方面的有效信息:1)细节信息,这些信息对于相似对象的判别特别重要,但容易在训练过程中被错误丢弃;2)空间结构信息,这些信息对推理性问题具有重要作用,显然一般的注意力机制不能较好地保留空间结构信息。
2 多维增强注意力模型多维增强注意力模型是针对自底向上和自顶向下的注意力(Bottom-Up and Top-Down attention,BUTD)模型[12]的改进。BUTD模型通过Faster-R-CNN[18]得到图像感兴趣的区域特征V,采用问题引导的注意力机制给图像中不同的区域打分,使用Softmax将得分转换成权重,图像中的区域特征向量经过加权求和表示为问题所关注的图像区域特征,从而实现自上而下的注意力机制。但是,BUTD模型中细粒度信息以及空间关系信息表示不充分。为解决该问题,本文提出一种BUDR模型。在离散余弦变换(Discrete Cosine Transform,DCT)过程中加入频率特征,改善平均池化的不利影响,简称为BUD模型。在关系网络中加入目标间的关系特征,增强对象间的关系信息,改善细粒度识别不准确的问题,简称为BUR模型。
在BUTD模型的训练过程中存在细节遗漏的情况,而这些细节是区分一些目标的关键,如图 2中第1个问题需要识别对应图中人的面部表情,第2个问题需要在对应图的阴影中识别图中人是否穿了背带裤,第3个问题需要识别纹理相似性很高的橙子、柠檬等水果,第4个问题需要识别穿蓝衣服的所有人。由图 2可以看出,BUTD模型对细粒度特征的辨别程度不高,因此答案预测错误,而BUD模型能够捕获更多的细粒度特征,提高细节问题的预测精确率。
![]() |
Download:
|
图 2 BUD模型与BUTD模型对细节问题的预测结果对比 Fig. 2 Comparison between BUD model and BUTD model for prediction results of detail problems |
如果不能避免关系信息丢失,则可能使图像特征和问题特征对齐出现偏差,进而造成预测结果错误,如图 3中第1个问题需要推理出租车、轿车以及公交车之间的空间位置关系,第2个问题需要推理树、长颈鹿和斑马之间的空间位置关系,第3个问题需要推理女孩、冲浪板、指示牌之间的空间位置关系,第4个问题需要推理建筑物和指示牌之间的空间位置关系。由图 3可以看出,BUTD模型对图像中对象之间的空间关系信息学习不充分,因此对于涉及多个对象且需要空间推理的问题经常预测错误,而BUR模型能够学习对象之间的空间关系,提高此类问题的预测精确率。
![]() |
Download:
|
图 3 BUR模型与BUTD模型对关系推理问题的预测结果对比 Fig. 3 Comparison between BUR model and BUTD model for prediction results of relational reasoning problems |
本文为改善特征信息表示不充分的问题,利用频率特征来增强细节波动信息,采用关系网络对学习到的关系特征进行数据增强,并将原始特征和经过离散余弦变换处理后的特征以及关系网络提取的特征进行融合,如图 4所示。
![]() |
Download:
|
图 4 多维增强注意力模型框架 Fig. 4 Framework of multi-dimensional enhanced attention model |
BUDR模型对于问题使用标准的LSTM进行处理:
$ {\mathit{\boldsymbol{{h}}}}_{t}=\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}({\mathit{\boldsymbol{{x}}}}_{t}, {\mathit{\boldsymbol{{h}}}}_{t-1}) $ | (1) |
其中:
$ {\mathit{\boldsymbol{{x}}}}_{t}=[{\mathit{\boldsymbol{{h}}}}_{t-1}, \stackrel{-}{\mathit{\boldsymbol{{v}}}}] $ | (2) |
这种采用全局平均池化(Global Average Pooling,GAP)特征来实现注意力机制的方法虽然能解决大部分问题,但平均值信息会丢失特征波动的细节信息,对于一些目标容易产生误判,例如不同的特征序列可能具有相同的全局平均值,而它们各自的信息内容却相差很大,如图 5所示。
![]() |
Download:
|
图 5 具有相同全局平均值的特征序列 Fig. 5 Feature sequences with the same global mean values |
为克服这一问题引入DCT,DCT不仅具有正交变换性质,而且其基向量对人类语言和图像信息能够进行较好描述,因此在信号处理和图像处理中经常被使用。此外,DCT具有较强的信息集中特性,能够将高频波动信息聚集在一起,避免有效细节信息的丢失,提高细粒度的辨识能力。离散余弦变换表示如下:
$ \begin{array}{l}{\mathit{\boldsymbol{{f}}}}_{k}=\sum\limits_{i=0}^{l-1}{\mathit{\boldsymbol{{v}}}}_{i}\sqrt{\frac{2}{l}}\mathrm{c}\mathrm{o}\mathrm{s}\left(\frac{\mathrm{\pi }k}{l}\left(i+\frac{1}{2}\right)\right)\\ \mathrm{s}.\mathrm{t}.k\in \{\mathrm{0, 1}, \cdots , l-1\}\end{array} $ | (3) |
其中:
$ {\mathit{\boldsymbol{{f}}}}_{0}=\sum\limits_{i=0}^{l-1}{\mathit{\boldsymbol{{v}}}}_{i}\sqrt{\frac{2}{l}}\mathrm{c}\mathrm{o}\mathrm{s}\left(\frac{\mathrm{\pi }\cdot 0}{l}\left(i+\frac{1}{2}\right)\right)=l\cdot \sqrt{\frac{2}{l}}\cdot \stackrel{-}{\mathit{\boldsymbol{{v}}}} $ | (4) |
由式(4)可以看出,频率最低分量和
通过多层感知机(Multi-Layer Perceptron,MLP)得到图像区域和问题文本的相关性得分
$ {\mathit{\boldsymbol{{a}}}}_{i, t}={\mathit{\boldsymbol{{w}}}}_{\mathit{\boldsymbol{{a}}}}^{\mathrm{T}}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}({\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{v}}}\mathit{\boldsymbol{{a}}}}{\mathit{\boldsymbol{{v}}}}_{i}+{\mathit{\boldsymbol{{W}}}}_{\mathit{\boldsymbol{{h}}}\mathit{\boldsymbol{{a}}}}{\mathit{\boldsymbol{{h}}}}_{t}) $ | (5) |
$ {\mathit{\boldsymbol{{\alpha }}}}_{t}=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left({\mathit{\boldsymbol{{a}}}}_{t}\right) $ | (6) |
$ {\mathit{\boldsymbol{{y}}}}_{t}=\sum\limits_{i=1}^{K}{\mathit{\boldsymbol{{a}}}}_{i, t}{\mathit{\boldsymbol{{v}}}}_{i} $ | (7) |
![]() |
Download:
|
图 6 注意力机制的实现过程 Fig. 6 Realization process of attention mechanism |
其中:
在BUTD[12]等视觉问答模型中,注意力机制缺乏对图片中对象之间空间结构关系的表达,这种空间结构信息对于推理问题具有重要作用,因此本文在BUTD模型中加入RN[19]。RN是一种神经网络模块,具有关系推理的结构,利用约束神经网络来获取关系推理的特性,可加入到目前已有的神经网络构架中,在加入RN后原有网络将具备学习对象间隐藏潜在关系信息的能力。关系网络特征提取过程如图 7所示,其中,
![]() |
Download:
|
图 7 关系网络特征提取过程 Fig. 7 Feature extraction process of relation network |
在图像中不同目标表示为
在图像中固定提取L个目标对象
$ [{\mathit{\boldsymbol{{o}}}}_{1}, {\mathit{\boldsymbol{{o}}}}_{2}, \cdots , {\mathit{\boldsymbol{{o}}}}_{L}]=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{1}& \cdots & {\mathit{\boldsymbol{{o}}}}_{1}\\ {\mathit{\boldsymbol{{o}}}}_{2}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{2}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{L}& {\mathit{\boldsymbol{{o}}}}_{L}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\end{array}\right] $ | (8) |
$ [{\mathit{\boldsymbol{{o}}}}_{1}, {\mathit{\boldsymbol{{o}}}}_{2}, \cdots , {\mathit{\boldsymbol{{o}}}}_{L}]=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\\ {\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{1}& {\mathit{\boldsymbol{{o}}}}_{2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{L}\end{array}\right] $ | (9) |
$ \mathit{\boldsymbol{{O}}}=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{o}}}}_{11}& {\mathit{\boldsymbol{{o}}}}_{12}& \cdots & {\mathit{\boldsymbol{{o}}}}_{1L}\\ {\mathit{\boldsymbol{{o}}}}_{21}& {\mathit{\boldsymbol{{o}}}}_{22}& \cdots & {\mathit{\boldsymbol{{o}}}}_{2L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{o}}}}_{L1}& {\mathit{\boldsymbol{{o}}}}_{L2}& \cdots & {\mathit{\boldsymbol{{o}}}}_{LL}\end{array}\right] $ | (10) |
$ {\mathit{\boldsymbol{{r}}}}_{i, j}=\mathrm{R}\mathrm{N}\left({\mathit{\boldsymbol{{o}}}}_{ij}\right)={\mathit{\boldsymbol{{f}}}}_{\phi }({\mathit{\boldsymbol{{W}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}}{\mathit{\boldsymbol{{o}}}}_{ij}+{\mathit{\boldsymbol{{b}}}}_{\mathrm{M}\mathrm{L}\mathrm{P}}) $ | (11) |
$ \mathit{\boldsymbol{{r}}}=\left[\begin{array}{cccc}{\mathit{\boldsymbol{{r}}}}_{11}& {\mathit{\boldsymbol{{r}}}}_{12}& \cdots & {\mathit{\boldsymbol{{r}}}}_{1L}\\ {\mathit{\boldsymbol{{r}}}}_{21}& {\mathit{\boldsymbol{{r}}}}_{22}& \cdots & {\mathit{\boldsymbol{{r}}}}_{2L}\\ ⋮& ⋮& & ⋮\\ {\mathit{\boldsymbol{{r}}}}_{L1}& {\mathit{\boldsymbol{{r}}}}_{L2}& \cdots & {\mathit{\boldsymbol{{r}}}}_{LL}\end{array}\right]\to \left[\begin{array}{c}{\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{1}\\ {\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{2}\\ ⋮\\ {\stackrel{-}{\mathit{\boldsymbol{{r}}}}}_{L}\end{array}\right] $ | (12) |
关系网络[19]能够学习到空间结构信息,在加入关系网络之后原有网络具备了学习对象间隐藏潜在关系信息的能力。图像中不同目标表示为
本文对文献[11]中提出的MCAN模型进行改进,构建模块化协同增强注意力网络模型,简称为MCDR模型。MCAN对图片特征的处理不够精细,协同注意力机制也不能充分表达图像对象之间的关系信息,而MCDR能够更好地捕获图片的细粒度信息,同时增强了视觉与语言的空间关系,对于问题推理具有重要作用。MCDR由模块化协同增强注意力层作为组件堆叠而成,其中模块化协同增强注意力层由自注意力模块、引导注意力模块、DCT模块以及RN模块组成。
3.1 模块化组合图 8中包含了2个自注意力模块、1个引导注意力模块、1个DCT模块和1个RN模块,通过DCT模块和RN模块生成频率特征和关系网络特征。图像区域
![]() |
Download:
|
图 8 模块化协同增强注意力网络模型框架 Fig. 8 Framework of modular co-enhanced attention network model |
输入图像信息以自上而下的方式通过一组特征进行表示[12],特征利用Faster R-CNN模型[18]获得。图像中物体个数通过概率统计设置动态区间m∈[10, 100]。对于第i个对象,表示为特征
经过多头联合注意力学习,输出的视觉特征和文本特征包含了丰富的注意力权重信息,然后通过逐元素相加的方法融合特征,接着利用正则化稳定结果。损失函数表示如下:
$ {L}_{\mathrm{B}\mathrm{C}\mathrm{E}}=-\sum ({\mathit{\boldsymbol{{o}}}}_{i}\mathrm{l}\mathrm{b}{\mathit{\boldsymbol{{a}}}}_{i}+(1-{\mathit{\boldsymbol{{o}}}}_{i}\left)\mathrm{l}\mathrm{b}\right(1-{\mathit{\boldsymbol{{a}}}}_{i}\left)\right) $ | (13) |
其中:
实验在VQA v2.0和GQA数据集[24]上评估BUDR模型和MCDR模型的性能。通过分别利用DCT和RN与BUTD模型结合以及它们同时与模型结合,体现DCT和RN各自对模型的影响,由于RN压缩到不同规模会对实验结果造成不同影响,因此对其进行定量消融研究。通过设置最佳特征向量维度,将BUDR模型和MCDR模型与现有视觉问答模型进行性能比较。
4.1 数据集VQA v2.0数据集是视觉问答任务中常用的数据集,对VQA v1.0数据集进行扩充,平衡了问题的答案,避免了数据的先验性。数据集分为训练集、验证集和测试集,每个数据集包含图片及其相关的问题和回答,其中,训练集包含80 000张图片和444 000个问答对,验证集包含4 000张图片和214 000个问答对,测试集包含80 000张图片和448 000个问答对。评价指标包括是否(yes/no)、数量(number)、其他(other)、所有(overall)等4个问题的精确度。
GQA数据集包含113 018张图片和22 669 678个问答对,在收集过程中利用场景图的空间结构信息,在对真实场景图片生成组合问题的同时,尽可能消除语言偏差的影响。评价指标包括:1)Consistency,衡量模型回答的问题的一致性,即对于不同表达方式的相同问题答案是否一致,例如问题“Is there a red apple to the left of the white plate?”和问题“Is the plate to the right of the apple?”,对于相同问题答案应该是一致的;2)Plausibility,衡量模型回答的问题是否符合常识,例如当问苹果的颜色时,模型回答紫色被认为是不符合常识;3)Distribution,衡量预测答案分布与真实答案分布的距离;4)Binary,衡量二值化问题的精确度。
4.2 参数设置参数设置对实验性能至关重要,合理的参数设置能提高计算效率。在BUDR模型中,实验模型训练13轮,批处理大小为256,输入问题的维度为1 024,输入图像的维度为2 048,随机丢弃率为0.2。在MCDR模型中,实验模型训练13轮,批处理大小为64,输入图像的维度为2 048,输入问题的维度为1 024,多头注意力机制的头数设置为8,随机丢弃率为0.1,使用Adam优化器[25]。
BUDR模型和MCDR模型使用train和val作为训练集,test-dev和test-standard作为验证集。训练结果在VQA评测网站上进行在线评测(https://eval.ai/web/challenges/challenge-page/830/my-submission)。
4.3 参数分析为充分发挥模型性能优势,避免过拟合的情况发生,需要验证4个问题的精确度指标在不同轮次的稳定情况以及损失函数值的递减情况,如图 9、图 10所示,可以看出在13轮时4个问题的精确率不再发生变化,而且损失函数值也基本趋于平稳,因此实验轮次设置为13。
![]() |
Download:
|
图 9 精确率指标的变化结果 Fig. 9 Variation results of accuracy index |
![]() |
Download:
|
图 10 损失函数值的变化结果 Fig. 10 Variation results of loss function value |
通过消融实验获得合适的关系网络压缩规模,以train作为训练集、val作为验证集。不同RN特征向量维度时的精确率结果如图 11所示,其中BUR模型为BUTD模型与RN的结合,当特征向量维度为70(即图 11中的BUR-70)时性能表现较好。BUTD、BUD和BUDR模型在VQA v2.0数据集和test-dev验证集上的实验结果如表 1所示,其中最优指标值用加粗字体标示,可以看出对于overall问题,最优BUDR模型相比于BUTD模型预测精确率提升了0.14个百分点。BUTD和BUDR模型在GQA数据集和test-standard验证集上的实验结果如表 2所示。由表 2可以看出,最优BUDR模型相比于BUTD模型的各项指标均有所提升,其中Binary提高了1.21个百分点,Consistency提高了2.32个百分点,Distribution提升了8.73%。
![]() |
Download:
|
图 11 不同RN特征向量维度时的精确率结果 Fig. 11 Results of accuracy with different feature vector dimensions of RN |
![]() |
下载CSV 表 1 BUDR模型在VQA v2.0数据集和test-dev验证集上的实验结果 Table 1 Experimental results of BUDR model on VQA v2.0 data set and test-dev validation set |
![]() |
下载CSV 表 2 BUDR模型在GQA数据集和test-standard验证集上的实验结果 Table 2 Experimental results of BUDR model on GQA data set and test-standard validation set |
将RN特征向量维度为70的MCDR模型与VQR Baseline[1]、MFB[10]、MCAN[11]、BUTD[12]、MFH[26]等现有视觉问答模型进行比较,以train和val作为训练集,在test-dev验证集上的在线验证结果如表 3所示,可以看出对于overall问题,MCDR模型相比于MCAN模型预测精确率提升了0.25个百分点。在train+val+vg(vg是Visual Genome的增强VQA样本)上进行训练,在test-standard验证集上的在线验证结果如表 4所示,可以看出对于overall问题,MCDR模型相比于MCAN模型预测精确率提升了0.09个百分点。
![]() |
下载CSV 表 3 MCDR模型在VQA v2.0数据集和test-dev验证集上的实验结果 Table 3 Experimental results of MCDR model on VQA v2.0 data set and test-dev validation set |
![]() |
下载CSV 表 4 MCDR模型在VQA v2.0数据集和test-standard验证集上的实验结果 Table 4 Experimental results of MCDR model on VQA v2.0 data set and test-standard validation set |
由此可见,本文提出的BUDR模型和MCDR模型相比于经典的BUTD[12]和MCAN[11]模型,通过BUTD和DCT+RN以及MCAN和DCT+RN的结合,能够增强图像的细粒度识别能力,提高问题和图像特征之间的相关性,从而提升模型预测精确率。
5 结束语本文基于BUTD和MCAN模型,结合空间域特征和频率域特征构造BUDR和MCDR模型,利用离散余弦变换增加频率特征,提高细粒度识别能力,同时采用关系网络学习空间结构信息和潜在关系信息,减少问题和图像特征的对齐错误。在VQA v2.0数据集以及test-dev和test-standard验证集上的实验结果表明,BUDR和MCDR模型相比于BUTD和MCAN模型预测精确率更高。后续将引入图卷积神经网络对空间域和频率域特征进行优化得到偏差更小的融合特征,并建立更多有效的映射关系,提高多模态特征的关联表示能力。
[1] |
ANTOL S, AGRAWAL A, LU J S, et al. VQA: visual question answering[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 2425-2433.
|
[2] |
WU Q, WANG P, SHEN C H, et al. Ask me anything: free-form visual question answering based on knowledge from external sources[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 4622-4630.
|
[3] |
LU J, YANG J, BATRA D, et al. Hierarchical question-image co-attention for visual question answering[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 289-297.
|
[4] |
NOH H, SEO P H, HAN B. Image question answering using convolutional neural network with dynamic parameter prediction[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 30-38.
|
[5] |
LI R, JIA J. Visual question answering with Question Representation Update(QRU)[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York, USA: ACM Press, 2016: 4655-4663.
|
[6] |
JAIN U, ZHANG Z Y, SCHWING A. Creativity: generating diverse questions using variational autoencoders[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6485-6494.
|
[7] |
TENEY D, LIU L Q, VAN DEN HENGEL A. Graph-structured representations for visual question answering[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 1-9.
|
[8] |
KLINGLER F, DRESSLER F, CAO J N, et al. MCB—a multi-channel beaconing protocol[J]. Ad Hoc Networks, 2016, 36: 258-269. DOI:10.1016/j.adhoc.2015.08.002 |
[9] |
SOTO-VALERO C. Predicting win-loss outcomes in MLB regular season games—a comparative study using data mining methods[J]. International Journal of Computer Science in Sport, 2016, 15(2): 91-112. DOI:10.1515/ijcss-2016-0007 |
[10] |
YU Z, YU J, FAN J P, et al. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 1821-1830.
|
[11] |
YU Z, YU J, CUI Y H, et al. Deep modular co-attention networks for visual question answering[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 6281-6290.
|
[12] |
ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 6077-6086.
|
[13] |
SHRESTHA R, KAFLE K, KANAN C. Answer them all! toward universal visual question answering models[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 10472-10481.
|
[14] |
GAO P, JIANG Z K, YOU H X, et al. Dynamic fusion with intra- and inter-modality attention flow for visual question answering[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 6639-6648.
|
[15] |
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
|
[16] |
施政, 毛力, 孙俊. 基于YOLO的多模态加权融合行人检测算法[J]. 计算机工程, 2021, 47(8): 234-242. SHI Z, MAO L, SUN J. YOLO-based multi-modal weighted fusion pedestrian detection algorithm[J]. Computer Engineering, 2021, 47(8): 234-242. (in Chinese) |
[17] |
顾砾, 季怡, 刘纯平. 基于多模态特征融合的三维点云分类方法[J]. 计算机工程, 2021, 47(2): 279-284. GU L, JI Y, LIU C P. Classification method of three-dimensional point cloud based on multiple modal feature fusion[J]. Computer Engineering, 2021, 47(2): 279-284. (in Chinese) |
[18] |
REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 |
[19] |
SANTORO A, RAPOSO D, BARRETT D G T, et al. A simple neural network module for relational reasoning[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1706.01427.
|
[20] |
TENEY D, ANDERSON P, HE X D, et al. Tips and tricks for visual question answering: learnings from the 2017 challenge[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 4223-4232.
|
[21] |
KIM J H, JUN J, ZHANG B T. Bilinear attention networks[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1805.07932.
|
[22] |
PENNINGTON J, SOCHER R, MANNING C. GloVe: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: Association for Computational Linguistics, 2014: 1532-1543.
|
[23] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
[24] |
GOYAL Y, KHOT T, SUMMERS-STAY D, et al. Making the V in VQA matter: elevating the role of image understanding in visual question answering[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 6904-6913.
|
[25] |
KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-07-11]. https://arxiv.org/abs/1412.6980.
|
[26] |
YU Z, YU J, XIANG C C, et al. Beyond bilinear: generalized multimodal factorized high-order pooling for visual question answering[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(12): 5947-5959. DOI:10.1109/TNNLS.2018.2817340 |