基于多模态融合与多层注意力的视频内容文本表述研究

引用本文

赵宏, 郭岚, 陈志文, 等. 基于多模态融合与多层注意力的视频内容文本表述研究[J]. 计算机工程, 2022, 48(10), 45-54. DOI: 10.19678/j.issn.1000-3428.0063294.

ZHAO Hong, GUO Lan, CHEN Zhiwen, et al. Research on Text Representation of Video Content Based on Multi-Modal Fusion and Multi-Layer Attention[J]. Computer Engineering, 2022, 48(10), 45-54. DOI: 10.19678/j.issn.1000-3428.0063294.

基金项目

国家自然科学基金（62166025，51668043）；甘肃省重点研发计划（21YF5GA073）

通信作者

郭岚（通信作者）

作者简介

赵宏（1971—），男，教授、博士，主研方向为计算机视觉、自然语言处理、深度学习;
陈志文，硕士研究生;
郑厚泽，硕士研究生

文章历史

收稿日期：2021-11-19
修回日期：2021-12-27

Contents Abstract Full text Figures/Tables PDF

基于多模态融合与多层注意力的视频内容文本表述研究

赵宏 , 郭岚 , 陈志文 , 郑厚泽

兰州理工大学计算机与通信学院, 兰州 730050

收稿日期：2021-11-19；修回日期：2021-12-27

基金项目：国家自然科学基金（62166025，51668043）；甘肃省重点研发计划（21YF5GA073）

作者简介：赵宏（1971—），男，教授、博士，主研方向为计算机视觉、自然语言处理、深度学习; 陈志文，硕士研究生; 郑厚泽，硕士研究生.

通信作者：郭岚（通信作者）.

E-mail: guolan@lut.edu.cn

摘要：针对现有视频内容文本表述模型存在生成的文本表述单一、准确率不高等问题，提出一种融合帧级图像及音频信息的视频内容文本表述模型。基于自注意力机制设计单模态嵌入层网络结构，并将其嵌入单模态特征中学习单模态特征参数。采用联合表示、协作表示两种方法对单模态嵌入层输出的高维特征向量进行双模态特征融合，使模型能关注视频中不同目标间的交互关系，从而生成更加丰富、准确的视频文本表述。使用大规模数据集对模型进行预训练，并提取视频帧、视频所携带的音频等表征信息，将其送入编解码器实现视频内容的文本表述。在MSR-VTT和LSMDC数据集上的实验结果表明，所提模型的BLEU4、METEOR、ROUGEL和CIDEr指标分别为0.386、0.250、0.609和0.463，相较于MSR-VTT挑战赛中IIT DeIhi发布的模型，分别提升了0.082、0.037、0.115和0.257，能有效提升视频内容文本表述的准确率。

Research on Text Representation of Video Content Based on Multi-Modal Fusion and Multi-Layer Attention

ZHAO Hong , GUO Lan , CHEN Zhiwen , ZHENG Houze

College of Computer and Communication, Lanzhou University of Technology, Lanzhou 730050, China

Abstract: Aiming at the challenges of single-text representation and low accuracy of existing video content text-representation models, a video content text-reprsentation model that integrates frame-level image and audio information is proposed. The network structure of the model includes a single-mode embedding layer based on a self attention mechanism, and learns single-mode feature parameters. Two schemes, joint-representation and cooperative-representation, are adopted to fuse high-dimensional feature vectors output from the single-mode embedding layer, so that the model can focus on different objects in the video and their interaction, thereby generating richer and more accurate video text representation. The model is pretrained through large-scale datasets, and representation information, such as video frames and audio carried by the video, are extracted and sent to the coder to realize the text representation of the video content. The experimental results on MSR-VTT and LSMDC datasets show that the BLEU4, METEOR, ROUGEL, and CIDEr scores of the proposed model are 0.386, 0.250, 0.609 and 0.463 respectively. Compared with the model released by the IIT DeIhi in the MSR-VTT challenge, the proposed model improves the indexes above by 0.082, 0.037, 0.115 and 0.257 respectively. The model in this study can effectively improve the accuracy of the video content text-representation model.

开放科学（资源服务）标志码（OSID）：

0 概述

随着移动互联网的快速发展和智能设备的普及，人类信息化进程进入了新阶段。视频由于包含丰富内容且能够直观表达观点，因此逐渐在互联网上流行。例如，在各种社交平台上由用户生成的共享短视频已成为人们社交的重要手段。当前，如何自动地分析和理解视频内容，并将其转换为文本表达方式，成为视频内容文本表述领域的研究热点。视频内容文本表述研究也一直是计算机和多媒体领域极具挑战性的研究课题^[1-2]，该研究在回答图像问题^[3]、应用图像与视频检索^[4-6]、协助视觉障碍的患者理解媒体内容^[7]等领域具有广阔的应用前景。

视频内容文本表述的早期研究主要基于固定模板结构^[8-10]，包括内容识别和根据模板生成句子2个阶段。其中，内容识别通过对视频中的主要对象进行视觉识别和分类；根据模板生成的句子将内容识别的实体匹配到模板所需的类别，如主语、谓语、宾语和地点。但该方法过于依赖预先设定的模板，导致生成的描述灵活性差，生成的句子过于单一，不能全面覆盖视频内容。受机器翻译方向编码器-解码器框架的启发，目前视频内容文本表述主流方法预先采用在对象识别与检测领域广泛应用的卷积神经网络（Convolutional Neural Networks，CNN）^[11-13]获取视觉信息并生成视觉表征向量，然后使用在自然语言处理方面取得巨大进步的循环神经网络（Recurrent Neural Network，RNN）^[14-16]作为编码器接收视觉表征向量并进行编码，生成中间隐藏向量，接着将其送到由RNN组成的解码器，生成序列化的自然语言表达。然而，现实中的视频由不同模态的内容构建而成^[17]，其不仅包含图像信息，还具有视频中对象的运动、背景中的音频、上下文的时序等信息，且不同模态信息之间具有高度相关性和互补性，这些模态通过相互配合提供完整的信息。

本文基于不同模态信息之间具有高度相关性和互补性的特征，提出一种将多模态融合与多层注意力相结合的视频内容文本表述模型。采用融合互补模态信息训练视频内容文本表述模型，并针对不同的视频模态信息，采用预训练模型提取视频中静态帧和音频表征信息，提升视频内容文本表述的准确率。基于自注意力机制设计嵌入层，对单模态特征向量进行嵌入建模，使不同模态间的互补信息能更好地拟合。最后，采用协作表示进行跨模态特征融合，并通过融合特征有效提升模型对视频内容的描述质量。

1 相关工作

视频内容文本表述研究旨在通过使用自然语言的方式对视频所展示的内容进行分析、理解与表述，目前视频内容文本表述的主流方法以“编码-解码”架构为基础，主要可以分为基于视觉特征均值/最大值、基于视频序列记忆建模和基于三维卷积特征这3种方法。

基于视觉特征均值/最大值的方法对视觉特征进行提取，并求解特征均值或最大值。其中，文献[18]基于长短期记忆（Long Short-Term Memory，LSTM）网络提出一种LSTM-MY模型，采用帧特征均值池化的方式对视觉特征进行提取，其性能相较于基于模板的方法有所改善。文献[19]针对生成文本和视频内容关联性不够的问题提出RUC-UVA模型，通过结合Video tagging方法提取视频关键词，并将关键词和视频帧特征相结合作为解码器的输入，能有效提高生成文本的准确性。但该类方法难以捕获视频片段内的时序特征，极易造成动态特征的丢失。

在基于视频序列记忆建模的方法中，文献[20]针对视频数据预处理时需要注意时序信息提出时间注意力（Temporal Attention，TA）模型，该模型在时间维度上结合注意力机制，将得到的特征输入解码器生成文本表述，生成的句子适应性较高。文献[21]针对视频不定长的问题将序列到序列模型应用到视频到文本任务上，实现了对视频帧序列输入、文字序列输出的端到端视频描述。虽然该方法可以实现时序特征提取与语言模块的端到端训练，但是CNN特征经过序列变换之后极易导致视频帧中空间信息的破坏与丢失。

基于三维卷积特征的方法对视频的时空特征进行编码，挖掘视频的静态特征和时序动态特征。文献[22]提出M³-inv3模型，通过提取视频帧的2D和3D特征对视觉信息和语言信息共同建模，较好地解决了LSTM中多模态信息长期依赖与语义错位的问题。文献[23]提出一种用于图像和视频字幕的具有自适应注意方法的分层LSTM，利用空间或时间注意力选择区域预测相关词。

视频所携带的音频信号对视频具有重要的意义，视频配音能够以声音的形式说明视频的要点和主题，例如掌声、鸣笛、说话与唱歌的区别只能从音频信息中捕获到。如图 1所示为一段视频的3个画面，对其进行描述的3个文本如下：

	Download: JPG larger image
图 1 视频内容文本描述示例 Fig. 1 Example of video content text description

1）a man giving a speech。

2）a man wearing a suit is giving a speech。

3）a man speech won applause from the audience。

其中，第3种文字描述最为准确，因为其结合音频特征，提取出了视频中的“掌声”信息。

综上，当前视频内容文本表述模型对提取到的单模态表征信息利用不足，且未利用视频所携带的音频等信息，导致生成的文本对视频内容表述质量不高。因此，本文综合考虑单模态特征参数学习以及视频多模态表征信息之间的互补性，通过提取视频不同模态的表征信息获得每种模态所表达的语义属性，将其进行融合后对视频内容进行表述，从而提高模型对视频内容文本表述的性能。

2 视频内容文本表述模型 2.1 模型结构

图 2所示为多层注意力的跨模态视频内容文本表述模型的结构，包括视频预处理、单模态特征提取、编码（单模态信息嵌入、多模态信息融合）和解码4部分。

	Download: JPG larger image
图 2 多模态视频内容文本生成模型 Fig. 2 Multi-modal video content text generation model

在图 2中，视频预处理模块主要提取视频帧、抽取视频的音频信息。单模态特征提取模块利用改进的残差网络（Residual Network，ResNet）网络^[24]提取视频的2D帧特征、FFmpeg提取音频MFCC特征。编码器模块由嵌入层与融合层组成，嵌入层包括自注意力机制^[25]和两层LSTM网络^[26]，融合层由协作表示构成。编码器将帧、音频模态的特征向量作为输入，并分别送入嵌入层进行单模态信息建模，最终编码为单独的隐藏向量$ \{{\mathit{\boldsymbol{h}}}_{v}, {\mathit{\boldsymbol{h}}}_{\mathrm{a}\mathrm{u}\mathrm{d}\mathrm{i}\mathrm{o}}\} $，然后通过协作表征方式将各模态信息映射到统一的多模态向量空间$ {V}_{\mathrm{m}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}} $。解码器接收$ {V}_{\mathrm{m}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}} $进行解码，预测当前时间的隐藏状态，依次输出每一时间步的概率分布向量。最后，利用贪心搜索算法取解码时刻每一时间步上概率最大的单词作为预测输出结果。在当前时间步$ t $下各个单词的概率分布表达式如式（1）所示：

$ {P}_{t}\left({Y}_{t}\right)=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}({\mathit{\boldsymbol{h}}}_{t}, {Y}_{t-1}, {V}_{\mathrm{m}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}}) $

(1)

其中：$ {\mathit{\boldsymbol{h}}}_{t} $是当前隐藏状态；$ {Y}_{t-1} $是上一时间步得到的结果；$ {V}_{\mathrm{m}\mathrm{u}\mathrm{l}\mathrm{t}\mathrm{i}} $是统一的多模态向量空间；$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数是归一化指数函数。将结果映射到（0，1）之间作为概率值，并当所有概率分布计算结束后，采用贪心搜索算法取解码时刻每一个时间步上概率最大的单词作为预测输出结果，直到输出$ < \mathrm{e}\mathrm{o}\mathrm{s} > $，解码完成。

2.2 特征提取

视频数据与图片数据的不同点在于视频是连续的多帧画面，该特性使视频更适合描述连续性动作，且视频附带对应的音频信息可以形象地记录一个事件。相比单张图片，视频不仅包含了空间特征，还具有时序特征、音频、动作等特征^[27]。因此，在上下文中确定需要表达的内容并进行准确描述是一项很大的挑战。

本文采用融合视频的多种模态特征进行视频内容文本表述任务。对于视频的静态帧特征提取，在残差网络ResNet152中加入文献[28]提出的通道注意力（Squeeze and Excitation，SE）模块，以提取帧级2D特征。对于视频中音频信息的提取，采用FFmpeg提取语音信号的Mel频率倒谱系数（Mel Frequency Cepstral Coefficient，MFCC）。特征提取具体如下。

1）自注意力

自注意力模块对输入的特征图进行自主学习并分配权重，从而获取特征图中的重要信息，减少模型对外部信息的依赖，使网络更注重于捕捉信息内部的相关性。此外，自注意力模块的序列特征提取能力较强，因此采用自注意力模块结构来设计本文模型的嵌入层，其结构如图 3所示。

	Download: JPG larger image
图 3 自注意力模块的结构 Fig. 3 Structure of self attention module

由图 3可知，自注意力模块首先创建3个向量$ \mathit{\boldsymbol{Q}}\mathrm{、}\mathit{\boldsymbol{K}}\mathrm{和}\mathit{\boldsymbol{V}} $，并在训练过程中对向量进行调整优化，通过向量$ \mathit{\boldsymbol{Q}} $与向量$ \mathit{\boldsymbol{K}} $的点积计算得到$ \mathit{\boldsymbol{Q}}{\mathit{\boldsymbol{K}}}^{\mathrm{T}} $向量，将结果除以维度平方根使梯度更加稳定，再通过$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数归一化计算得到权重信息。最后将计算得出的权重信息与向量V相乘，放大重点关注信息，弱化不重要的特征信号。具体计算式如式（2）所示：

$ \mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}(\mathit{\boldsymbol{Q}}, \mathit{\boldsymbol{K}}, \mathit{\boldsymbol{V}})=\mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x}\left(\frac{\mathit{\boldsymbol{Q}}{\mathit{\boldsymbol{K}}}^{\mathrm{T}}}{\sqrt{{d}_{k}}}\right)\mathit{\boldsymbol{V}} $

(2)

其中：Attention表示进行自注意力计算；$ \mathit{\boldsymbol{Q}}, \mathit{\boldsymbol{K}}, \mathit{\boldsymbol{V}}\in {\mathbb{R}}^{(m\times {d}_{k})} $；$ {d}_{k} $为向量维度。

2）视频帧特征提取

在ResNet152网络中嵌入SE模块，并将其作为视频帧特征提取网络，如图 4所示为ResNet模块的原始结构与嵌入SE模块的SE-ResNet结构。通过嵌入SE模块对ResNet网络提取的特征进行重调，并利用提取的全局信息衡量每一特征的重要性，使其得到各通道间的相关性，协助完成特征的重新标定。此处，为简化模型参数的复杂性，在SE模块的ReLU激活函数两端依次采用$ 1\times 1 $的全连接层^[29]，从而使网络具有更多的非线性，能够拟合通道间的相关性，同时提升重要特征的权重并抑制非重要特征的权重。

	Download: JPG larger image
图 4 ResNet模块与SE-ResNet模块的结构对比 Fig. 4 Structure comparison of ResNet module and SE-ResNet module

将数据集中每条视频预处理成固定帧，每条视频等间隔取40个关键样本帧，然后送入经过ImageNet数据集预训练的SE-ResNet模型中提取帧的特征信息，得到40×2 048的高维特征向量。

3）音频MFCC特征提取

目前语音特征提取方法有线性预测倒谱系数（Linear Predictive Cepstral Coefficient，LPCC）提取法^[30]和MFCC提取法^[31]。其中，MFCC提取法主要基于人的非线性听觉机理，模仿人耳的功能分析语音的频率，能够更好地提取语音信号特征^[32]。其中，Mel是感知音调或音调频率的度量单位，1 Mel为1 000 Hz的音调感知程度的1/1 000，其具体定义如式（3）所示：

$ {f}_{\mathrm{m}\mathrm{e}\mathrm{l}}={2}_{}595\mathrm{l}\mathrm{g}\left(1+\frac{{f}_{\mathrm{H}\mathrm{z}}}{700}\right) $

(3)

其中：$ {f}_{\mathrm{m}\mathrm{e}\mathrm{l}} $为Mel频标；$ {f}_{\mathrm{H}\mathrm{z}} $为实际线性频率。

Mel滤波器倒谱参数特征在语音特征提取中占有重要的地位，且计算简单、区分能力较突出。MFCC的特征参数提取原理如图 5所示。

	Download: JPG larger image
图 5 MFCC特征参数提取 Fig. 5 MFCC feature parameter extraction

由图 5可知，MFCC特征参数提取过程首先对抽取出来的音频信号进行预加重、分帧、加窗等预处理操作，并对分帧之后的单帧信号进行离散傅里叶变换，最终得到频域数据，如式（4）所示：

$ {x}_{i}\left(k\right)=\sum\limits_{n=1}^{N}{x}_{i}\left(n\right){\mathrm{e}}^{\frac{-{j}^{2}\mathrm{\pi }nk}{N}}, 1\le k, n\le N $

(4)

其中：$ {x}_{i}\left(k\right) $是第i帧的数据；k表示频域中第k条谱线。

其次，将频域数据通过w个Mel频率滤波器进行滤波，提取频谱、Mel滤波器组和频率包络，滤波器的频域响应$ {H}_{w}\left(k\right) $表达式如式（5）所示：

$ {H}_{w}\left(k\right)=\left\{\begin{array}{l}0, k < f(w-1)\\ \frac{2(k-f(w-1\left)\right)}{\left(f\right(w+1)-f(w-1\left)\right)\left(f\right(w)-f(w-1\left)\right)}, \\ f(w-1)\le k < f\left(w\right)\\ \frac{2\left(f\right(w+1)-k)}{\left(f\right(w+1)-f(w-1\left)\right)\left(f\right(w)-f(w-1\left)\right)}, \\ f\left(w\right)\le k\le f(w+1)\\ 0, k > f(w+1)\end{array}\right. $

(5)

其中：$ \sum {H}_{W}\left(\mathrm{k}\right)=1；$$ f\left(w\right) $是滤波器中心频率。

然后，对处理过的能量频谱取对数，使傅里叶变换中幅度乘法转换为加法，得到对数能量$ {S}_{i}\left(w\right) $，该过程的计算式如式（6）所示：

$ {S}_{i}\left(w\right)=\mathrm{l}\mathrm{n}\left(\sum\limits_{k=0}^{N-1}\left|{X}_{i}\right(k\left){|}^{2}{H}_{w}\right(k)\right), 0\le w < W $

(6)

其中：i为第i帧：k为频域中第k条谱线。

最后，将对数能量代入离散余弦变换（Discrete Cosine Transform，DCT），得到MFCC系数，计算式如式（7）所示：

$ \begin{array}{l}\mathrm{M}\mathrm{F}\mathrm{C}\mathrm{C}(i, n)=\sum\limits_{w=0}^{W-1}S\left(w\right)cos\left(\frac{\mathrm{\pi }n(w+0.5)}{W}\right), \\ 0\le w < W, n=1, \mathrm{ }2, \cdots, L\end{array} $

(7)

其中：w指第w个Mel滤波器；i指第i帧；n为DCT之后得到的谱线。

将数据集中每条视频抽取的音频分成1 120帧，并从每一帧中提取20维的MFCC信号，将其存储为1 120×20的高维音频特征矩阵。

2.3 特征融合

采用联合表示以及协作表示2种多模态特征融合方法^[33]。其中，联合表示方法的示意图如图 6所示，其通过将多个模态的信息统一映射到一个多模态向量空间中，获得多个模态特征，拼接融合得到表征，并在拼接向量维度较高时进行主成分分析（Principal Component Analysis，PCA）降维操作，形成多维特征向量空间。协作表示方法的示意图如图 7所示，该策略并不寻求融合而是通过建模多种模态数据之间的相关性，将多个模态信息映射到协作空间，映射关系为$ f\left({x}_{1}\right)~f\left({x}_{m}\right) $，其中“~”表示一种协作关系。网络的优化目标就是优化协作关系。

	Download: JPG larger image
图 6 联合表示方法的示意图 Fig. 6 Schematic diagram of joint representation method

	Download: JPG larger image
图 7 协作表示方法的示意图 Fig. 7 Schematic diagram of collaborative representation method

将预训练模型提取到的模态特征作为自注意力机制嵌入层的输入，并进行单模态参数学习，然后在特征融合阶段分别利用联合表示和协作表示对提取的单模态特征进行融合实验。实验结果表明，联合表示方法保留了多个模态各自独立的表示空间，而协作表示方法注重捕捉多个模态的互补性，通过融合多个输入模态$ {x}_{1}, {x}_{2}, \cdots, {x}_{m} $获得多模态表征$ X=f({x}_{1}, {x}_{2}, \cdots, {x}_{m}) $。因此，本文选择协作表示方法对多种模态数据之间的相关性进行建模。

3 实验结果与分析 3.1 实验硬件平台

实验服务器配置为48核Intel^® Xeon^® Gold 5118 CPU，内存128 GB，显存为32 GB的NVIDIA Tesla V100 GPU，操作系统为Ubuntu18.04，加速库为NVIDIA CUDA 11.3和cuDNN v8.2.1，模型建立与训练框架为PyTorch。

3.2 数据集

本文选用MSR-VTT数据集和大型电影描述挑战赛（LSMDC）数据集，具体描述如下。

1）MSR-VTT数据集

MSR-VTT^[34]是微软发布的视频生成文本的大规模公共数据集。本文实验采用2017年更新版MSR-VTT数据集，该数据集包含10 000个训练视频片段和3 000个测试视频片段，总时长达41.2 h，平均每个片段包含20个自然语言标注语句，共计200 000个语句。该数据集包含20个代表性类别（包括烹饪和电影）的257个热门门类视频片段，是当前较全面和具有代表性的经典数据集。数据集内容分布如图 8所示，其中，X轴为视频类别，共20类，Y轴为各类别下的视频总数。

	Download: JPG larger image
图 8 MSR-VTT数据集的内容分布 Fig. 8 Content distribution of MSR-VTT dataset

2）LSMDC数据集

LSMDC数据集由MPII电影描述数据集（MPII-MD）^[35]和蒙特利尔视频注释数据集（M-VAD）^[36]两组分组成。包含大约128 000个句子片段和158 h的视频，其中训练、验证、公共、盲测试集分别有101 079、7 408、10 053、9 578个视频片段。由于用来描述动作片的词汇可能与喜剧电影中使用的词汇差异较大，因此该划分方式可以平衡每一组电影中的电影类型，使数据分布更合理。

3.3 评价指标

为验证模型的有效性，采用当前主流的视频内容文本表述评价指标，包括CIDEr^[37]、METEOR^[38]、ROUGEL^[39]和BLEU^[40]，具体介绍如下。

1）CIDEr指标是专门为图像或视频描述领域设定的评估指标，将模型生成的描述和真实描述表示为词频和逆向词频的向量形式，通过求其余弦相似度为生成的描述评分，在视频描述领域该评价指标具有较高的参考性。

2）METEOR指标的计算基于单精度的加权调和平均数和单字召回率，其评价结果与人工评判结果具有一定相关性。

3）ROUGEL指标在评价描述时考虑句子中单词的顺序，能够评价句子层级的意义。

4）BLEU指标通过定义4元词的个数来度量生成结果和目标语句之间的语义相似度。

以上4种标准评价指标值越高，均表明所生成的描述语义越接近真实描述，准确率越高。

3.4 实验结果 3.4.1 实验参数设置

在模型读取每一帧图像之前，先将提取到的原始帧大小缩放至256×256像素，对每帧图像进行15°随机旋转后再进行随机裁剪，得到224×224像素大小的图像，最后对分词之后的文本词汇进行汇总统计，将大于低频阈值的词形成词汇表，剔除低于低频阈值的词汇。本文将词汇阈值设定为5，最终得到16 860个词汇。

在模型训练阶段，参数优化采用Adam^[41]算法，优化器参数$ \alpha =0.9 $，$ \beta =0.999 $，$ \varepsilon ={10}^{-8} $，模型初始学习率为0.001，学习衰减速率为0.8，设定连续50轮训练损失没有下降时的学习率衰减为0.8。采用负对数似然损失函数度量数据集标注语句与模型生成语句间的距离，迭代轮次为3 000次，批处理大小设置为128。单模态嵌入层网络结构采用2层LSTM网络，将融合特征编码器以及解码器部分LSTM层数分别设置为1、2、3层进行实验。

3.4.2 结果分析

在模型训练过程中，每隔50轮保存一次平均损失值，损失值下降曲线如图 9所示。可以看到，刚开始时损失值下降较明显，在2 200轮以后，损失值整体趋于稳定。

	Download: JPG larger image
图 9 训练损失值曲线 Fig. 9 Training loss value curve

为验证本文模型的有效性以及具体参数对模型的影响，在相同实验环境下对视频的静态帧特征$ {V}_{f} $、视频所携带音频的MFCC特征$ {V}_{\mathrm{a}\mathrm{u}\mathrm{d}\mathrm{i}\mathrm{o}} $分别在模态$ {V}_{f} $、双模态$ {V}_{f}+{V}_{\mathrm{a}\mathrm{u}\mathrm{d}\mathrm{i}\mathrm{o}} $下进行视频内容文本表述的训练，并在各模态组合的基础上，将单模态嵌入模块及编码器模块的LSTM网络层数分别设置为1、2、3层进行模型训练。模型在MSR-VTT数据集上的实验结果如表 1所示。可以看出，本文模型通过学习单模态信息的参数及融合互补模态的表征信息，各类指标均有所提升，这验证了不同模态信息间具有高度的相关性以及互补性。由表 1还可以看出，在固定LSTM层数时，在融合2D帧特征、音频的MFCC特征两种互补模态信息时模型评价得分最高。在固定模态时，当嵌入层、编码器2个模块中的LSTM层数为2时，实验效果最佳。在固定模态以及LSTM网络层数情况下，多模态融合方案采用协作表示方法训练得到的模型相较于采用协作表示方法得到的模型测试得分较高，这表明在视频内容文本表述中，采用协作表示方法进行模态信息融合效果较好。此外，表 1也验证了联合表示方法能够保留多个模态各自独立的表示空间，更适合仅有一个模态作为输入的应用，如跨模态检索、翻译等任务。而协作表示方法较注重捕捉多模态的互补性，通过融合多个输入模态x₁，x₂，…，x_m获得多模态表征X=f（x₁，x₂，…，x_m），更适合多模态作为输入的情况。

下载CSV 表 1 消融实验的结果对比 Table 1 Comparison of results of ablation experiments

本文模型首先对基于自注意力结构的嵌入层进行单模态相关参数学习，然后再通过协作表示方法进行多模态信息融合，融合后将其送入解码器。通过表 1的消融实验结果对比可以看出，相较于单模态及无嵌入层结构时的双模态情况，本文模型能够提升模型的性能，其评价指标相较于单模态模型的BLEU4、METEOR、ROUGEL和CIDEr分别提升了0.088、0.030、0.068、0.073。

本文分别与第2届MSR-VTT挑战赛中排名前5的模型，即参赛组织RUC & CMU、TJU、NII、Tongji University以及IIT DeIhi所发布模型，以及当前主流视频内容文本表述模型MPool、S2VT、TA、M3-Inv3、Shared Enc进行对比，结果分别如表 2和表 3所示。由表 2和表 3可知，本文模型相较于MSR-VTT挑战赛中IIT DeIhi发布的模型，评价指标BLEU4、METEOR、ROUGEL、CIDEr分别提升了0.082、0.037、0.115、0.257，相较于主流模型TA分别提升了0.101、0.034、0.135、0.113，这证明多种互补模态相互融合对视频内容文本表述性能的提升具有积极作用。

下载CSV 表 2 本文模型与第2届MSR-VTT挑战赛排名前5模型的结果对比 Table 2 Comparison between the results of model in this paper and the top 5 models in the 2nd MSR-VTT challenge

下载CSV 表 3 不同模型的结果对比 Table 3 Comparison of results of different models

此外，为验证本文模型的泛化性能，本文对比了不同模型在LSMDC数据集下的METEOR指标得分，结果如表 4所示。

下载CSV 表 4 不同模型在LSMDC数据集下的METEOR值对比 Table 4 Comparison of METEDR value of different models under LSMDC dataset

由表 4可知，相比当前主流视频内容文本表述模型frcnnBigger和rakshithShetty，本文模型的METEOR指标分别提升了0.018以及0.005，虽然相比最优模型EITanque得分稍有不足，但差距甚微。表 2~表 4的结果验证了本文模型在保持较好性能的基础上，在不同数据集下也具有较好的泛化性能。

综合以上实验结果可知，通过引入视频的多种模态信息，可以获得更互补、更多样化的表征信息，使模型具有更好的鲁棒性。此外，多模态信息对复杂类视频片段的文本生成也同样具有积极作用，究其原因是视频不同模态信息间具有高度的相关性和互补性。

图 10所示为本文模型在MSR-VTT数据集分割测试集的4个视频片段示例，本文模型对以上4个不同类别的视频片段进行文本生成，并挑选每个视频片段的前5个真实数据（Ground Truth，GT）进行对比，分别用GT0~GT4表示，结果如表 5所示。其中，本文模型输出的数据为生成数据。由表 5可知，本文模型所生成的视频文本内容丰富，且准确率更高，这验证了多种互补模态可以相互融合，提升模型性能。

	Download: JPG larger image
图 10 视频内容文本生成示例 Fig. 10 Example of video content text generation

下载CSV 表 5 本文模型对视频片段的文本生成结果对比 Table 5 Comparison of text generation results of video clips by model in this paper

4 结束语

本文提出一种将多模态融合与多层注意力相结合的视频内容文本表述模型，通过预训练模型提取视频所包含的静态帧及音频信息，利用自注意力模块的嵌入层进行单个模态的特征参数学习，以增强各模态间的互补性，为视频生成文本提供较为丰富、全面的表征信息，使模型生成的自然语言表达更加准确。在MSR-VTT及LSMDC数据集上的实验结果表明，本文模型相较于MPool、S2VT、TA等当前主流模型，在BLEU4、METEOR、ROUGEL、CIDEr这4个评价指标上的得分均有明显提升，生成的文本准确率更高。下一步将充分利用视频中对象与真实描述之间的对应关系及各种模态信息间的互补性，并结合注意力机制改进模型，使各种模态信息与文本信息对齐，在生成高质量文本的同时保证模型的轻量性。

参考文献

[1]	JI J Z, XU C, ZHANG X D, et al. Spatio-temporal memory attention for image captioning[J]. IEEE Transactions on Image Processing, 2020, 29: 7615-7628. DOI:10.1109/TIP.2020.3004729
[2]	YANG J C, WANG C G, JIANG B, et al. Visual perception enabled industry intelligence: state of the art, challenges and prospects[J]. IEEE Transactions on Industrial Informatics, 2021, 17(3): 2204-2219. DOI:10.1109/TII.2020.2998818
[3]	GUO W Y, ZHANG Y, YANG J F, et al. re-attention for visual question answering[J]. IEEE Transactions on Image Processing, 2021, 30: 6730-6743. DOI:10.1109/TIP.2021.3097180
[4]	LIU F L, WU X, GE S, et al. DiMBERT: learning vision-language grounded representations with disentangled multimodal-attention[J]. ACM Transactions on Knowledge Discovery from Data, 2022, 16(1): 1-19.
[5]	ZHANG L, HE Z W, YANG Y, et al. Tasks integrated networks: joint detection and retrieval for image search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 456-473. DOI:10.1109/TPAMI.2020.3009758
[6]	QIAO S S, WANG R P, SHAN S G, et al. Deep video code for efficient face video retrieval[J]. Pattern Recognition, 2021, 113: 107754-107762. DOI:10.1016/j.patcog.2020.107754
[7]	WU S M, WIELAND J, FARIVAR O, et al. Automatic alt-text: computer-generated image descriptions for blind users on a social network service[C]// Proceedings of 2017 ACM Conference on Computer Supported Cooperative Work and Social Computing. New York, USA: ACM Press, 2017: 1180-1192.
[8]	GUADARRAMA S, KRISHNAMOORTHY N, MALKARNENKAR G, et al. YouTube2Text: recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 2712-2719.
[9]	PEREZ-MARTIN J, BUSTOS B, REZ J. Improving video captioning with temporal composition of a visual-syntactic embedding[C]//Proceedings of IEEE Winter Conference on Applications of Computer Vision. Washington D. C., USA: IEEE Press, 2021: 3038-3048.
[10]	ZHU M J, DUAN C R, YU C B. Video captioning in compressed video[EB/OL]. [2021-10-09]. https://arxiv.org/abs/2101.00359.
[11]	SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1-9.
[12]	LI Y C, ZHOU R G, XU R Q, et al. A quantum deep convolutional neural network for image recognition[J]. Quantum Science and Technology, 2020, 5(4): 44003-44012. DOI:10.1088/2058-9565/ab9f93
[13]	PARK J, WOO S, LEE J Y, et al. A simple and light-weight attention module for convolutional neural networks[J]. International Journal of Computer Vision, 2020, 128(4): 783-798. DOI:10.1007/s11263-019-01283-0
[14]	YOUSUF H, LAHZI M, SALLOUM S A, et al. A systematic review on sequence-to-sequence learning with neural network and its models[J]. International Journal of Electrical and Computer Engineering, 2021, 11(3): 2315-2321.
[15]	OTTER D W, MEDINA J R, KALITA J K. A survey of the usages of deep learning for natural language processing[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(2): 604-624. DOI:10.1109/TNNLS.2020.2979670
[16]	XIAO J Q, ZHOU Z Y. Research progress of RNN language model[C]//Proceedings of IEEE International Conference on Artificial Intelligence and Computer Applications. Washington D. C., USA: IEEE Press, 2020: 1285-1288.
[17]	何俊, 张彩庆, 李小珍, 等. 面向深度学习的多模态融合技术研究综述[J]. 计算机工程, 2020, 46(5): 1-11. HE J, ZHANG C Q, LI X Z, et al. Survey of research on multimodal fusion technology for deep learning[J]. Computer Engineering, 2020, 46(5): 1-11. (in Chinese)
[18]	VENUGOPALAN S, XU H J, DONAHUE J, et al. Translating videos to natural language using deep recurrent neural networks[EB/OL]. [2021-10-09]. https://arxiv.org/abs/1412.4729.
[19]	DONG J F, LI X R, LAN W Y, et al. Early embedding and late reranking for video captioning[C]//Proceedings of the 24th ACM International Conference on Multimedia. Washington D. C., USA: IEEE Press, 2016: 1082-1086.
[20]	YAO L, TORABI A, CHO K, et al. Describing videos by exploiting temporal structure[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 4507-4515.
[21]	VENUGOPALAN S, ROHRBACH M, DONAHUE J, et al. Sequence to sequence—video to text[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2015: 4534-4542.
[22]	WANG J B, WANG W, HUANG Y, et al. M3: multimodal memory modelling for video captioning[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 7512-7520.
[23]	GAO L L, LI X P, SONG J K, et al. Hierarchical LSTMs with adaptive attention for visual captioning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(5): 1112-1131. DOI:10.1109/TPAMI.2019.2894139
[24]	WANG N W, LIU H Z, XU C. Deep learning for the detection of COVID-19 using transfer learning and model integration[C]//Proceedings of the 10th International Conference on Electronics Information and Emergency Communication. Washington D. C., USA: IEEE Press, 2020: 281-284.
[25]	GUO L T, LIU J, ZHU X X, et al. Normalized and geometry-aware self-attention network for image captioning[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 10324-10333.
[26]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[27]	单礼岩, 李新伟. 基于时空信息特征融合的视频指纹算法[J]. 计算机工程, 2019, 45(8): 260-265, 274. SHAN L Y, LI X W. Video fingerprinting algorithm based on temporal and spatial information feature fusion[J]. Computer Engineering, 2019, 45(8): 260-265, 274. (in Chinese)
[28]	HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//Proceedings of IEEE Transactions on Pattern Analysis and Machine Intelligence. Washington D. C., USA: IEEE Press, 2018: 2011-2023.
[29]	LIU Q, WANG C. Within-component and between-component multi-kernel discriminating correlation analysis for colour face recognition[J]. IET Computer Vision, 2017, 11(8): 663-674. DOI:10.1049/iet-cvi.2016.0294
[30]	ALBADR M A A, TIUN S, AYOB M, et al. Mel-frequency cepstral coefficient features based on standard deviation and principal component analysis for language identification systems[J]. Cognitive Computation, 2021, 13(5): 1136-1153. DOI:10.1007/s12559-021-09914-w
[31]	YANG N N, DEY N, SHERRATT R S, et al. Recognize basic emotional statesin speech by machine learning techniques using mel-frequency cepstral coefficient features[J]. Journal of Intelligent & Fuzzy Systems, 2020, 39(2): 1925-1936.
[32]	项要杰, 杨俊安, 李晋徽, 等. 一种适用于说话人识别的改进Mel滤波器[J]. 计算机工程, 2013, 39(11): 214-217, 222. XIANG Y J, YANG J A, LI J H, et al. An improved mel-frequency filter for speaker recognition[J]. Computer Engineering, 2013, 39(11): 214-217, 222. (in Chinese)
[33]	MORENCY L P, BALTRUŠAITIS T. Multimodal machine learning: integrating language, vision and speech[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2017: 3-5
[34]	XU J, MEI T, YAO T, et al. MSR-VTT: a large video description dataset for bridging video and language[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 5288-5296.
[35]	ROHRBACH A, ROHRBACH M, TANDON N, et al. A dataset for movie description[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 3202-3212.
[36]	HUANG Y F, SHIH L P, TSAI C H, et al. Describing video scenarios using deep learning techniques[J]. International Journal of Intelligent Systems, 2021, 36(6): 2465-2490.
[37]	VEDANTAM R, ZITNICK C L, PARIKH D. CIDEr: consensus-based image description evaluation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 4566-4575.
[38]	DENKOWSKI M, LAVIE A. Meteor universal: language specific translation evaluation for any target language[C]//Proceedings of the 9th Workshop on Statistical Machine Translation. Stroudsburg, USA: Association for Computational Linguistics, 2014: 376-380.
[39]	LIN C Y. Rouge: a package for automatic evaluation of summaries[EB/OL]. [2021-10-09]. https://www.researchgate.net/publication/224890821_ROUGE_A_Package_for_Automatic_Evaluation_of_summaries.
[40]	PAPINENI K, ROUKOS S, WARD T, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, USA: Association for Computational Linguistics, 2002: 311-318.
[41]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2021-10-09]. https://ui.adsabs.harvard.edu/abs/2014arXiv1412.6980K.
[42]	VENUGOPALAN S, XU H J, DONAHUE J, et al. Translating videos to natural language using deep recurrent neural networks[EB/OL]. [2021-10-09]. https://arxiv.org/abs/1412.4729.
[43]	WANG X, WU J W, CHEN J K, et al. VaTeX: a large-scale, high-quality multilingual dataset for video-and-language research[C]//Proceedings of IEEE/CVF International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2019: 4580-4590.