基于压缩与精化深度体素流模型的视频插值

引用本文

茹妞妞, 于晋伟, 杨卫华, 等. 基于压缩与精化深度体素流模型的视频插值[J]. 计算机工程, 2022, 48(9), 248-253. DOI: 10.19678/j.issn.1000-3428.0062586.

RU Niuniu, YU Jinwei, YANG Weihua, et al. Video Interpolation Based on Compression and Refined Deep Voxel Flow Model[J]. Computer Engineering, 2022, 48(9), 248-253. DOI: 10.19678/j.issn.1000-3428.0062586.

基金项目

国家自然科学基金（11671296）

通信作者

杨卫华（通信作者），教授、博士

作者简介

茹妞妞（1996—），女，硕士研究生，主研方向为图像处理;
于晋伟，讲师、博士;
卞玮，硕士研究生

文章历史

收稿日期：2021-09-07
修回日期：2021-10-19

Contents Abstract Full text Figures/Tables PDF

基于压缩与精化深度体素流模型的视频插值

茹妞妞 , 于晋伟 , 杨卫华 , 卞玮

太原理工大学数学学院, 太原 030000

收稿日期：2021-09-07；修回日期：2021-10-19

基金项目：国家自然科学基金（11671296）

作者简介：茹妞妞（1996—），女，硕士研究生，主研方向为图像处理; 于晋伟，讲师、博士; 卞玮，硕士研究生.

通信作者：杨卫华（通信作者），教授、博士.

E-mail: 616233029@qq.com

摘要：视频插值是利用视频相邻帧的图像信息合成中间帧，可直接应用于慢动作视频回放、高频视频合成、动画制作等领域。现有基于深度体素流的视频插值模型存在合成精度低、参数量大的问题，限制其在移动端的部署应用。提出一种压缩驱动的精化深度体素流插值模型。通过预训练深度体素流模型提高视频的插值质量并确定高精度参数，利用稀疏压缩技术裁剪卷积通道数，以减少参数量并得到粗体素流，同时将输入视频帧、粗体素流和粗中间帧作为精体素流网络的输入，获得精体素流。在此基础上，通过三线性插值方法计算得到精中间帧，以增强模型对边缘信息的捕获能力，从而提高中间帧质量。在Vimeo 90K和UCF101数据集上的实验结果表明，相比DVF、SepConv、CDFI等模型，该模型的峰值信噪比和结构相似性分别平均提高1.59 dB和0.015，在保证参数量增幅较小的前提下，能够有效优化视频合成效果。

Video Interpolation Based on Compression and Refined Deep Voxel Flow Model

RU Niuniu , YU Jinwei , YANG Weihua , BIAN Wei

College of Mathematics, Taiyuan University of Technology, Taiyuan 030000, China

Abstract: Video interpolation refers to the synthesis of intermediate frames using the image information of adjacent frames in a video, which can be directly applied to slow motion video playback, high-frequency video synthesis, animation production, and other applications.The existing video interpolation model based on Deep Voxel Flow(DVF) has issues such as low accuracy and many parameters, which limit its deployment and application in mobile terminals.This study proposes a refinement of the DVF interpolation model based on compression.By pre-training the DVF model, the interpolation quality of the video can be improved and high-precision parameters can be determined.The number of convolution channels in the model is reduced using sparse compression technology to reduce the number of parameters and obtain the bold voxel flow.Furthermore, the input video frame, bold voxel flow, and rough intermediate frame are taken as input for the refined voxel flow network.On this basis, the fine intermediate frame is calculated by trilinear interpolation method to enhance the ability of the model to capture edge information and thereby improve the accuracy of the intermediate frame.The experimental test results obtained using Vimeo 90K and UCF101 datasets show that compared with the DVF, SepConv, CDFI, and other models, the proposed model has a higher peak signal-to-noise ratio and structural similarity 1.59 dB and 0.015, respectively.Thus, the proposed model effectively optimizes the video synthesis effect on the premise of ensuring a small increase in parameter volume.

开放科学（资源服务）标志码（OSID）：

0 概述

视频插值技术是在序列中的实际帧之间合成中间帧，使得实际拍摄的视频帧满足高时间分辨率的要求。它作为计算机视觉任务的基础工作，已被广泛应用于包括帧速率转换、慢动作生成和新视图合成的各项衍生技术中。

在实际场景中，复杂运动、遮挡和光照变化情况下的视频帧很难以固定方式估计，而光流估计是通过光流逆向扭曲输入帧来计算中间帧，能够解决视频运动估计准确率低的问题。该方法依赖于光流估计的准确性，当估计不准确时，合成的中间帧容易出现伪影。文献[1]探究光流的变化，通过计算输入图像中的路径，将像素梯度沿路径复制到插值图像中，并进行泊松重建。文献[2]采用基于欧拉-相位方法进行插值，但该方法仅限于动作幅度小的运动。文献[3]将两个输入帧引入到卷积神经网络中，以合成中间帧，但图像出现了严重的模糊现象。文献[4]构建一种基于空间和时间上的3D深度体素流插值模型。该模型参数量较少且模糊度低。文献[5-6]提出使用空间自适应内核对输入帧进行卷积。这种模型合成的中间帧精度较高，但其按像素位的计算模式会带来较大的参数量和运算量，并且感受野受卷积核大小的限制。文献[7]扩展了自适应内核，同时估计卷积核权重和像素位置偏移量，扩大了卷积核的感受野区域。文献[8]通过双向光流估计扭曲输入帧，并使用深度网络处理遮挡效应，但对输入帧的质量要求很高。文献[9]将光流估计、视频插值方法、内容提取相结合，并检测深度信息以处理遮挡效应。这类模型依赖于卷积内核的局部特征，无法处理超出矩形内核区域中动作幅度较大的运动，且参数量较大使其不适用于在移动端的部署。

本文提出基于压缩与精化深度体素流的视频插值模型。通过对深度体素流模型进行预训练，利用稀疏压缩技术增大权重矩阵的稀疏度，同时计算卷积权重的稀疏度并得到对应卷积裁减后输入输出的通道数，构建精体素流网络，并对体素流进行精细化处理，从而提高中间帧质量。

1 网络构建

本文模型的构建流程分为4个步骤：1）预训练深度体素流（Deep Voxel Flow，DVF）模型，使其具有较高质量的插值效果，并确定高精度参数；2）基于训练好的模型参数，利用稀疏压缩技术来增加权重矩阵的稀疏度，即为卷积权重设置$ {\mathcal{l}}_{1} $损失；3）计算卷积权重的稀疏度并求得对应卷积裁减后的输入输出通道数；4）在裁减后的体素流上增加精体素流模型，并重新训练新模型。本文模型的构建流程如图 1所示。

	Download: JPG larger image
图 1 本文模型的构建流程 Fig. 1 Construction procedure of the proposed model

1.1 模型预训练

本文对深度体素流模型^[4]进行预训练。深度体素流模型将前后输入帧（以$ {\boldsymbol{I}}_{0} $和$ {\boldsymbol{I}}_{1} $表示）输入到U-Net网络中，并输出3D体素流$ \boldsymbol{F}=(\mathrm{\Delta }\boldsymbol{x}, \mathrm{\Delta }\boldsymbol{y}, \mathrm{\Delta }\boldsymbol{t}) $。其中，$ \mathrm{\Delta }\boldsymbol{x}, \mathrm{\Delta }\boldsymbol{y}, \mathrm{\Delta }\boldsymbol{t} $分别为空间两个维度及时间维度的偏移量。利用3D体素流$ \boldsymbol{F} $的空间分量分别定义前后输入帧对应的位置坐标$ {\boldsymbol{L}}_{0}=(\boldsymbol{x}-\mathrm{\Delta }\boldsymbol{x}, \boldsymbol{y}-\mathrm{\Delta }\boldsymbol{y}) $，$ {\boldsymbol{L}}_{1}=(\boldsymbol{x}+\mathrm{\Delta }\boldsymbol{x}, \boldsymbol{y}+\mathrm{\Delta }\boldsymbol{y}) $，并将时间分量用于前后两帧图片的线性混合权重。在视频插值过程中，通过归一化双线性插值计算两帧图片$ {\boldsymbol{I}}_{0}, {\boldsymbol{I}}_{1} $对应位置$ {\boldsymbol{L}}_{0}, {\boldsymbol{L}}_{1} $上的像素值，并根据时间分量进行线性插值。该过程等价于三线性插值运算$ {T}_{\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{t}} $合成中间帧$ {\boldsymbol{I}}_{t} $的估计$ {\overline{\boldsymbol{I}}}_{t}={T}_{\boldsymbol{x}, \boldsymbol{y}, \boldsymbol{t}}\left(\right[{\boldsymbol{I}}_{0}, {\boldsymbol{I}}_{1}], \boldsymbol{F}) $。

深度体素流模型预训练的目的是更新参数。在模型预训练过程中，本文采用深度体素流模型中的参数以及对应的损失函数进行训练。当模型性能稳定时，本文终止模型参数的更新，并保存最优迭代时的参数用于压缩，记预训练好的模型为$ {\boldsymbol{D}}_{0} $。

1.2 稀疏化模型参数

深度体素流模型的参数主要集中在U-Net网络的卷积核中，因此，本文对其通道数进行压缩^[10]。压缩方法是在预训练模型的损失函数中增加卷积权重的$ {\mathcal{l}}_{1} $范数稀疏与正则化损失函数，解决最小化问题^[11]，如式（1）所示：

$ \underset{\theta }{\mathrm{m}\mathrm{i}\mathrm{n}}f\left(\theta \right|{\boldsymbol{D}}_{0})+\lambda {‖\theta ‖}_{1} $

(1)

其中：$ f\left(·\right) $为深度体素流模型的损失函数；$ \lambda > 0 $为正则化系数；$ \theta $为模型的参数。合理选择正则化系数可以有效提高稀疏度。本文采用基于正交的随机优化算法OBPROXSG^[12-13]来调节正则化系数$ \lambda $，与其他求解器相比，该算法能够有效增大稀疏度，并且小幅度地降低回归性能^[14]。在稀疏化过程中，如果稀疏度在4个迭代周期后不再下降，则认为稀疏度饱和并停止训练。

1.3 模型参数裁减

本文在获得模型的稀疏参数解$ \widehat{\theta } $后，根据稀疏度裁减模型$ {\boldsymbol{D}}_{0} $中的每层卷积参数^[15]。对于最后一层卷积层$ \mathrm{C}\mathrm{o}\mathrm{n}{\mathrm{v}}_{L} $，参数个数$ {K}_{L}:={C}_{L}^{\mathrm{i}\mathrm{n}}\times {C}_{L}^{\mathrm{o}\mathrm{u}\mathrm{t}}\times s\times s $。由压缩后的模型计算卷积权重的稀疏度$ {s}_{L} $，即零权重参数的占比，以及密度$ {d}_{L}=1-{s}_{L} $，将输入通道数裁减为$ \bar{C}_L^{\text {in }}:=\left\lfloor d_L \times C_L^{\text {in }}\right\rfloor $。根据卷积输入输出通道数的前后一致原则$ \bar{C}_L^{\text {in }}=\bar{C}_{L-1}^{\text {out }} $，并且以此类推到第一层卷积。因此，压缩步骤根据每个卷积层的密度比来裁剪内核通道数，以重新构建一个小网络，并从后到前进行。在压缩过程中，模型中间帧的质量随着总体密度的变化情况如图 2所示，折线上方为峰值信噪比（Peak Signal-to-Noise Ratio，PSNR），下方为密度率。从图 2可以看出，随着密度率的降低，合成质量会有小幅的降低，表明稀疏度的提高不会对模型的合成质量产生显著影响。

	Download: JPG larger image
图 2 合成质量随稀疏度的变化曲线 Fig. 2 Variation curve of synthetic quality with sparsity

1.4 精化深度体素流模型

模型参数压缩能够有效减少模型参数量和训练成本。而深度体素流模型难以保留图像的边缘细节信息，其原因为仅通过一个U-Net^[16]网络计算体素流，未充分捕获运动的边缘信息。为解决该问题，本文提出由粗到精的体素流网络，通过对体素流进行精细化处理，以提升模型对边缘信息的捕获能力，从而提高中间帧的质量。

精化深度体素流模型架构如图 3所示，包括粗体素流网络、粗信息拼接、精体素流网络3个部分。网络以前后两帧作为输入，通过两层U-Net网络逐步提取精体素流，最后由精体素流插值合成中间帧。

	Download: JPG larger image
图 3 精化深度体素流模型架构 Fig. 3 Architecture of refined deep voxel flow model

1.4.1 粗体素流网络

粗体素流网络取自裁剪卷积通道参数后深度体素流模型中的U-Net网络，具有较少的参数量和提取体素流的能力。U-Net网络结构如图 4所示，具体参数设置如表 1所示。

	Download: JPG larger image
图 4 U-Net网络结构 Fig. 4 U-Net network structure

下载CSV 表 1 U-Net网络参数设置 Table 1 Parameter settings of U-Net network

U-Net网络是一个U型结构的编码器-解码器卷积网络。编码器采用金字塔模型对输入图片进行下采样，解码器同样采用金字塔模型进行上采样，并在编码器和解码器的对应层中添加跳跃连接。U-Net网络的最后一层是tanh函数，将体素流$ \boldsymbol{F} $的三个成分规范化到-1~1，便于三线性插值处理。本文选取最大池化进行双线性上采样，以避免产生棋盘状伪影。模型的前后输入帧经过粗体素流U-Net网络得到初步的体素流，并将其称为粗体素流$ \boldsymbol{F}\text{'} $。粗体素流$ \boldsymbol{F}\text{'} $将在之后模型中进行修正，得到精体素流$ \stackrel{-}{\boldsymbol{F}} $。

在得到粗体素流后，本文采用深体素流模型的三线性插值方法合成粗中间帧$ {\overline{\boldsymbol{I}\mathrm{\text{'}}}}_{t} $。其目的在于为精化体素流网络提供训练的原材料。与文献[8]的方法不同，本文未选取在前后两帧上的双线性插值图像作为训练原材料，其原因为以下3个方面：1）粗中间帧使用了空间偏移量，具有约束体素流中空间成分的可能性；2）粗中间帧可通过均方误差确保初步生成质量；3）输入精体素流网络的维度（3维）低于采用两张插值图片的维度（6维），能够减少后续卷积层输入的通道数和参数量。

1.4.2 粗信息拼接

粗信息拼接的作用是整合粗粒度信息，并将其作为精提取的材料。这是由于精体素流网络需要额外的输入信息修正粗体素流，以捕获边缘信息。本文在通道维度上拼接前后输入帧、粗插值帧和粗体素流，以拼接后的信息作为精体素流网络的输入。粗体素流将调整前后输入帧与粗中间帧的边缘信息差异^[17-18]，至此，完成了体素流的粗提取流程。

1.4.3 精体素流网络

精体素流网络用于处理粗信息拼接后的材料，并修正获得精体素流$ \stackrel{-}{\boldsymbol{F}} $。精体素流网络采用与粗体素流网络中卷积通道数相同的U-Net网络，但不共享卷积权重参数。这样的选取不会大幅增加模型的参数量，使得模型具有轻量级。此外，在精体素流网络的编码器中，在第一个卷积层中使用7×7卷积核，其余部分和解码器的超参数设置与粗体素流网络相同。

在精体素流网络中，粗体素流捕获前后输入帧与粗插值帧的差异，并调整运动的边缘细节信息^[19]。精体素流网络输出粗体素流的修正$ \boldsymbol{\zeta } $，即增加跳跃连接^[20]使得$ \stackrel{-}{\boldsymbol{F}}=\left(\boldsymbol{F}+\boldsymbol{\zeta }\right)/2 $，以提高模型精度。基于精体素流$ \stackrel{-}{\boldsymbol{F}} $对前后输入帧进行三线性插值，以得到精中间帧$ \overline{{\boldsymbol{I}}_{t}} $。

1.5 网络训练

本文构建完成精化体素流网络后，重新开始训练模型，给定前后输入帧$ {\boldsymbol{I}}_{0} $和$ {\boldsymbol{I}}_{1} $，以及真实中间帧$ {\boldsymbol{I}}_{t} $。本文选取的损失函数$ l $是四项的线性组合，如式（2）所示：

$ l={\lambda }_{r}{l}_{r}+{\lambda }_{r\mathrm{\text{'}}}{l}_{r\mathrm{\text{'}}}+{\lambda }_{p}{l}_{p}+{\lambda }_{s}{l}_{s} $

(2)

重构损失$ {l}_{r} $模拟合成中间帧的重建度，如式（3）所示：

$ {l}_{r}={‖{\boldsymbol{I}}_{t}-{\stackrel{-}{\boldsymbol{I}}}_{t}‖}_{2} $

(3)

这种重建损失定义在RGB空间中，其中像素值在[0, 255] 范围内浮动。

粗重构损失$ {\lambda }_{r\mathrm{\text{'}}} $约束粗体素流的网络重构效果，确保粗体素流空间、时间成分的正确性以及初步的重构效果。粗重构损失$ {\lambda }_{r\mathrm{\text{'}}} $如式（4）所示：

$ {l}_{r\mathrm{\text{'}}}={‖{\boldsymbol{I}}_{t}-{\overline{\boldsymbol{I}\mathrm{\text{'}}}}_{t}‖}_{2} $

(4)

感知损失$ {l}_{p} $保持预测帧的细节信息和锐度，缓解合成的中间帧模糊现象的发生。感知损失$ {l}_{p} $如式（5）所示：

$ {l}_{p}={‖\phi \left({\boldsymbol{I}}_{t}\right)-\phi \left({\stackrel{-}{\boldsymbol{I}}}_{\boldsymbol{t}}\right)‖}_{2} $

(5)

其中：$ \phi \left(·\right) $为ImageNet预训练VGG16模型的Conv4_3的特征。

平滑损失$ {l}_{s} $均化相邻体素流的变化率，使得相邻像素具有相似的体素流值。平滑损失$ {l}_{s} $如式（6）所示：

$ {l}_{s}={‖\nabla \overline{\boldsymbol{F}}‖}_{1} $

(6)

权重依据经验设置为$ {\lambda }_{r}=102 $，$ {\lambda }_{r\mathrm{\text{'}}}=51 $，$ {\lambda }_{p}=0.05 $，$ {\lambda }_{s}=0.1 $。其中$ {\lambda }_{r}/{\lambda }_{{r}^{\text{'}}}=2 $，使得网络训练能够降低重建损失，以达到精化体素流的目的。

2 实验与结果分析 2.1 实验数据集与预处理

Vimeo 90K^[21]是一个大规模、高质量的视频数据集。该数据集包含从vimeo.com下载的89 800个视频剪辑，其中涵盖各种场景和动作，并广泛应用于时间帧插值、视频去噪、视频解块和视频超分辨率重建领域中。

UCF101^[22]数据集是由中央佛罗里达大学提供的开源数据集。数据集采集自YouTube网站，每个视频时长不等，主要包括人与物体交互、单纯的肢体动作、人与人交互、演奏乐器、体育运动五大类动作。

本文选用Vimeo 90K数据集进行模型预训练与训练，并在Vimeo 90K和UCF101数据集上进行测试。训练集与测试集划分比例为7∶3，并从UCF101数据集中随机选取1 000组数据进行测试。所有图像的尺寸均剪切为$ 256\times 256 $像素。在训练前，本文对数据集中的图像随机进行数据增强，包括翻转、剪切、旋转、模糊和平移。

2.2 实验配置

本文实验操作系统环境为Ubuntu20.04.2 LTS，CPU型号为Inter^®Core^TM i9-190900K，GPU型号为NVIDIA GeForce RTX 3090，GPU软件加速环境为CUDA11.1和CUDNN8.05，并通过Pytorch框架及Python3.7编程语言实现。

本文采用SDG优化算法训练网络，学习率初始设置为0.001。学习率调整策略采用阶梯法，共设置400个迭代次数epoch，下降间隔设置为100，学习率调整倍数$ \gamma $设置为0.1。

2.3 实验基准模型

本文选取的基准深度学习模型主要有以下4个：1）SepConv模型，采用2个1D卷积核拟合1个2D卷积核的方式计算每一个像素的2D卷积核，以合成中间帧；2）DVF模型，通过卷积神经网络计算体素流，同时进行三次线性插值得到中间帧；3）Super SloMo模型，采用2个U-Net网络计算双向光流及遮挡掩码插值，以合成中间帧；4）CDFI模型，在自适应卷积AdaCoF基础上引入多尺度特征来改善合成的中间帧效果。

2.4 实验指标

本文通过参数量来对比模型的复杂度，并使用PSNR和结构相似性（Structural Similarity，SSIM）评估合成帧质量。两类指标越高，合成质量越好。PSNR的计算如式（7）所示：

$ {P}_{\mathrm{P}\mathrm{S}\mathrm{N}\mathrm{R}}(\boldsymbol{X}, \boldsymbol{Y})=10\mathrm{l}\mathrm{g}\left(\frac{({2}^{n}{-1)}^{2}}{{M}_{\mathrm{M}\mathrm{S}\mathrm{E}}(\boldsymbol{X}, \boldsymbol{Y})}\right) $

(7)

其中：n为每一个像素的比特值，取值为8；M_MSE为图像X和Y的均方误差。M_MSE如式（8）所示：

$ {M}_{\mathrm{M}\mathrm{S}\mathrm{E}}(\boldsymbol{X}, \boldsymbol{Y})=\frac{1}{WH}\sum\limits _{i=1}^{W}\sum \limits_{j=1}^{H}({\boldsymbol{X}}_{ij}-{\boldsymbol{Y}}_{ij}) $

(8)

其中：$ W $和$ H $分别为图像的宽和高。

SSIM的计算如式（9）所示：

$ \begin{array}{l}{S}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}(\boldsymbol{X}, \boldsymbol{Y})=L(\boldsymbol{X}, \boldsymbol{Y})\times C(\boldsymbol{X}, \boldsymbol{Y})\times S(\boldsymbol{X}, \boldsymbol{Y})\\ L(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\mu }_{\boldsymbol{X}}{\mu }_{\boldsymbol{Y}}+{C}_{1}}{{\mu }_{\boldsymbol{X}}^{2}+{\mu }_{\boldsymbol{Y}}^{2}+{C}_{1}}\\ C(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{2}}{{\sigma }_{\boldsymbol{X}}^{2}+{\sigma }_{\boldsymbol{Y}}^{2}+{C}_{2}}\\ S(\boldsymbol{X}, \boldsymbol{Y})=\frac{{\sigma }_{\boldsymbol{X}\boldsymbol{Y}}+{C}_{3}}{{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{3}}\end{array} $

(9)

其中：$ {\mu }_{\boldsymbol{X}} $（或$ {\mu }_{\boldsymbol{Y}} $）、$ {\sigma }_{\boldsymbol{X}} $（或$ {\sigma }_{\boldsymbol{Y}} $）、$ {{\sigma }_{\boldsymbol{X}}}^{2} $（或$ {{\sigma }_{\boldsymbol{Y}}}^{2} $）和$ {\sigma }_{\boldsymbol{X}\boldsymbol{Y}} $分别为图像$ \boldsymbol{X} $或$ \boldsymbol{Y} $的期望值、标准差、方差和协方差；$ {C}_{1} $、$ {C}_{2} $和$ {C}_{3} $为常数。

2.5 性能评估 2.5.1 定量评估

不同模型的评价指标如表 2所示。相比深度体素流模型（DVF），本文模型在UCF101数据集上PSNR和SSIM分别提高1.04 dB和0.004。因此，本文模型在参数量小幅增加的条件下能够有效提高合成精度。在Vimeo 90K数据集上，本文模型的PSNR、SSIM与DVF模型相比分别提高2.14 dB和0.026，表明粗体素流的修正能够有效提高合成精度。相比SepConv、Super SloMo模型，本文模型的评价指标均最优。虽然本文模型的PSNR略低于CDFI模型，但是本文模型具有较少的参数量。

下载CSV 表 2 不同模型的评价指标对比 Table 2 Evaluation indexs comparison among different models

2.5.2 定性评估

为了定性观察合成中间帧的质量，不同模型的中间帧视觉对比如图 5所示，第二行是5种模型在方框区域内的局部放大图。从图 5可以看出，SepConv模型中间帧的右上方白点较模糊；Super SloMo、DVF、CDFI模型的中间帧在前弓处均有不同程度的模糊现象和结构缺失；本文模型不压缩时合成的中间帧合成的中间帧会出现严重的抖动现象。

	Download: JPG larger image
图 5 不同模型的中间帧视觉效果对比 Fig. 5 Intermediate frame visual effect comparison among different models

3 结束语

本文提出一种压缩驱动的精化体素流视频插值模型，以解决边缘细节信息提取不充分、精度较低的问题。利用精体素流网络学习前后输入帧、粗插值帧、粗体素流的信息差异，以精化体素流，通过参数压缩技术裁减卷积层的通道数，在不增加参数量的同时以充分捕获视频的边缘信息。实验结果表明，相比DVF、SepConv、CDFI等模型，本文模型能有效提高合成的中间帧质量。下一步将通过结构重参数化技术改进本文模型，在保证轻量级的前提下，使其适用于多帧同时合成的场景。

参考文献

[1]	MAHAJAN D, HUANG F C, MATUSIK W, et al. Moving gradients: a path-based method for plausible image interpolation[J]. ACM Transactions on Graphics, 2009, 28(3): 42. DOI:10.1145/1531326.1531348
[2]	MEYER S, WANG O, ZIMMER H, et al. Phase-based frame interpolation for video[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1410-1418.
[3]	LONG G C, KNEIP L, ALVAREZ J M, et al. Learning image matching by simply watching video[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 434-450.
[4]	LIU Z W, YEH R A, TANG X O, et al. Video frame synthesis using deep voxel flow[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 4473-4481.
[5]	NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive convolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2270-2279.
[6]	NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive separable convolution[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 261-270.
[7]	LEE H, KIM T, CHUNG T Y, et al. AdaCoF: adaptive collaboration of flows for video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5315-5324.
[8]	JIANG H Z, SUN D Q, JAMPANI V, et al. Super SloMo: high quality estimation of multiple intermediate frames for video interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 9000-9008.
[9]	BAO W B, LAI W S, MA C, et al. Depth-aware video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3698-3707.
[10]	CHEN T, DING T Y, JI B, et al. Orthant based proximal stochastic gradient method for l1-regularized optimization[C]//Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery. New York, USA: ACM Press, 2020: 1-10.
[11]	DING T Y, LIANG L M, ZHU Z H, et al. CDFI: compression-driven network design for frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 7997-8007.
[12]	BUCILUǍ C, CARUANA R, NICULESCU-MIZIL A. Model compression[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2006: 531-545.
[13]	CHEN T Y, JI B, SHI Y X, et al. Neural network compression via sparse optimization[EB/OL]. [2021-08-27]. https://arxiv.org/abs/2011.04868v2.
[14]	CHEN T Y, WANG G Y, DING T Y, et al. A half-space stochastic projected gradient method for group sparsity regularization [EB/OL]. [2021-08-27]. https://arxiv.org/abs/2009.12078v2.
[15]	CHEN W L, WILSON J T, TYREE S, et al. Compressing neural networks with the hashing trick[C]//Proceedings of the 32nd International Conference on Machine Learning. New York, USA: ACM Press, 2015: 2285-2294.
[16]	RONNEBERGER O. Invited talk: U-Net convolutional networks for biomedical image segmentation[C]//Proceedings of Medical Image Computing and Computer-assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
[17]	SUN D Q, YANG X D, LIU M Y, et al. PWC-Net: CNNs for optical flow using pyramid, warping, and cost volume[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8934-8943.
[18]	NIKLAUS S, LIU F. Context-aware synthesis for video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 1701-1710.
[19]	GUI S R, WANG C Y, CHEN Q H, et al. FeatureFlow: robust video interpolation via structure-to-texture generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 14001-14010.
[20]	HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
[21]	SOOMRO K, ZAMIR A R, SHAN M. UCF101: a dataset of 101 human actions classes form videos in the wild [EB/OL]. [2021-08-27]. https://arxiv.org/pdf/1212.0402.pdf.
[22]	XUE T F, CHEN B A, WU J J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125. DOI:10.1007/s11263-018-01144-2