开放科学(资源服务)标志码(OSID):
视频插值技术是在序列中的实际帧之间合成中间帧,使得实际拍摄的视频帧满足高时间分辨率的要求。它作为计算机视觉任务的基础工作,已被广泛应用于包括帧速率转换、慢动作生成和新视图合成的各项衍生技术中。
在实际场景中,复杂运动、遮挡和光照变化情况下的视频帧很难以固定方式估计,而光流估计是通过光流逆向扭曲输入帧来计算中间帧,能够解决视频运动估计准确率低的问题。该方法依赖于光流估计的准确性,当估计不准确时,合成的中间帧容易出现伪影。文献[1]探究光流的变化,通过计算输入图像中的路径,将像素梯度沿路径复制到插值图像中,并进行泊松重建。文献[2]采用基于欧拉-相位方法进行插值,但该方法仅限于动作幅度小的运动。文献[3]将两个输入帧引入到卷积神经网络中,以合成中间帧,但图像出现了严重的模糊现象。文献[4]构建一种基于空间和时间上的3D深度体素流插值模型。该模型参数量较少且模糊度低。文献[5-6]提出使用空间自适应内核对输入帧进行卷积。这种模型合成的中间帧精度较高,但其按像素位的计算模式会带来较大的参数量和运算量,并且感受野受卷积核大小的限制。文献[7]扩展了自适应内核,同时估计卷积核权重和像素位置偏移量,扩大了卷积核的感受野区域。文献[8]通过双向光流估计扭曲输入帧,并使用深度网络处理遮挡效应,但对输入帧的质量要求很高。文献[9]将光流估计、视频插值方法、内容提取相结合,并检测深度信息以处理遮挡效应。这类模型依赖于卷积内核的局部特征,无法处理超出矩形内核区域中动作幅度较大的运动,且参数量较大使其不适用于在移动端的部署。
本文提出基于压缩与精化深度体素流的视频插值模型。通过对深度体素流模型进行预训练,利用稀疏压缩技术增大权重矩阵的稀疏度,同时计算卷积权重的稀疏度并得到对应卷积裁减后输入输出的通道数,构建精体素流网络,并对体素流进行精细化处理,从而提高中间帧质量。
1 网络构建本文模型的构建流程分为4个步骤:1)预训练深度体素流(Deep Voxel Flow,DVF)模型,使其具有较高质量的插值效果,并确定高精度参数;2)基于训练好的模型参数,利用稀疏压缩技术来增加权重矩阵的稀疏度,即为卷积权重设置
![]() |
Download:
|
图 1 本文模型的构建流程 Fig. 1 Construction procedure of the proposed model |
本文对深度体素流模型[4]进行预训练。深度体素流模型将前后输入帧(以
深度体素流模型预训练的目的是更新参数。在模型预训练过程中,本文采用深度体素流模型中的参数以及对应的损失函数进行训练。当模型性能稳定时,本文终止模型参数的更新,并保存最优迭代时的参数用于压缩,记预训练好的模型为
深度体素流模型的参数主要集中在U-Net网络的卷积核中,因此,本文对其通道数进行压缩[10]。压缩方法是在预训练模型的损失函数中增加卷积权重的
$ \underset{\theta }{\mathrm{m}\mathrm{i}\mathrm{n}}f\left(\theta \right|{\boldsymbol{D}}_{0})+\lambda {‖\theta ‖}_{1} $ | (1) |
其中:
本文在获得模型的稀疏参数解
![]() |
Download:
|
图 2 合成质量随稀疏度的变化曲线 Fig. 2 Variation curve of synthetic quality with sparsity |
模型参数压缩能够有效减少模型参数量和训练成本。而深度体素流模型难以保留图像的边缘细节信息,其原因为仅通过一个U-Net[16]网络计算体素流,未充分捕获运动的边缘信息。为解决该问题,本文提出由粗到精的体素流网络,通过对体素流进行精细化处理,以提升模型对边缘信息的捕获能力,从而提高中间帧的质量。
精化深度体素流模型架构如图 3所示,包括粗体素流网络、粗信息拼接、精体素流网络3个部分。网络以前后两帧作为输入,通过两层U-Net网络逐步提取精体素流,最后由精体素流插值合成中间帧。
![]() |
Download:
|
图 3 精化深度体素流模型架构 Fig. 3 Architecture of refined deep voxel flow model |
粗体素流网络取自裁剪卷积通道参数后深度体素流模型中的U-Net网络,具有较少的参数量和提取体素流的能力。U-Net网络结构如图 4所示,具体参数设置如表 1所示。
![]() |
Download:
|
图 4 U-Net网络结构 Fig. 4 U-Net network structure |
![]() |
下载CSV 表 1 U-Net网络参数设置 Table 1 Parameter settings of U-Net network |
U-Net网络是一个U型结构的编码器-解码器卷积网络。编码器采用金字塔模型对输入图片进行下采样,解码器同样采用金字塔模型进行上采样,并在编码器和解码器的对应层中添加跳跃连接。U-Net网络的最后一层是tanh函数,将体素流
在得到粗体素流后,本文采用深体素流模型的三线性插值方法合成粗中间帧
粗信息拼接的作用是整合粗粒度信息,并将其作为精提取的材料。这是由于精体素流网络需要额外的输入信息修正粗体素流,以捕获边缘信息。本文在通道维度上拼接前后输入帧、粗插值帧和粗体素流,以拼接后的信息作为精体素流网络的输入。粗体素流将调整前后输入帧与粗中间帧的边缘信息差异[17-18],至此,完成了体素流的粗提取流程。
1.4.3 精体素流网络精体素流网络用于处理粗信息拼接后的材料,并修正获得精体素流
在精体素流网络中,粗体素流捕获前后输入帧与粗插值帧的差异,并调整运动的边缘细节信息[19]。精体素流网络输出粗体素流的修正
本文构建完成精化体素流网络后,重新开始训练模型,给定前后输入帧
$ l={\lambda }_{r}{l}_{r}+{\lambda }_{r\mathrm{\text{'}}}{l}_{r\mathrm{\text{'}}}+{\lambda }_{p}{l}_{p}+{\lambda }_{s}{l}_{s} $ | (2) |
重构损失
$ {l}_{r}={‖{\boldsymbol{I}}_{t}-{\stackrel{-}{\boldsymbol{I}}}_{t}‖}_{2} $ | (3) |
这种重建损失定义在RGB空间中,其中像素值在[0, 255] 范围内浮动。
粗重构损失
$ {l}_{r\mathrm{\text{'}}}={‖{\boldsymbol{I}}_{t}-{\overline{\boldsymbol{I}\mathrm{\text{'}}}}_{t}‖}_{2} $ | (4) |
感知损失
$ {l}_{p}={‖\phi \left({\boldsymbol{I}}_{t}\right)-\phi \left({\stackrel{-}{\boldsymbol{I}}}_{\boldsymbol{t}}\right)‖}_{2} $ | (5) |
其中:
平滑损失
$ {l}_{s}={‖\nabla \overline{\boldsymbol{F}}‖}_{1} $ | (6) |
权重依据经验设置为
Vimeo 90K[21]是一个大规模、高质量的视频数据集。该数据集包含从vimeo.com下载的89 800个视频剪辑,其中涵盖各种场景和动作,并广泛应用于时间帧插值、视频去噪、视频解块和视频超分辨率重建领域中。
UCF101[22]数据集是由中央佛罗里达大学提供的开源数据集。数据集采集自YouTube网站,每个视频时长不等,主要包括人与物体交互、单纯的肢体动作、人与人交互、演奏乐器、体育运动五大类动作。
本文选用Vimeo 90K数据集进行模型预训练与训练,并在Vimeo 90K和UCF101数据集上进行测试。训练集与测试集划分比例为7∶3,并从UCF101数据集中随机选取1 000组数据进行测试。所有图像的尺寸均剪切为
本文实验操作系统环境为Ubuntu20.04.2 LTS,CPU型号为Inter®CoreTM i9-190900K,GPU型号为NVIDIA GeForce RTX 3090,GPU软件加速环境为CUDA11.1和CUDNN8.05,并通过Pytorch框架及Python3.7编程语言实现。
本文采用SDG优化算法训练网络,学习率初始设置为0.001。学习率调整策略采用阶梯法,共设置400个迭代次数epoch,下降间隔设置为100,学习率调整倍数
本文选取的基准深度学习模型主要有以下4个:1)SepConv模型,采用2个1D卷积核拟合1个2D卷积核的方式计算每一个像素的2D卷积核,以合成中间帧;2)DVF模型,通过卷积神经网络计算体素流,同时进行三次线性插值得到中间帧;3)Super SloMo模型,采用2个U-Net网络计算双向光流及遮挡掩码插值,以合成中间帧;4)CDFI模型,在自适应卷积AdaCoF基础上引入多尺度特征来改善合成的中间帧效果。
2.4 实验指标本文通过参数量来对比模型的复杂度,并使用PSNR和结构相似性(Structural Similarity,SSIM)评估合成帧质量。两类指标越高,合成质量越好。PSNR的计算如式(7)所示:
$ {P}_{\mathrm{P}\mathrm{S}\mathrm{N}\mathrm{R}}(\boldsymbol{X}, \boldsymbol{Y})=10\mathrm{l}\mathrm{g}\left(\frac{({2}^{n}{-1)}^{2}}{{M}_{\mathrm{M}\mathrm{S}\mathrm{E}}(\boldsymbol{X}, \boldsymbol{Y})}\right) $ | (7) |
其中:n为每一个像素的比特值,取值为8;MMSE为图像X和Y的均方误差。MMSE如式(8)所示:
$ {M}_{\mathrm{M}\mathrm{S}\mathrm{E}}(\boldsymbol{X}, \boldsymbol{Y})=\frac{1}{WH}\sum\limits _{i=1}^{W}\sum \limits_{j=1}^{H}({\boldsymbol{X}}_{ij}-{\boldsymbol{Y}}_{ij}) $ | (8) |
其中:
SSIM的计算如式(9)所示:
$ \begin{array}{l}{S}_{\mathrm{S}\mathrm{S}\mathrm{I}\mathrm{M}}(\boldsymbol{X}, \boldsymbol{Y})=L(\boldsymbol{X}, \boldsymbol{Y})\times C(\boldsymbol{X}, \boldsymbol{Y})\times S(\boldsymbol{X}, \boldsymbol{Y})\\ L(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\mu }_{\boldsymbol{X}}{\mu }_{\boldsymbol{Y}}+{C}_{1}}{{\mu }_{\boldsymbol{X}}^{2}+{\mu }_{\boldsymbol{Y}}^{2}+{C}_{1}}\\ C(\boldsymbol{X}, \boldsymbol{Y})=\frac{2{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{2}}{{\sigma }_{\boldsymbol{X}}^{2}+{\sigma }_{\boldsymbol{Y}}^{2}+{C}_{2}}\\ S(\boldsymbol{X}, \boldsymbol{Y})=\frac{{\sigma }_{\boldsymbol{X}\boldsymbol{Y}}+{C}_{3}}{{\sigma }_{\boldsymbol{X}}{\sigma }_{\boldsymbol{Y}}+{C}_{3}}\end{array} $ | (9) |
其中:
不同模型的评价指标如表 2所示。相比深度体素流模型(DVF),本文模型在UCF101数据集上PSNR和SSIM分别提高1.04 dB和0.004。因此,本文模型在参数量小幅增加的条件下能够有效提高合成精度。在Vimeo 90K数据集上,本文模型的PSNR、SSIM与DVF模型相比分别提高2.14 dB和0.026,表明粗体素流的修正能够有效提高合成精度。相比SepConv、Super SloMo模型,本文模型的评价指标均最优。虽然本文模型的PSNR略低于CDFI模型,但是本文模型具有较少的参数量。
![]() |
下载CSV 表 2 不同模型的评价指标对比 Table 2 Evaluation indexs comparison among different models |
为了定性观察合成中间帧的质量,不同模型的中间帧视觉对比如图 5所示,第二行是5种模型在方框区域内的局部放大图。从图 5可以看出,SepConv模型中间帧的右上方白点较模糊;Super SloMo、DVF、CDFI模型的中间帧在前弓处均有不同程度的模糊现象和结构缺失;本文模型不压缩时合成的中间帧合成的中间帧会出现严重的抖动现象。
![]() |
Download:
|
图 5 不同模型的中间帧视觉效果对比 Fig. 5 Intermediate frame visual effect comparison among different models |
本文提出一种压缩驱动的精化体素流视频插值模型,以解决边缘细节信息提取不充分、精度较低的问题。利用精体素流网络学习前后输入帧、粗插值帧、粗体素流的信息差异,以精化体素流,通过参数压缩技术裁减卷积层的通道数,在不增加参数量的同时以充分捕获视频的边缘信息。实验结果表明,相比DVF、SepConv、CDFI等模型,本文模型能有效提高合成的中间帧质量。下一步将通过结构重参数化技术改进本文模型,在保证轻量级的前提下,使其适用于多帧同时合成的场景。
[1] |
MAHAJAN D, HUANG F C, MATUSIK W, et al. Moving gradients: a path-based method for plausible image interpolation[J]. ACM Transactions on Graphics, 2009, 28(3): 42. DOI:10.1145/1531326.1531348 |
[2] |
MEYER S, WANG O, ZIMMER H, et al. Phase-based frame interpolation for video[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2015: 1410-1418.
|
[3] |
LONG G C, KNEIP L, ALVAREZ J M, et al. Learning image matching by simply watching video[C]//Proceedings of European Conference on Computer Vision. Berlin, Germany: Springer, 2016: 434-450.
|
[4] |
LIU Z W, YEH R A, TANG X O, et al. Video frame synthesis using deep voxel flow[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 4473-4481.
|
[5] |
NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive convolution[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2017: 2270-2279.
|
[6] |
NIKLAUS S, MAI L, LIU F. Video frame interpolation via adaptive separable convolution[C]//Proceedings of IEEE International Conference on Computer Vision. Washington D. C., USA: IEEE Press, 2017: 261-270.
|
[7] |
LEE H, KIM T, CHUNG T Y, et al. AdaCoF: adaptive collaboration of flows for video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 5315-5324.
|
[8] |
JIANG H Z, SUN D Q, JAMPANI V, et al. Super SloMo: high quality estimation of multiple intermediate frames for video interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 9000-9008.
|
[9] |
BAO W B, LAI W S, MA C, et al. Depth-aware video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2019: 3698-3707.
|
[10] |
CHEN T, DING T Y, JI B, et al. Orthant based proximal stochastic gradient method for l1-regularized optimization[C]//Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery. New York, USA: ACM Press, 2020: 1-10.
|
[11] |
DING T Y, LIANG L M, ZHU Z H, et al. CDFI: compression-driven network design for frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2021: 7997-8007.
|
[12] |
BUCILUǍ C, CARUANA R, NICULESCU-MIZIL A. Model compression[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press, 2006: 531-545.
|
[13] |
CHEN T Y, JI B, SHI Y X, et al. Neural network compression via sparse optimization[EB/OL]. [2021-08-27]. https://arxiv.org/abs/2011.04868v2.
|
[14] |
CHEN T Y, WANG G Y, DING T Y, et al. A half-space stochastic projected gradient method for group sparsity regularization [EB/OL]. [2021-08-27]. https://arxiv.org/abs/2009.12078v2.
|
[15] |
CHEN W L, WILSON J T, TYREE S, et al. Compressing neural networks with the hashing trick[C]//Proceedings of the 32nd International Conference on Machine Learning. New York, USA: ACM Press, 2015: 2285-2294.
|
[16] |
RONNEBERGER O. Invited talk: U-Net convolutional networks for biomedical image segmentation[C]//Proceedings of Medical Image Computing and Computer-assisted Intervention. Berlin, Germany: Springer, 2015: 234-241.
|
[17] |
SUN D Q, YANG X D, LIU M Y, et al. PWC-Net: CNNs for optical flow using pyramid, warping, and cost volume[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 8934-8943.
|
[18] |
NIKLAUS S, LIU F. Context-aware synthesis for video frame interpolation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2018: 1701-1710.
|
[19] |
GUI S R, WANG C Y, CHEN Q H, et al. FeatureFlow: robust video interpolation via structure-to-texture generation[C]//Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2020: 14001-14010.
|
[20] |
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington D. C., USA: IEEE Press, 2016: 770-778.
|
[21] |
SOOMRO K, ZAMIR A R, SHAN M. UCF101: a dataset of 101 human actions classes form videos in the wild [EB/OL]. [2021-08-27]. https://arxiv.org/pdf/1212.0402.pdf.
|
[22] |
XUE T F, CHEN B A, WU J J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125. DOI:10.1007/s11263-018-01144-2 |