«上一篇 下一篇»
  计算机工程  2022, Vol. 48 Issue (9): 180-188  DOI: 10.19678/j.issn.1000-3428.0064490
0

引用本文  

马亚彤, 王松, 刘英芳. 融合多模态数据的人体动作识别方法研究[J]. 计算机工程, 2022, 48(9), 180-188. DOI: 10.19678/j.issn.1000-3428.0064490.
MA Yatong, WANG Song, LIU Yingfang. Research on Human Action Recognition Method by Fusing Multimodal Data[J]. Computer Engineering, 2022, 48(9), 180-188. DOI: 10.19678/j.issn.1000-3428.0064490.

基金项目

国家自然科学基金(62067006);甘肃省自然科学基金(21JR7RA291);甘肃省教育科技创新项目(2021jyjbgs-05);甘肃省高校产业支撑计划项目(2020C-19)

通信作者

王松(通信作者),副教授、博士

作者简介

马亚彤(1997—),男,硕士研究生,主研方向为计算机视觉、人体动作识别;
刘英芳,硕士研究生

文章历史

收稿日期:2022-04-18
修回日期:2022-05-29
融合多模态数据的人体动作识别方法研究
马亚彤1 , 王松1,2 , 刘英芳1     
1. 兰州交通大学 电子与信息工程学院,兰州 730070;
2. 甘肃省人工智能与图形图像处理工程研究中心,兰州 730070
摘要:基于多模态融合的人体动作识别技术被广泛研究与应用,其中基于特征级或决策级的融合是在单一级别阶段下进行的,无法将真正的语义信息从数据映射到分类器。提出一种多级多模态融合的人体动作识别方法,使其更适应实际的应用场景。在输入端将深度数据转换为深度运动投影图,并将惯性数据转换成信号图像,通过局部三值模式分别对深度运动图和信号图像进行处理,使每个输入模态进一步转化为多模态。将所有的模态通过卷积神经网络训练进行提取特征,并把提取到的特征通过判别相关分析进行特征级融合。利用判别相关分析最大限度地提高两个特征集中对应特征的相关性,同时消除每个特征集中不同类之间的特征相关性,将融合后的特征作为多类支持向量机的输入进行人体动作识别。在UTD-MHAD和UTD Kinect V2 MHAD两个多模态数据集上的实验结果表明,多级多模态融合框架在两个数据集上的识别精度分别达到99.8%和99.9%,具有较高的识别准确率
关键词人体动作识别    深度运动图    惯性传感器    局部三值模式    判别相关分析    
Research on Human Action Recognition Method by Fusing Multimodal Data
MA Yatong1 , WANG Song1,2 , LIU Yingfang1     
1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China;
2. Gansu Provincial Engineering Research Center for Artificial Intelligence and Graphic and Imaging Processing, Lanzhou 730070, China
Abstract: Human action recognition technology based on multimodal fusion has been widely investigated.In this technology, feature-level or decision-level fusion is performed at a single level or stage, where actual semantic information from data cannot be mapped for classification.Hence, this paper proposes a multilevel multimodal fusion human action recognition method that is adaptable to practical application scenarios.First, depth data are converted into Depth Motion Maps(DMM), and the inertial data into signal images at the input end.Subsequently, each input mode is rendered multimodal by processing the depth motion maps and signal image via the Local Ternary Patterns(LTP) mode.Next, all the modalities are trained to extract features by a convolutional neural network, and the extracted features are fused at the feature level via Discriminant Correlation Analysis(DCA), which maximizes the correlation of corresponding features in two feature sets while eliminating feature correlation between different classes in each feature set.Finally, the fused features are used as input to a multiclass support vector machine for human action recognition.Experiments are conducted on two multimodal datasets, UTD-MHAD and UTD Kinect V2 MHAD.The experimental results show that the recognition accuracy of the proposed multilevel multimodal fusion framework is 99.8% and 99.9% on the abovementioned two datasets, respectively, both of which signify high recognition accuracy.
Key words: human action recognition    Depth Motion Maps(DMM)    inertial sensor    Local Ternary Patterns(LTP)    Discriminant Correlation Analysis(DCA)    

开放科学(资源服务)标志码(OSID):

0 概述

人体动作识别是指根据传感器捕获的行为数据识别人类执行的动作[1]。人体动作识别技术被广泛应用于各个领域,主要包括监控、视频分析、辅助生活、机器人技术、远程医疗和人机交互,同时它也是健身训练和康复医疗的一部分[2]

早期的人体动作识别研究的数据主要采用RGB摄像机、Kinect传感器和可穿戴惯性传感器等单模态传感器收集。其中,利用传统的RGB摄像机获取2D图像,对光照条件、复杂的背景和部分遮挡等影响因素非常敏感,并且RGB摄像机获取的2D图像包含被拍摄者大量的隐私信息。与RGB相机相比,深度传感器提供了3D动作数据,在采集时对光线变化和照明程度不太敏感,所需的资源较少,并且可以很好地保护被监视人员的隐私信息,如室内监控系统,保护隐私信息是一个需要考虑的问题。但是,在深度图像的采集过程中,如视点变化、噪声等都对采集结果存在一定影响[3],而这些缺点可以在多模态人体动作识别中通过使用可穿戴惯性传感器采集的数据来解决。可穿戴惯性传感器的主要部件包括加速度计和陀螺仪,主要用于提供加速度信号数据和角速度信号数据。与深度传感器类似,可穿戴惯性传感器以高采样率的形式提供3D动作数据,可以在环境复杂的条件下工作,其局限性主要是传感器采集数据的漂移[4]。因此,单一传感器模式很难满足实际应用需求。

针对单模态存在RGB图像遮挡、深度传感器环境噪声、可穿戴传感器数据漂移等问题,本文提出一种基于深度和惯性传感器的多级多模态融合的人体动作识别框架,从不同模态中获取互补信息,找到不同模态的最佳融合阶段。在此基础上,采用特征级融合,在每个模态中分别增加一个附加模态提取互补特征,来弥补两种类型传感器的不足,以准确地执行分类任务,从而提高人体动作识别的性能。

1 相关工作

为满足人体动作识别在实际应用场景中的要求,提高人体动作识别效率,国内外学者聚焦于多模态感知融合,通过对两种或两种以上的不同传感器模式进行融合,以达到提高识别率的目的。

CHEN等[2, 5-6]提出基于深度相机和惯性传感器两种不同模态传感器的融合方法,并采用协同表示分类器对特征级融合和决策级融合进行了研究。DAWAR等[7-9]提出一种基于卷积神经网络的传感器融合系统,从连续动作流中检测和识别感兴趣的动作,最后使用决策级融合实现动作识别。LIU等[10]在隐马尔科夫模型框架内融合惯性传感器和视觉传感器的数据,提高手势识别的准确性。TU等[11]提出一种新颖的基于人类相关区域的多流卷积神经网络,其中通过改进前景检测,可以在现实情况下稳健地检测与演员的外观和运动相对应的感兴趣区域。HWANG等[12]利用单个固定摄像机的RGB图像和单个手腕惯性传感器获取的数据进行传感器与人体动作识别的融合,通过这两种不同信息的互补,弥补基于RGB和基于惯性传感器的人体动作识别方法的不足。KAMEL等[13]在3个卷积神经网络通道分别使用深度运动图像、深度运动图像和关节点、仅使用关节点进行训练,并将3个通道生成的动作预测相融合用于最终的动作分类。LI等[14]实现了在不同传感器采集的实验数据中提取特征信息融合,指出使用单个传感器的性能限制,并且通过组合异构传感器的信息提高系统的整体性能。

多模态融合的方法主要是对模型的数据级(原始级)、特征级和决策级(评分级)之间进行模态的融合[15]。数据级的缺点是对传感器提供的数据未进行任何处理即组合到一起;决策级的缺点是需要多个分类器来训练和测试多个模态,且决策级所需的相关数据不能在早期阶段进行组合。由于特征级包含了比数据级或分类器输出的决策级更丰富的输入特征信息,因此特征级的模型融合效果更好。同时,特征级融合了从模式中收集和集成相关的并发信息,而这些信息是分类器做出正确决策所必须的。AHMAD等[16-17]在提出的深度多模态融合框架上通过训练深度和信号图像,将提取的特征相融合形成共享的特征层,将这些特征反馈给分类器,并利用多级融合的优势提高人体动作识别的精度。EHATISHAM等[18]提出一种基于特征级融合的人体动作识别方法,该方法利用视觉和惯性两种不同感知方式的数据,采用有监督的机器学习方法,融合从单个感知模式中提取的特征来识别动作。RADU等[19]采用深度学习算法来解释多传感器系统捕获用户活动的上下文的优点。

2 多模态融合框架

本文提出的多模态网络融合框架是建立在仅通过卷积神经网络处理的单模态模型上,利用残差网络充当特征提取器,执行两阶段的特征拼接,最后进行基于判别相关分析[20](Discriminant Correlation Analysis,DCA)的多级特征融合。多模态融合框架如图 1所示。ResNet101从深度运动投影图[21](Depth Motion Maps,DMM)和经过局部三值模式[22](Local Ternary Patterns,LTP)处理过的深度运动投影图中提取特征。同理,ResNet101从信号图像和经过LTP处理过的信号图像中提取特征,分别对提取到的特征进行特征级联。然后将特征级联得到的两个特征进行基于DCA的融合,并与简单的特征向量拼接相比,DCA将会产生高度区分的特征。最后将该特征向量作为支持向量机(Support Vector Machine,SVM)的输入,以实现对人体动作识别的研究。

Download:
图 1 多级多模态融合框架 Fig. 1 Multi-level multimodal fusion framework
2.1 信号图像

可穿戴惯性传感器中的惯性测量单元为加速度计和陀螺仪,用来测量加速度信号和角速度信号。加速度计和陀螺仪的组合比单独使用加速度计能获得更好的结果[23]。惯性传感器以多变量的时间序列生成数据。在UTD-MHAD中有6个信号序列,图 2所示为角速度信号和加速度信号,其中,G-X、G-Y、G-Z分别表示X、Y、Z的角速度,A-X、A-Y、A-Z分别表示X、Y、Z的加速度。

Download:
图 2 三轴加速度信号和三轴角速度信号 Fig. 2 Tri-axis acceleration and tri-axis angular velocity signals

在文献[23]算法的基础上,本文将可穿戴惯性传感器采集到的6个信号序列逐行堆叠以形成信号图像。在形成的信号图像中,任何一个信号序列都与其他5个信号序列相邻,使残差网络可以提取各个相邻信号序列之间的隐藏相关性,并且可以充分利用各个信号序列之间的时间相关性。其中,6个信号序列的行堆叠顺序为:123456135246141525364326。

在上述堆叠顺序中,数字1~6表示原始信号中对应的6个序列号。序列号的顺序表明每个序列都和其他序列相邻以形成信号图像,每个信号在修改后的信号图像中出现4次,所以信号图像的最终宽度是24。

信号图像的长度通过数据集中信号数据的采样率确定,而数据的采样率为50 Hz。为保证能够准确捕捉信号图像的运动,本文将信号图像的长度确定为50,则最终确定的信号图像的大小为24×50像素。图 3所示分别对应不同动作的信号图像,每一个类别的信号图像都不同于其他类别的信号图像,这些图像中的视觉差异表明卷积神经网络可能提取有区别的图像特征进行人体动作识别。

Download:
图 3 不同动作的信号图像 Fig. 3 Signal images of different actions
2.2 深度运动投影图

人体动作视图中的深度视频是一组深度图像序列,包含了相当丰富的时空信息。根据深度视频序列对人体动作进行识别,不仅要考虑人体动作在每一时刻的信息,还要考虑人体动作的累加效果的影响。深度图像用来捕捉人体的三维结构信息,使用DMM表达人体动作的几何形状和特点。YANG等[24]提出的深度序列图像投影到3个正交笛卡尔平面上,用于表示人体动作的运动过程。本文计算的DMM为两个连续帧之间的差值,对于具有N帧的深度视频序列由式(1)计算获得$ {D}_{v}^{\mathrm{D}\mathrm{M}\mathrm{M}} $

$ {D}_{v}^{\mathrm{D}\mathrm{M}\mathrm{M}}=\sum\limits_{i=1}^{N}\left|\mathrm{m}\mathrm{a}{\mathrm{p}}_{v}^{i}-\mathrm{m}\mathrm{a}{\mathrm{p}}_{v}^{i-1}\right| $ (1)

其中:$ i $表示每一帧图像的索引;$ \mathrm{m}\mathrm{a}{\mathrm{p}}_{v}^{i} $表示第$ i $帧人体动作图像在平面$ v $下的投影图,$ v\in \left\{f, s, t\right\} $$ f $$ s $$ t $分别表示正面、侧面和水平投影图。

本文实验中形成的DMM并不是深度序列图像中的所有帧。数据集中的不同人体动作视频序列形成$ {D}_{v}^{\mathrm{D}\mathrm{M}\mathrm{M}} $的大小不相同,因此利用双三次插值将人体动作视频序列形成的所有$ {D}_{v}^{\mathrm{D}\mathrm{M}\mathrm{M}} $调整为大小相同,以减少每个组内的变化。图 4所示为一组“由坐到站”深度帧序列到合成DMM的过程,其中左边是深度序列图像,右边依次是DMM的前视图、侧视图和顶视图。

Download:
图 4 DMM的形成过程 Fig. 4 The formation process of DMM
2.3 局部三值模式

TAN等[22]提出一种新的纹理算子LTP对噪声更加鲁棒。应用LTP为数据集创建了一个附加模态,附加模态的目的是使ResNet101网络能够进一步提取不同模态的互补性和鉴别性的特征,丰富特征的可用性并且有助于分类器准确执行人体动作的分类任务。其中,在宽度范围内的灰度量化为0,高于此范围的灰度量化为+1,低于此范围的灰度值量化为-1,LTP的数学表达式如式(2)和式(3)所示:

$ G\left(x\right)=\left\{\begin{array}{l}1, {g}_{b}-{g}_{c}\ge t\\ 0, \left|{g}_{b}-{g}_{c}\right| < t\\ -1, {g}_{b}-{g}_{c}\le -t\end{array}\right. $ (2)
$ {L}_{\mathrm{L}\mathrm{T}\mathrm{P}}=\sum\limits_{p=0}^{P}{3}^{p}G\left(x\right) $ (3)

其中:$ {g}_{c} $表示圆的中心像素的灰度值;$ {g}_{b} $表示分布在半径为R的圆的相邻像素的灰度值;t为设定的阈值。

2.4 判别相关分析

典型相关分析[25](Canonical Correlation Analysis,CCA)是一种将两个多维变量之间的线性关系进行相关分析的方法。由于CCA融合中忽略了样本之间的类结构,因此消除了特性之间的关系。为了解决基于CCA的多模态融合中存在的问题,本文提出了基于DCA的多级多模态融合框架。DCA是一种特征级融合技术,在类融合中考虑了类结构,并且将类中的关联信息纳入特征级相关分析中,同时消除了类间相关性并将相关性限制在类内,有助于在人体动作识别中融合由不同传感器捕获的数据之间的相关性信息,并且最大化两个特征级之间的成对相关性。

假设残差网络提取的特征矩阵中的样本是来自$ c $个不同的类中。相应地,特征矩阵的$ n $列划分为$ c $个不同的组,其中$ {n}_{i} $列表示特征矩阵的第$ i $$ \left(n=\sum\limits_{i=1}^{c}{n}_{i}\right) $。设$ {\boldsymbol{x}}_{ij}\in X $表示第$ i $类中第$ j $个样本提取到的特征向量,$ {\overline{x}}_{i} $表示第$ i $类中的特征集向量的均值,$ \overline{x} $表示所有特征集中$ {\boldsymbol{x}}_{ij} $向量的均值,即$ {\overline{x}}_{i}=\frac{1}{{n}_{i}}\sum\limits_{j=1}^{{n}_{i}}{\boldsymbol{x}}_{ij} $$ \overline{x}=\frac{1}{n}\sum\limits_{i=1}^{c}{n}_{i}\overline{{x}_{i}} $。类间散度矩阵定义如式(4)所示:

$ {\boldsymbol{S}}_{b{x}_{(p\times p)}}=\sum\limits_{i=1}^{c}{n}_{i}\left(\overline{{x}_{i}}-\overline{x}\right){\left(\overline{{x}_{i}}-\overline{x}\right)}^{\mathrm{T}}={\boldsymbol{\varPhi }}_{bx}{\boldsymbol{\varPhi }}_{bx}^{\mathrm{T}} $ (4)

其中:$ {\boldsymbol{\varPhi }}_{b{x}_{\left(p\times c\right)}}=\left[\sqrt{{n}_{1}}\left(\overline{{x}_{1}}-\overline{x}\right), \sqrt{{n}_{2}}\left(\overline{{x}_{2}}-\overline{x}\right), \cdots , \right. $$ \sqrt{{n}_{c}} $ $ \left.\left(\overline{{x}_{c}}-\overline{x}\right)\right] $

由于$ {\boldsymbol{\varPhi }}_{bx}^{\mathrm{T}}{\boldsymbol{\varPhi }}_{bx} $是对称正半定矩阵,对角变换如式(5)所示:

$ {\boldsymbol{P}}^{\mathrm{T}}\left({\boldsymbol{\varPhi }}_{bx}^{\mathrm{T}}{\boldsymbol{\varPhi }}_{bx}\right)\boldsymbol{P}=\widehat{\boldsymbol{\varLambda }} $ (5)

其中:P为正交特征向量的特征矩阵;$ \widehat{\boldsymbol{\varLambda }} $为实非负特征值的对角矩阵,按元素值大小递减排序。设$ {\boldsymbol{Q}}_{\left(c\times r\right)} $由矩阵P中的$ r $个特征向量组成,对应于$ r $个最大的非零特征值,如式(6)所示:

$ {\boldsymbol{Q}}^{\mathrm{T}}\left({\boldsymbol{\varPhi }}_{bx}^{\mathrm{T}}{\boldsymbol{\varPhi }}_{bx}\right)\boldsymbol{Q}={\boldsymbol{\varLambda }}_{\left(r\times r\right)} $ (6)

通过映射$ \boldsymbol{Q}\to {\boldsymbol{\varPhi }}_{bx}\boldsymbol{Q} $获得$ {\boldsymbol{S}}_{bx} $$ r $个特征向量,如式(7)所示:

$ {\left({\boldsymbol{\varPhi }}_{bx}\boldsymbol{Q}\right)}^{\mathrm{T}}{\boldsymbol{S}}_{bx}\left({\boldsymbol{\varPhi }}_{bx}\boldsymbol{Q}\right)={\boldsymbol{\varLambda }}_{\left(r\times r\right)} $ (7)

$ {\boldsymbol{W}}_{bx}={\boldsymbol{\varPhi }}_{bx}\boldsymbol{Q}{\boldsymbol{\varLambda }}^{-1/2} $是将$ {\boldsymbol{S}}_{bx} $白化并将数据矩阵X的维数由$ p $降为$ r $的变化,如式(8)和式(9)所示:

$ {\boldsymbol{W}}_{bx}^{\mathrm{T}}{\boldsymbol{S}}_{bx}{\boldsymbol{W}}_{bx}=\boldsymbol{I} $ (8)
$ {\boldsymbol{X}}_{\left(r\times n\right)}^{'}={\boldsymbol{W}}_{b{x}_{\left(r\times p\right)}}^{\mathrm{T}}{\boldsymbol{X}}_{\left(p\times n\right)} $ (9)

其中,$ {\boldsymbol{X}}^{'} $X的空间投影;I为类分散矩阵。

与上述方法类似,计算第2个特征集Y和变换矩阵$ {\boldsymbol{W}}_{by} $$ {\boldsymbol{W}}_{by} $使第2个模态$ {\boldsymbol{S}}_{by} $的类间散度矩阵单位化,并将Y的维数由$ q $降为$ r $,且矩阵$ {\boldsymbol{\varPhi }}^{'}{}_{bx}^{\mathrm{T}}{\boldsymbol{\varPhi }}_{bx}^{'} $$ {\boldsymbol{\varPhi }}^{'}{}_{by}^{\mathrm{T}}{\boldsymbol{\varPhi }}_{by}^{'} $是严格对角占优矩阵。将变换后的特征集的集合间相关矩阵使用奇异分解值(SVD)对$ {\boldsymbol{S}}_{xy}^{'} $进行对角化,即$ {\boldsymbol{S}}_{xy}^{'}={\boldsymbol{X}}^{'}{{\boldsymbol{Y}}^{'}}^{\mathrm{T}} $,使一个集合中的特征与另一个集合中相应的特征具有非零相关性,如式(10)所示:

$ {\boldsymbol{S}}_{x{y}_{\left(r\times r\right)}}^{'}=\boldsymbol{U}\boldsymbol{\varSigma }{\boldsymbol{V}}^{\mathrm{T}}\Rightarrow {\boldsymbol{U}}^{\mathrm{T}}{\boldsymbol{S}}_{xy}^{'}\boldsymbol{V}=\boldsymbol{\varSigma } $ (10)

其中:$ {\boldsymbol{X}}^{'} $$ {\boldsymbol{Y}}^{'} $的秩为r$ {\boldsymbol{S}}_{x{y}_{\left(r\times r\right)}}^{'} $是非退化矩阵;$ \boldsymbol{\varSigma } $是一个主对角元素非零的对角矩阵。设$ {W}_{cx}=\boldsymbol{U}{\boldsymbol{\varSigma }}^{-1/2} $$ {\boldsymbol{W}}_{cy}=\boldsymbol{V}{\boldsymbol{\varSigma }}^{-1/2} $,则有:

$ {\left(\boldsymbol{U}{\boldsymbol{\varSigma }}^{-1/2}\right)}^{\mathrm{T}}{\boldsymbol{S}}_{xy}^{'}\left(\boldsymbol{V}{\boldsymbol{\varSigma }}^{-1/2}\right)=\boldsymbol{I} $ (11)

因此,对特征集进行如下转换,如式(12)和式(13)所示:

$ \stackrel{\mathrm{*}}{\boldsymbol{X}}={\boldsymbol{W}}_{cx}^{\mathrm{T}}{\boldsymbol{X}}^{\boldsymbol{'}}={\boldsymbol{W}}_{cx}^{\mathrm{T}}{\boldsymbol{W}}_{bx}^{\mathrm{T}}\boldsymbol{X}={\boldsymbol{W}}_{x}\boldsymbol{X} $ (12)
$ \stackrel{\mathrm{*}}{\boldsymbol{Y}}={\boldsymbol{W}}_{cy}^{\mathrm{T}}{\boldsymbol{Y}}^{'}={\boldsymbol{W}}_{cy}^{\mathrm{T}}{\boldsymbol{W}}_{by}^{\mathrm{T}}\boldsymbol{Y}={\boldsymbol{W}}_{y}\boldsymbol{Y} $ (13)

其中:$ {\boldsymbol{W}}_{x}={\boldsymbol{W}}_{cx}^{\mathrm{T}}{\boldsymbol{W}}_{bx}^{\mathrm{T}} $$ {\boldsymbol{W}}_{y}={\boldsymbol{W}}_{cy}^{\mathrm{T}}{\boldsymbol{W}}_{by}^{\mathrm{T}} $分别为$ \boldsymbol{X} $$ \boldsymbol{Y} $的最终变换矩阵。结果表明,变换后的特征集的类间散度矩阵仍然是对角的矩阵,各类间数据集可以更好地区分开。

DCA的特征级融合与CCA类似,通过对变换后的特征向量进行拼接或求和实现。由于变换后的特征向量求和时,特征向量维数较少,计算简单方便,因此本文实验采用基于DCA求和的方法进行特征级融合。

3 实验结果与分析 3.1 实验平台

本文实验环境为:Windows 10.0操作系统,Intel® Xeon® Gold 5115 CPU@2.40 GHz,显卡NVIDIA Quadro P4000 GPU,采用Matlab 2019b作为开发环境。

3.2 数据集及数据预处理

为验证所使用的多模态融合技术在人体动作识别方面的识别效率,本文使用UTD多模态人类行为数据集[26](UTD-MHAD)和UTD Kinect V2多模态人类行为数据集[27](UTD Kinect V2 MHAD)两个公开的数据集进行实验验证,并与最新的研究进行比较,同时采用消融实验验证本文提出的多模态融合框架的有效性。

UTD-MHAD是使用Microsoft Kinect传感器和可穿戴惯性传感器在室内环境中收集的。由8名受试者(4名女性和4名男性)执行的27个动作,每个受试者对每个动作重复4次。去除3个损坏的序列后,数据集共有861个数据序列,包含深度传感器数据和惯性传感器数据。

UTD Kinect V2 MHAD是使用第2代Kinect捕获的新数据集,包括6名受试者(3名男性和3名女性)执行的10个动作,每个受试者重复每个动作5次,包含深度传感器数据和惯性传感器数据。采用深度传感器数据生成的深度图像大小为$ 424\times 512 $像素。

本文选择UTD-MHAD和UTD Kinect V2 MHAD两个数据集。首先使用的两个数据集用于涉及融合或同时使用深度传感器和惯性传感器。其次使用的两个数据集中的动作包含了比较全面的人体动作类别,如运动动作(篮球投篮,打保龄球,棒球挥杆,网球挥杆和网球发球)、手势动作(手臂向左滑动,手臂向右滑动,右手挥手,拍手,投掷,胸前手臂交叉,画x,画三角形,画勾,顺时针画圆,逆时针画圆,手臂卷曲,双手推,右手抓住物体和右手捡起东西并投掷)、日常动作(敲门,慢跑,步行,由坐到站和由站到坐)和训练动作(拳击,弓步,深蹲)。

由于UTD-MHAD和UTD Kinect V2 MHAD数据集中视频序列的前5帧和后5帧大多处于静止状态,动作比较轻微,对提取到的特征影响比较小,并且在转换为DMM时,微小的动作会导致大量的重建误差。因此,在生成DMM时需要删除影响较小的开始5帧和最后5帧的运动帧序列,使用剩余帧生成DMM。生成的DMM图像与信号图像如图 5所示。

Download:
图 5 UTD-MHAD和UTD Kinect V2 MHAD数据集预处理后生成的DMM和信号图像 Fig. 5 DMM and signal images generated after pre-processing of UTD-MHAD and UTD Kinect V2 MHAD datasets

为克服UTD-MHAD和UTD Kinect V2 MHAD数据集中训练样本较少的问题,本文对原始数据生成的DMM和信号图像分别进行数据增强[17],并将增强的数据集按照80%和20%的比例分为训练集和测试集。表 1所示为UTD-MHAD和UTD Kinect V2 MHAD的训练集和测试集的样本。

下载CSV 表 1 UTD-MHAD和Kinect V2 MHAD在数据增强后的训练集和测试集 Table 1 Training and test sets of UTD-MHAD and Kinect V2 MHAD after data enhancement

通过随机选择相同百分比的训练和测试样本进行20次实验,并计算平均精度。为了对ResNet101进行训练,将图像大小调整为224×224像素,直到验证损失停止。此外,为了和AHMAD等[16]的实验相比,训练过程中的详细实验参数如表 2所示。

下载CSV 表 2 训练参数 Table 2 Training parameters
3.3 消融实验

本文以图 6所示的融合框架为基础,验证本文中提出的多级多模态融合框架中各个部分的有效性,以及使用基于DCA多模态融合的有效性。

Download:
图 6 消融实验融合框架 Fig. 6 Ablation experimental fusion framework
3.3.1 深度运动投影图和信号图像

本文在如图 6所示的基础多模态融合中分别与使用DMM和信号图像融合的实验进行比较。从表 3可以看出,在UTD-MHAD和Kinect V2 MHAD数据集中DMM和信号图像的融合识别精度更高,因此DMM相比深度序列图像能得到较高的识别准确率。

下载CSV 表 3 DMM和深度序列图像与信号图像的CCA融合 Table 3 CCA fusion of DMM and depth sequence image with signal image 
3.3.2 局部三值模式

2.3节提出的基于LTP处理的DMM和信号图像,在图像预处理阶段增加一个通用的模态,使输入模态进一步成为多模态。从表 4的实验结果可以看出,创建的附加模态使ResNet101进一步提取互补性和鉴别性的特征,因此更丰富的特征有利于提高SVM分类器的准确率。

下载CSV 表 4 DMM、深度序列图像和信号图像的LTP模态 Table 4 DMM, depth sequence image and signal image with LTP modality respectively 
3.3.3 判别相关分析

基于DCA的特征级融合消除了类间相关性并将相关性限制在类内,有利于不同传感器捕获数据信息之间的融合。从表 5的实验结果可以看出,基于DCA的多模态融合相较于CCA的多模态融合,进一步证明了基于DCA的特征级融合在多模态融合中的优势。

下载CSV 表 5 DCA与CCA的实验结果 Table 5 Experimental results of DCA and CCA 
3.4 结果分析

对于UTD-MHAD中的27个动作类别在多级多模态融合后的混淆矩阵如图 7所示。从图 7可以看出,尽管多模态融合会误判个别动作类别,但是整体表现较好。因为在错误分类的动作中,除了极为相似的动作外,其余动作的识别率为100%。不同方法对UTD-MHAD中深度和惯性分量融合的精度对比如表 6所示。其中AHMAD等[16]采用基于CCA的特征级融合对不同模态的特征进行融合。相比之下,本文所使用的多级多模态融合识别率更高,证明DCA对多模态融合的人体动作识别性能更好。

Download:
图 7 多级多模态融合在UTD-MHAD数据集上的混淆矩阵 Fig. 7 Confusion matrix of multi-level multimodal fusion on the UTD-MHAD dataset
下载CSV 表 6 UTD-MHAD中不同方法融合方式的识别准确率对比 Table 6 Comparison of recognition accuracy of different method fusion modes in UTD-MHAD 

对于Kinect V2 MHAD中的10个动作类别在多级多模态融合后的混淆矩阵如图 8所示。在融合UTD Kinect V2 MHAD数据集中的深度和惯性数据,本文方法与其他不同方法的比较如表 7所示。与AHMAD等[16]提出的方法相比,本文提出的多级多模态融合方法识别性能更好,相较于最新的研究识别进度有所提高,证明了该方法的有效性。UTD Kinect V2 MHAD与UTD-MHAD数据集相比,不同类间区分度更高。这也是UTD Kinect V2 MHAD的识别精度高于UTD-MHAD的原因。在训练样本较少的情况下,基于深度学习的分类模型通常会有潜在的过拟合影响,导致模型在训练集上的误差很小,而在测试集上的误差不够理想。因此,本文首先在数据预处理阶段对数据集进行数据增强处理,然后通过ResNet101训练深度模态和惯性模态,在模型中使用BN、L2正则化和Dropout层用来抑制过拟合。在两个数据集上的训练与测试误差如图 9所示,从图 9可以看出,本文的实验没有出现过拟合。

Download:
图 8 多级多模态融合在Kinect V2 MHAD数据集上的混淆矩阵 Fig. 8 Confusion matrix for multi-level multimodal fusion on the Kinect V2 MHAD dataset
下载CSV 表 7 Kinect V2 MHAD中不同方法融合方式的识别准确率对比 Table 7 Comparison of recognition accuracy of different method fusion modes in Kinect V2 MHAD 
Download:
图 9 UTD-MHAD和UTD Kinect V2 MHAD数据集的损失变化曲线 Fig. 9 Loss variation curves for UTD-MHAD and UTD Kinect V2 MHAD datasets

UTD-MHAD对训练卷积神经网络主要有以下3个局限:1)可穿戴惯性传感器佩戴在志愿者的右手腕或者右大腿上,而传感器仅佩戴在两个位置上,用于收集27个动作的数据,不足以捕获所有数据的相关性和特征;2)当使用UTD-MHAD训练深度网络时,由于数据集的样本数据较少,可能导致训练结果不够准确;3)在UTD-MHAD中,有部分动作的区分度不明显,例如,右臂向左滑动和右臂向右滑动,由坐到站和由站到坐具有很高的相似性。

4 结束语

为解决单模态人体动作识别方法在实际应用场景中的局限性和CCA融合忽略样本间类结构等问题,本文提出一种基于DCA的多级多模态融合的人体动作识别方法。该识别方法从不同模态或者特征集捕获与其他模态或者特征集互补的信息,找到不同模态的最佳融合阶段,多模态融合的人体动作识别可有效解决单模态方法的局限。实验结果表明,本文提出的多模态融合方法具有较高的识别准确率。下一步把神经架构搜索技术应用到多模态融合动作识别中,利用其可以对不同时期网络自动确定网络结构的特性,将通过卷积神经网络提取到的不同模态的特征,利用神经架构搜索技术自动搜索其融合结构,从而提高多模态人体动作识别的效率。

参考文献
[1]
MAJUMDER S, KEHTARNAVAZ N. Vision and inertial sensing fusion for human action recognition: a review[J]. IEEE Sensors Journal, 2021, 21(3): 2454-2467. DOI:10.1109/JSEN.2020.3022326
[2]
CHEN C, JAFARI R, KEHTARNAVAZ N. Improving human action recognition using fusion of depth camera and inertial sensors[J]. IEEE Transactions on Human-Machine Systems, 2015, 45(1): 51-61. DOI:10.1109/THMS.2014.2362520
[3]
ROITBERG A, POLLERT T, HAURILET M, et al. Analysis of deep fusion strategies for multi-modal gesture recognition[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2019: 198-206.
[4]
AHMAD Z, KHAN N. CNN-based multistage gated average fusion for human action recognition using depth and inertial sensors[J]. IEEE Sensors Journal, 2021, 21(3): 3623-3634. DOI:10.1109/JSEN.2020.3028561
[5]
CHEN C, JAFARI R, KEHTARNAVAZ N. A real-time human action recognition system using depth and inertial sensor fusion[J]. IEEE Sensors Journal, 2016, 16(3): 773-781. DOI:10.1109/JSEN.2015.2487358
[6]
CHEN C, HAO H Y, JAFARI R, et al. Weighted fusion of depth and inertial data to improve view invariance for real-time human action recognition[C]//Proceedings of SPIEʼ17. Washington D.C., USA: IEEE Press, 2017: 43-51.
[7]
DAWAR N, KEHTARNAVAZ N. A convolutional neural network-based sensor fusion system for monitoring transition movements in healthcare applications[C]//Proceedings of the 14th IEEE International Conference on Control and Automation. Washington D.C., USA: IEEE Press, 2018: 482-485.
[8]
DAWAR N, KEHTARNAVAZ N. Action detection and recognition in continuous action streams by deep learning-based sensing fusion[J]. IEEE Sensors Journal, 2018, 18(23): 9660-9668. DOI:10.1109/JSEN.2018.2872862
[9]
DAWAR N, OSTADABBAS S, KEHTARNAVAZ N. Data augmentation in deep learning-based fusion of depth and inertial sensing for action recognition[J]. IEEE Sensors Letters, 2019, 3(1): 1-4.
[10]
LIU K, CHEN C, JAFARI R, et al. Fusion of inertial and depth sensor data for robust hand gesture recognition[J]. IEEE Sensors Journal, 2014, 14(6): 1898-1903. DOI:10.1109/JSEN.2014.2306094
[11]
TU Z G, XIE W, QIN Q Q, et al. Multi-stream CNN: learning representations based on human-related regions for action recognition[J]. Pattern Recognition, 2018, 79: 32-43. DOI:10.1016/j.patcog.2018.01.020
[12]
HWANG I, CHA G, OH S. Multi-modal human action recognition using deep neural networks fusing image and inertial sensor data[C]//Proceedings of 2017 IEEE International Conference on Multi-Sensor Fusion and Integration for Intelligent Systems. Washington D.C., USA: IEEE Press, 2017: 278-283.
[13]
KAMEL A, SHENG B, YANG P, et al. Deep convolutional neural networks for human action recognition using depth maps and postures[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(9): 1806-1819. DOI:10.1109/TSMC.2018.2850149
[14]
LI H B, SHRESTHA A, FIORANELLI F, et al. Mult-isensor data fusion for human activities classification and fall detection[C]//Proceedings of 2017 IEEE SENSORSʼ17. Washington D.C., USA: IEEE Press, 2017: 1-3.
[15]
RAMACHANDRAM D, TAYLOR G W. Deep multimodal learning: a survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108. DOI:10.1109/MSP.2017.2738401
[16]
AHMAD Z, KHAN N. Towards improved human action recognition using convolutional neural networks and multimodal fusion of depth and inertial sensor data[C]//Proceedings of 2018 IEEE International Symposium on Multimedia. Washington D.C., USA: IEEE Press, 2018: 223-230.
[17]
AHMAD Z, KHAN N. Human action recognition using deep multilevel multimodal (M2) fusion of depth and inertial sensors[J]. IEEE Sensors Journal, 2020, 20(3): 1445-1455. DOI:10.1109/JSEN.2019.2947446
[18]
EHATISHAM-UL-HAQ M, JAVED A, AZAM M A, et al. Robust human activity recognition using multimodal feature-level fusion[J]. IEEE Access, 2019, 7: 60736-60751. DOI:10.1109/ACCESS.2019.2913393
[19]
RADU V, TONG C, BHATTACHARYA S, et al. Multimodal deep learning for activity and context recognition[C]//Proceedings of ACM Conference on Interactive, Mobile, Wearable and Ubiquitous Technologies. New York, USA: ACM Press, 2018: 1-27.
[20]
HAGHIGHAT M, ABDEL-MOTTALEB M, ALHALABI W. Discriminant correlation analysis: real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(9): 1984-1996. DOI:10.1109/TIFS.2016.2569061
[21]
CHEN C, LIU K, KEHTARNAVAZ N. Real-time human action recognition based on depth motion maps[J]. Journal of Real-Time Image Processing, 2016, 12(1): 155-163. DOI:10.1007/s11554-013-0370-1
[22]
TAN X Y, TRIGGS B. Enhanced local texture feature sets for face recognition under difficult lighting conditions[J]. IEEE Transactions on Image Process, 2010, 19(6): 1635-1650. DOI:10.1109/TIP.2010.2042645
[23]
JIANG W C, YIN Z Z. Human activity recognition using wearable sensors by deep convolutional neural networks[C]//Proceedings of the 23rd ACM International Conference on Multimedia. New York, USA: ACM Press, 2015: 1307-1310.
[24]
YANG X D, ZHANG C Y, TIAN Y L. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]//Proceedings of the 20th ACM International Conference on Multimedia. New York, USA: ACM Press, 2012: 1057-1060.
[25]
HARDOON D R, SZEDMAK S, SHAWE-TAYLOR J. Canonical correlation analysis: an overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639-2664. DOI:10.1162/0899766042321814
[26]
CHEN C, JAFARI R, KEHTARNAVAZ N. UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor[C]//Proceedings of 2015 IEEE International Conference on Image Processing. Washington D.C., USA: IEEE Press, 2015: 168-172.
[27]
Kinect2d dataset[EB/OL]. [2022-03-10]. https://personal.utdallas.edu/~kehtar/Kinect2DatasetReadme.pdf.
[28]
BULBUL M F, JIANG Y S, MA J W. DMMs-based multiple features fusion for human action recognition[J]. International Journal of Multimedia Data Engineering and Management, 2015, 6(4): 23-39. DOI:10.4018/IJMDEM.2015100102
[29]
HAFEEZ S, JALAL A, KAMAL S. Multi-fusion sensors for action recognition based on discriminative motion cues and random forest[C]//Proceedings of 2021 International Conference on Communication Technologies. Washington D.C., USA: IEEE Press, 2021: 91-96.
[30]
BEN MAHJOUB A, ATRI M. An efficient end-to-end deep learning architecture for activity classification[J]. Analog Integrated Circuits and Signal Processing, 2019, 99(1): 23-32. DOI:10.1007/s10470-018-1306-2
[31]
ELMADANY N E D, HE Y F, GUAN L. Multimodal learning for human action recognition via bimodal/multimodal hybrid centroid canonical correlation analysis[J]. IEEE Transactions on Multimedia, 2019, 21(5): 1317-1331. DOI:10.1109/TMM.2018.2875510
[32]
YANG T J, HOU Z J, LIANG J Z, et al. Depth sequential information entropy maps and multi-label subspace learning for human action recognition[J]. IEEE Access, 2020, 8: 135118-135130. DOI:10.1109/ACCESS.2020.3006067
[33]
CHEN C, JAFARI R, KEHTARNAVAZ N. Fusion of depth, skeleton, and inertial data for human action recognition[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Washington D.C., USA: IEEE Press, 2016: 2712-2716.