基于姿态估计与GRU网络的人体康复动作识别

引用本文

闫航, 陈刚, 佟瑶, 等. 基于姿态估计与GRU网络的人体康复动作识别[J]. 计算机工程, 2021, 47(1), 12-20. DOI: 10.19678/j.issn.1000-3428.0058201.

YAN Hang, CHEN Gang, TONG Yao, et al. Human Rehabilitation Action Recognition Based on Pose Estimation and GRU Network[J]. Computer Engineering, 2021, 47(1), 12-20. DOI: 10.19678/j.issn.1000-3428.0058201.

基金项目

国家重点研发计划（2017YFB1401200）；河南省科技攻关计划（182102310137）

通信作者

陈刚(通信作者), 副教授

作者简介

闫航(1994-), 男, 硕士研究生, 主研方向为计算机视觉、动作识别;
佟瑶, 博士研究生;
姬波, 教授;
胡北辰, 硕士研究生

文章历史

收稿日期：2020-04-29
修回日期：2020-06-01

Contents Abstract Full text Figures/Tables PDF

基于姿态估计与GRU网络的人体康复动作识别

闫航^1,2 , 陈刚^1,2 , 佟瑶^2,3 , 姬波¹ , 胡北辰¹

1. 郑州大学信息工程学院, 郑州 450001;
2. 郑州大学互联网医疗与健康服务协同创新中心, 郑州 450001;
3. 郑州大学护理与健康学院, 郑州 450001

收稿日期：2020-04-29；修回日期：2020-06-01

基金项目：国家重点研发计划（2017YFB1401200）；河南省科技攻关计划（182102310137）

作者简介：闫航(1994-), 男, 硕士研究生, 主研方向为计算机视觉、动作识别; 佟瑶, 博士研究生; 姬波, 教授; 胡北辰, 硕士研究生.

通信作者：陈刚(通信作者), 副教授.

E-mail: 657450231@qq.com

摘要：康复锻炼是脑卒中患者的重要治疗方式，为提高康复动作识别的准确率与实时性，更好地辅助患者在居家环境中进行长期康复训练，结合姿态估计与门控循环单元（GRU）网络提出一种人体康复动作识别算法Pose-AMGRU。采用OpenPose姿态估计方法从视频帧中提取骨架关节点，经过姿态数据预处理后得到表达肢体运动的关键动作特征，并利用注意力机制构建融合三层时序特征的GRU网络实现人体康复动作分类。实验结果表明，该算法在KTH和康复动作数据集中的识别准确率分别为98.14%和100%，且在GTX1060显卡上的运行速度达到14.23 frame/s，具有较高的识别准确率与实时性。

Human Rehabilitation Action Recognition Based on Pose Estimation and GRU Network

YAN Hang^1,2 , CHEN Gang^1,2 , TONG Yao^2,3 , JI Bo¹ , HU Beichen¹

1. College of Information Engineering, Zhengzhou University, Zhengzhou 450001, China;
2. Internet Medical and Health Service Collaborative Innovation Center, Zhengzhou University, Zhengzhou 450001, China;
3. College of Nursing and Health, Zhengzhou University, Zhengzhou 450001, China

Abstract: Rehabilitation exercise is an important treatment method for stroke patients.This paper proposes a rehabilitation action recognition algorithm, Pose-AMGRU, which combines pose estimation with Gated Recurrent Unit(GRU) in order to improve the accuracy and real-time performance of rehabilitation action recognition, and thus assist patients in in-home long-term rehabilitation training.The algorithm uses OpenPose pose estimation method to extract the skeleton joints from video frames, and the pose data is preprocessed to obtain the key action features that represent body movement.Then a GRU network with three-layer time series features is constructed by using the attention mechanism to realize rehabilitation action classification.Experimental results on KTH dataset and rehabilitation action dataset show that the proposed algorithm increases the recognition accuracy to 98.14% and 100%, and its running speed on GTX1060 reaches 14.23 frame/s, which demonstrates its excellent recognition accuracy and real-time performance.

0 概述

脑卒中发病人数逐年上升, 已成为威胁全球居民生命健康的重大疾病, 具有极高的致残率, 其中重度残疾者约占40%^[1]。大量研究表明, 由于大脑的可塑性, 因此长期规范化的康复训练能够有效帮助脑卒中患者恢复大部分的运动控制和日常生活能力, 也是患者出院后进行中长期康复的主要途径^[2]。而居家环境下的康复过程缺乏必要的指导, 家属由于外出工作等原因也难以做到实时监督, 因此患者普遍存在康复训练依从性较差的问题^[3], 而将基于视频的动作识别技术用于识别人体的康复锻炼动作, 实时监督和指导患者的康复过程, 可以提高中长期训练的康复效果。

目前, 学者们对基于可穿戴设备的康复动作识别方法进行大量研究。文献[4]采用三轴加速度计获取患者的运动信息, 通过支持向量机(Support Vector Machine, SVM)识别肩关节屈伸、手臂伸展等多种康复动作。文献[5]采用加速度传感器采集脑瘫儿童的活动数据, 分别结合决策树、SVM和随机森林识别患者动作。文献[6]通过可穿戴设备获得上肢康复训练的常见动作样本, 提出改进的SVM分类器, 实现对6种康复动作的识别。然而, 此类方式会对人体活动造成一定干扰, 患者需要同时佩戴多个设备才能实现更好的识别效果。

基于机器视觉的康复动作识别不会对人体活动造成过多干扰, 因此具有更好的应用前景, 但是视频处理的复杂性导致该领域的研究充满挑战^[7]。相比吃饭、喝水、刷牙等简单的日常行为, 脑卒中康复动作更加复杂, 通常可分解为多个元动作, 并且动作持续时间较长, 因此识别难度较大。传统人工特征用于动作识别时缺乏足够的判别能力, 难以对复杂场景的行为进行有效建模^[8]。深度学习能够自主提取关键特征, 包括3D CNN^[9]、LRCN^[10]、Two-Stream^[11]等典型方法, 但深度学习模型通常参数量庞大, 计算复杂度高, 制约了其在现实场景中的应用^[8]。人体姿态特征对背景或无关对象具有较强的鲁棒性, 包含的运动信息也更丰富^[12]。文献[13]基于国际生物力学学会规范的康复动作, 采用深度相机Kinect提取人体姿态并通过分析关节角度的变化进行动作识别。文献[14]基于Kinect获取骨架关节点, 然后结合随机森林识别老年人的室内活动动作。以上通过传统分类器或者关节角度比对的识别方式需要人工建立复杂的对照模型, 泛化能力较差。文献[15]采用循环神经网络(Recurrent Neural Network, RNN)从骨架数据中提取时空特征, 显著提高了对康复动作的识别能力, 而RNN在挖掘时序关系时仍存在一定的局限性。此外, 多数识别算法的输入需要依赖已获取的姿态特征, 对RGB视频的通用性较差。

针对上述问题, 本文以郑州大学第二附属医院神经康复科设计的家庭脑卒中康复动作为研究基础, 提出一种基于姿态估计与门控循环单元(Gated Recurrent Unit, GRU)网络的人体动作识别算法Pose-AMGRU。引入OpenPose姿态估计方法^[16]对RGB视频中等间隔采样的图像帧提取骨架关节点, 并通过预处理进一步提高姿态数据的可靠性。结合注意力机制构建融合三层时序特征的GRU网络, 从输入动作特征序列中提取丰富的时空信息, 并通过Softmax分类器进行人体康复动作识别。

1 人体康复动作识别算法

本文提出的人体康复动作识别算法主要由人体姿态估计、预处理、特征提取和分类网络组成。Pose-AMGRU识别框架如图 1所示。

	Download: JPG larger image
图 1 Pose-AMGRU识别框架 Fig. 1 Framework of Pose-AMGRU recognition

该框架的输入为RGB视频流, 以一定间隔截取视频帧, 通过OpenPose姿态估计方法从中提取包括手臂、腿部以及颈部等18个2D骨架关节点。针对姿态估计过程中缺失的关节点, 通过计算相邻帧中相同关节点坐标的均值以填充缺失点, 然后通过霍尔特指数平滑法减小原始关节坐标的抖动。在直角坐标系中将骨架关节点转化为26个动作特征并进行归一化处理, 结合注意力机制构建多层GRU网络挖掘丰富的时空关系并融合初级、中级和高级时序的特征, 融合后的特征通过全连接神经网络(FC)与Softmax分类器进行多种康复动作识别。该算法利用2D骨架关节点的多层次时序关系进行动作识别, 相比于3D CNN等算法具有更强的速度优势, 并且由于每一帧只对提取的26个关键动作特征进行处理, 构建的多层GRU网络相对于主流方法中的CNN网络大幅减小了参数规模, 降低了对海量数据集的依赖, 模型更易于优化。

1.1 视频姿态估计

本文采用兼具速度与精度的OpenPose姿态估计方法从视频中检测骨架关节点。OpenPose是一种自顶向下、基于深度学习的实时姿态估计方法, 能够实现人体面部、躯干、四肢以及手部关节点的提取, 在多人场景中也能保持速度优势。

OpenPose网络采取多阶段预测的方式, 结构如图 2所示, 引入VGG-19模型的前10层作为基础网络, 将输入的图像转化为特征$ \mathit{\boldsymbol{F}}$, 通过多层卷积神经网络(C)分阶段回归$ \mathit{\boldsymbol{L}}$(p)与$ \mathit{\boldsymbol{S}}$(p), 其中: $ \mathit{\boldsymbol{L}}$ (p)为亲和度向量场(Part Affinity Fields, PAFs), 描述关节点在骨架中的指向; S(p)表示关节点的置信度, 描述关节点的位置信息。

	Download: JPG larger image
图 2 OpenPose网络结构 Fig. 2 Structure of OpenPose network

预测过程通过前T_P个阶段预测亲和度向量场L^t, 后T_C个阶段预测置信度S^t。在每个阶段都将前一阶段的结果与原始特征相融合, 用以保留图像较低与较高层次的特征。当1≤t≤T_P时, L^t的计算公式为:

$ \boldsymbol{L}^{1}=\phi^{1}(\boldsymbol{F}), t=1 $

(1)

$ \boldsymbol{L}^{t}=\phi^{t}\left(\boldsymbol{F}, \boldsymbol{L}^{t-1}\right), 2 \leqslant t \leqslant T_{P} $

(2)

当T_P≤t≤T_P+T_c时, $\boldsymbol{S}^{t} $的计算公式为:

$ \boldsymbol{S}^{T_{\mathrm{P}}}=\phi^{t}\left(\boldsymbol{F}, \boldsymbol{L}^{T_{\mathrm{P}}}\right), t=T_{P} $

(3)

$ \boldsymbol{S}^{t}=\boldsymbol{\phi}^{t}\left(\boldsymbol{F}, \boldsymbol{L}^{T_{\mathrm{P}}}, \boldsymbol{S}^{t-1}\right), T_{P}<t \leqslant T_{P}+T_{C} $

(4)

预测出关节点的位置与亲和度向量后, 采用匈牙利算法对相邻关节点进行二分最优匹配, 最终得到属于同一个人体的姿态信息。姿态估计模型需要大量标注关节点的图像样本进行训练, 本文预先加载在超大规模图像数据集COCO中训练的网络参数, 在保证检测精度的同时能够简化训练过程。为加快姿态估计速度并减少相邻视频帧中的冗余信息, 每间隔两个视频帧进行一次姿态运算。

1.2 数据预处理

OpenPose兼顾了速度与精度, 但应用于视频中时会出现一定强度的节点抖动, 且在短暂遮挡、光照剧烈变化、目标移动过快等复杂场景下存在关节点丢失问题。为了尽可能地补全漏检的节点坐标, 假定短时间内关节点的移动位近似匀速, 在时域上通过结合相邻视频帧的节点信息计算缺失点坐标。

时域均值填充方法如图 3所示, 假设第i帧存在丢失的关节点$P_j^i\left( {x_j^i, y_j^i} \right) $, j表示人体关节编号, 通过求取间隔K帧内的关节点均值来填充缺失点, 缺失点$P_j^i\left( {x_j^i, y_j^i} \right) $的计算方法为:

$ \left\{ {\begin{array}{*{20}{l}} {x_j^i = \frac{{\mathop \sum\limits_{k = 1}^K x_j^{i - k} + x_j^{i + k}}}{{2K}}}\\ {y_j^i = \frac{{\mathop \sum\limits_{k = 1}^K y_j^{i - k} + y_j^{i + k}}}{{2K}}} \end{array}} \right. $

(5)

	Download: JPG larger image
图 3 时域均值填充示意图 Fig. 3 Schematic diagram of time domain mean filling

通过在未缺失关节点上的实验结果表明, 当K=2时能取得较好的填充效果。然后采用霍尔特指数平滑法对关节点坐标进行平滑操作, 去除原始姿态数据中的极值点以减小抖动, 同时进一步修正所填充的关节点坐标, 计算公式为:

$ {S_i} = \alpha {x_i} + \left( {1 - \alpha } \right)\left( {{S_{i - }}_1 + {b_{i - 1}}} \right) $

(6)

$ {b_i} = \beta \left( {{S_i} - {S_{i -1 }}} \right) + \left( {1 - \beta } \right){b_{i - 1}} $

(7)

其中:α、β为平滑参数且通常均设为0.5;x_i、S_i、b_i分别为第i帧的关节点坐标检测值、平滑值和趋势增量; S_i、b_i在初始时分别设置为第1帧的关节点坐标平滑值、第2帧与第1帧的关节点坐标之差。图 4为坐站活动中左手关节点的平滑过程。

	Download: JPG larger image
图 4 坐站活动中左手关节点的平滑过程 Fig. 4 Smoothing process of the left hand joint point in sit-down activities

1.3 动作特征提取

单个视频帧能够获取到运动目标的18个2D骨架关节点即36个特征, 为进一步减小冗余特征, 从中提取能够表达人体运动的显著性特征。首先去除左右眼、左右耳共4个对于所研究动作无关的关节点, 保留的关节点为鼻(x₁, y₁)、颈(x₂, y₂)、左肩(x₃, y₃)、右肩(x₄, y₄)、左肘(x₅, y₅)、右肘(x₆, y₆)、左手(x₇, y₇)、右手(x₈, y₈)、左腰(x₉, y₉)、右腰(x₁₀, y₁₀)、左膝(x₁₁, y₁₁)、右膝(x₁₂, y₁₂)、左足(x₁₃, y₁₃)和右足(x₁₄, y₁₄)。人体骨架关节点为直角坐标系下的绝对坐标对于目标远近、位置和视角变化比较敏感, 本文从14个关节点中基于肢体划分进行矢量运算, 提取出反映肢体活动的13个动作矢量。

动作矢量提取方式如图 5所示, 计算方法为同一视频帧中相邻的两个关节点坐标之差, 计算公式为:

$ \mathit{\boldsymbol{V}}_a^i = \left( {x_j^i{\rm{, }}y_j^i} \right) - \left( {x_{j + z}^i{\rm{, }}y_{j + z}^i} \right), \alpha \in \left\{ {{\rm{a, b, }} \cdots {\rm{, m}}} \right\} $

(8)

	Download: JPG larger image
图 5 动作矢量提取示意图 Fig. 5 Schematic diagram of action vector extraction

其中, V_a, V_b, …, V_m为提取的13个动作矢量, 每一个动作矢量为直角坐标系下(x, y)两个坐标值, 表征了每个肢体活动的角度与幅度信息。

骨架关节点的取值范围与视频分辨率成正比, 为统一不同样本的尺度大小并且减少样本间的差异, 将动作矢量V(x, y)进行如下处理:

$ \left\{ {\begin{array}{*{20}{l}} {\bar x = \frac{x}{{{v_w}}}}\\ {\bar y = \frac{y}{{{v_h}}}} \end{array}} \right. $

(9)

其中, (v_w, v_h)为视频源的分辨率, $\mathit{\boldsymbol{\overline V}} \left( {\overline x , \overline y } \right) $为归一化为[0, 1]的动作矢量。由于不同视频样本的时长不一致, 因此通过补0的方式统一时间步长的大小并将其设置为T, 每个时间步长的特征维度为26。

1.4 分类网络

人体动作能够通过具备时序关系的一系列姿态关节点进行描述, 本文结合注意力机制并融合多层时序信息挖掘具有明显辨别性的动作特征。循环神经网络利用可递归的循环单元, 通过分析上下文状态挖掘时序信息, 但传统的RNN无法解决长期依赖问题, 限制了其预测能力。长短时记忆(Long Short Term Memory, LSTM)网络的出现解决了长时间序列训练过程中的梯度消失问题, 并广泛应用于语音识别、机器翻译等领域。文献[17]在LSTM的基础上提出GRU网络, 其在保证性能的同时相比LSTM结构更加简单, 并减小了神经网络的参数量, 其网络结构如图 6所示。

	Download: JPG larger image
图 6 GRU网络结构 Fig. 6 Structure of GRU network

在图 6中, σ表示Sigmoid激活函数, GRU单元网络将原LSTM中的输入门、遗忘门和输出门整合为更新门z_t和重置门r_t, 并去除了LSTM的单元状态c, 仅保留一个输出状态h。若当前时刻序列的输入为x_t, 则GRU单元网络的一次前向计算为:

$ \boldsymbol{z}_{t}=\sigma\left(\boldsymbol{W}_{z} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{z}\right) $

(10)

$ \boldsymbol{r}_{t}=\sigma\left(\boldsymbol{W}_{r} \cdot\left[\boldsymbol{h}_{t-1}, \boldsymbol{x}_{t}\right]+\boldsymbol{b}_{r}\right) $

(11)

$ {\mathit{\boldsymbol{\widetilde h}}_t} = \tanh \left( {\mathit{\boldsymbol{W}}{\rm{ }}\mathit{\boldsymbol{\widetilde h}} \cdot \left[ {{\mathit{\boldsymbol{r}}_t} \times {\mathit{\boldsymbol{h}}_{t - 1}}, {\mathit{\boldsymbol{x}}_t}} \right] + {\mathit{\boldsymbol{b}}_{\widetilde h}}} \right) $

(12)

其中: ${\mathit{\boldsymbol{W}}_z} $、$ {\mathit{\boldsymbol{W}}_r}$、$ {\mathit{\boldsymbol{W}}_{\widetilde h}}$分别为更新门z_t、重置门r_t以及候选状态$\widetilde {\boldsymbol{h}} $的权重矩阵; b_z、b_r、$ {{\boldsymbol{b}}_{\widetilde h}}$均为偏置; ×为矩阵外积; ∙为矩阵乘。更新门z_t用于控制历史信息h_t-₁的保留程度, 重置门r_t用于决定候选状态$\tilde{\boldsymbol{h}}_{t} $对历史信息$\boldsymbol{h}_{t-1}$的忽略程度。网络单元当前时刻的输出$\boldsymbol{h}_{t} $由更新门${\mathit{\boldsymbol{z}}_t}$与候选状态$ \tilde{\boldsymbol{h}}_{t}$共同计算:

$ {h_t} =( 1 - {\mathit{\boldsymbol{z}}_t}) \times {\mathit{\boldsymbol{h}}_{t - }}_1 + {\mathit{\boldsymbol{z}}_t} \times {\widetilde h_t} $

(13)

融合多级空间特征的SSD^[18]等卷积神经网络在目标检测领域取得了较好的结果。受该思想启发, 本文融合不同层次的时序特征进行动作识别, 同时结合注意力机制增强特征的显著性, 所设计的分类网络如图 7所示。

	Download: JPG larger image
图 7 分类网络结构 Fig. 7 Structure of classification network

分类网络模型的输入是从每帧图像中提取26个动作特征, 时间步长大小为T。MK为Masking层, 用于支持变长序列, 在GRU递归计算中忽略特征值全为0的时间步长。BN为Batch Normalization层, 引入可学习参数β、γ, 对输入样本进行批标准化处理, 将其转化为均值为0且方差为1的分布, 能够改善网络梯度并加快训练时的收敛过程。设计三层堆叠的GRU单元网络, 每层网络神经元的个数为64, 底层单元网络所有时刻的输出状态h传递给下一层。视频中每帧图像对于特定动作的分类并非同等重要, 为增强关键视频帧的表达能力, 引入注意力机制计算每个时间步长输出特征h_t的注意力权重α_t, 通过每一时刻输出特征与注意力权重的加权求和得到每一层的时空特征v。本文通过神经网络得到注意力打分函数, 计算公式为:

$ u_{t}=\tanh \left(\boldsymbol{W}_{\mathrm{att}} \cdot \boldsymbol{h}_{t}+\boldsymbol{b}_{\mathrm{att}}\right) $

(14)

$ \alpha_{t}=\frac{\exp \left(u_{t}\right)}{\sum\limits_{j=1}^{T} \exp \left(u_{j}\right)} $

(15)

$ \boldsymbol{v}=\sum\limits_{t=1}^{T} \alpha_{t} \boldsymbol{h}_{t} $

(16)

其中, W_att、$ \boldsymbol{b}_{\text {att }}$分别为注意力网络的权重和偏置。第一层~第三层GRU单元网络通过注意力机制提取的向量$\boldsymbol{v}_{1}、\boldsymbol{v}_{2}、\boldsymbol{v}_{3} $分别表达了低层、中层和高层时序特征, 并将三层时序特征拼接为融合的特征F:

$ \boldsymbol{F}=\boldsymbol{v}_{1} \oplus \boldsymbol{v}_{2} \oplus \boldsymbol{v}_{3} $

(17)

然后将融合的时序特征F通过全连接神经网络进一步整合关键特征, 输出层采用Softmax分类器进行多种康复动作的分类。通过Softmax激活函数将多个神经元的输出转换为0到1范围的置信概率, 假设${\widehat y_i} $为Softmax激活函数输入向量$\mathit{\boldsymbol{\hat y}} $的第i个特征, 计算公式为:

$ f\left( {{{\widehat y}_i}} \right) = \frac{{{{\rm{e}}^{{{\hat y}_i}}}}}{{\mathop \sum\limits_{j = 1}^K {{\rm{e}}^{{{\hat y}_j}}}}} $

(18)

其中, K表示输入特征个数, 即待分类的类别数, 通过f($\mathit{\boldsymbol{\widehat y}} $)将输入$\mathit{\boldsymbol{\widehat y}} $转为概率分布。考虑到人体活动过程中除康复动作外, 还会出现其他的动作类型。为提高算法鲁棒性, 将日常活动所发生的动作与行为归为一类并与K-1种康复动作同时进行分类。对于多分类问题采用交叉熵损失函数, 并引入L2正则化降低模型过拟合风险:

$ L(\boldsymbol{y}, \hat{\boldsymbol{y}})=\frac{1}{n} \sum\limits_{j=1}^{n} h\left(y^{(j)}, \hat{y}^{(j)}\right)+\lambda \sum\left\|\boldsymbol{w}^{2}\right\| $

(19)

$ h\left(y^{(j)}, \hat{y}^{(j)}\right)=-\sum\limits_{i=1}^{K} y_{i}^{(j)} \log _{a} f\left(\hat{y}_{i}^{(j)}\right) $

(20)

其中, n表示输入的样本批量大小, 标签y_i为one-hot编码, h(y^(j), ${\widehat y^{\left( j \right)}} $)函数运算时只保留正确预测的置信概率, 其他值则为0。之后采用Adam优化算法来最小化损失函数, Adam结合了多种优化算法的优势, 通过计算梯度的一阶矩阵和二阶矩阵估计动态调整每个参数的学习率, 具有计算高效、迭代过程稳定的特点。经过多次迭代来训练神经网络直到参数收敛, Pose-AMGRU算法的分类网络通过加载训练好的模型对输入的视频进行动作识别。

分类网络应结合实际动作的特点、持续时长和视频帧率选择输入的序列长度即时间步长T, 因为过短的时间步长不能覆盖一个完整的动作, 过长的时间步长存在的冗余信息不但会降低识别精度, 而且会增加模型预测时间, 所以合理的时间步长对于识别精度与计算速度至关重要。

2 实验结果与分析 2.1 实验平台

本文实验处理器采用Intel i7-8750, 内存为8 GB, 显卡为GTX1060, 显存为6 GB, 通过1080P摄像头采集视频, 基于Tensorflow深度学习框架进行姿态估计模型及分类网络的搭建, 并使用GPU加速姿态估计模型的识别过程。

2.2 数据集

本文根据参考文献[19]设计的脑卒中患者家庭康复动作并在专业护理医师的指导下自建一组康复动作数据集, 同时为客观评价Pose-AMGRU算法性能, 选取了KTH公开数据集^[20]作为对比, 数据集示例如图 8所示。

	Download: JPG larger image
图 8 数据集示例 Fig. 8 Datasets examples

KTH是动作识别领域的经典数据集, 包含由25个志愿者录制的拳击、拍手、挥手、慢跑、跑步和步行6种动作。该数据集共有599个视频, 可细分为2 391个动作片段。KTH中的视频包含整个目标人体, 能够检测到完整的姿态关节点。

康复动作数据集由10位志愿者在6种不同环境下采集的动作组成, 共有2 075个视频。动作类型分为5种康复动作及1种日常活动动作, 其中康复动作的具体说明如表 1所示。日常活动动作包括慢走、伸展、静止坐、静止站等多个行为状态。视频帧率为15 frame/s, 持续时长为7 s~15 s。

下载CSV 表 1 脑卒中康复动作描述 Table 1 Description of stroke rehabilitation actions

2.3 训练策略

KTH数据集参考文献[19]的划分规则选取训练集与测试集, 其中训练集的视频样本通过对称变换、随机裁剪等方式进行数据增强, 将训练集扩增1倍。康复动作数据集中按照7:3的比例划分训练集和测试集, 并保证测试集中每类动作的样本比例保持平衡。分类网络的训练参数通过高斯分布获取的随机值进行初始化, 样本分批量(batch-size)输入到分类网络中。初始学习率设置为0.001, batch-size为32, 时间步长为500。

2.4 结果分析 2.4.1 识别结果可视化及序列长度对准确率的影响

图 9为Pose-AMGRU算法对康复动作识别的可视化结果, 所测试的动作类型分别为站位扣手上举、坐位扣手上举、站位扣手左右平举、坐位扣手左右平举、坐站和日常活动。本文算法对每种康复动作都预测出较高的置信概率值, 表现出较强的区分能力, 在显卡GTX1060上的运行速度达到14.23 frame/s。

	Download: JPG larger image
图 9 康复动作识别的可视化结果 Fig. 9 Visualized results of rehabilitation action recognition

为分析输入的序列长度对识别准确率的影响, 设置不同的时间步长输入到分类网络。实验结果如图 10所示, KTH和康复动作数据集分别在80、70的时间步长下达到最优识别准确率, 且随着时间步长的增加, 识别性能出现下降的趋势。

	Download: JPG larger image
图 10 不同时间步长下的识别准确率比较 Fig. 10 Comparison of recognition accuracy under different time steps

2.4.2 网络模型结构与数据预处理对准确率的影响

本文验证融合多级时序特征与引入注意力机制的网络模型有效性, 实验结果如表 2所示。可以看出, 引入注意力机制的GRU网络显著提高了识别效果, 未融合三层时序特征的GRU网络识别效果也优于单层GRU网络, 而融合三层时序特征的GRU网络进一步提高了识别准确率, 其在KTH和康复动作数据集中的识别准确率相比单层GRU网络分别提高了6.48和0.97个百分点。

下载CSV 表 2 不同网络模型结构的识别准确率对比 Table 2 Comparison of recognition accuracy of different network model structures

本文对原始骨架关节点进行缺失点填充、数据平滑和归一化等数据预处理操作, 数据预处理对识别准确率的影响如表 3所示。相比原始关节点数据, 预处理后的关节点数据进一步提高了姿态特征的鲁棒性和识别准确率, 而康复动作数据集中的视频分辨率较高, 因此原始关节点也取得了较高的识别准确率。

下载CSV 表 3 数据预处理对识别准确率的影响 Table 3 Influence of data preprocessing on recognition accuracy

2.4.3 不同动作识别算法的准确率对比

图 11为本文Pose-AMGRU算法在KTH数据集上的混淆矩阵。可以看出, Pose-AMGRU算法对拳击、拍手、慢跑和步行这4种动作的识别准确率高达100%。

	Download: JPG larger image
图 11 Pose-AMGRU算法在KTH数据集上的混淆矩阵 Fig. 11 Confusion matrix of Pose-AMGRU algorithm on KTH dataset

表 4为本文Pose-AMGRU算法在KTH数据集上与其他人体康复动作识别算法的识别准确率对比结果。对比算法具体为:1)基于3D CNN的人体康复动作识别算法^[9], 从空间与时间维度同时进行卷积来提取时空特征进行动作识别; 2)基于Optical flow-SURF+SVM的人体康复动作识别算法^[21], 融合光流和加速稳健特征后, 通过SVM分类器进行动作识别; 3)基于DT+SVM的人体康复动作识别算法^[22], 采用降维后的稠密轨迹特征与SVM分类器进行动作识别; 4)基于LC-YOLO的人体康复动作识别算法^[23], 先从视频帧中检测目标人体, 再结合CNN与LSTM对目标人体进行动作识别; 5)基于CNN+SVM-KNN的人体康复动作识别算法^[24], 采用混合的SVM与KNN分类器对CNN提取的特征进行动作识别。

下载CSV 表 4 KTH数据集上人体康复动作识别算法的识别准确率对比 Table 4 Comparison of recognition accuracy of human rehabilitation motion recognition algorithms on KTH dataset

在康复动作数据集中, 首先从视频中提取骨架关节点进行预处理, 在姿态特征的基础上将本文Pose-AMGRU算法与其他人体康复动作识别算法进行对比, 实验结果如表 5所示。运行时间为所有测试样本的预测总时长, 不包括姿态估计与预处理的计算耗时。可以看出, 基于RNN系列的人体康复动作识别算法的识别准确率优于基于传统隐马尔科夫模型(Hidden Markov Model, HMM)的人体康复动作识别算法, 而Pose-AMGRU算法取得了最好的识别结果, 但其需要耗费更多的运算时间, 在一定程度上影响了实时性。

下载CSV 表 5 康复动作数据集上人体康复动作识别算法的识别准确率对比 Table 5 Comparison of recognition accuracy of human rehabilitation motion recognition algorithms on rehabilitation action datasets

2.4.4 不同动作识别算法的训练参数量对比

将本文Pose-AMGRU算法与基于主流深度学习模型的人体康复动作识别算法的训练参数量进行对比, 实验结果如表 6所示。基于Two-Stream的人体康复动作识别算法^[11]虽然在动作识别领域取得了较好的成果, 但是其光流图的计算非常耗时, 模型也存在参数量过大的问题。基于C3D的人体康复动作识别算法^[27]由多层3D CNN构成, 参数量庞大。基于LRCN的人体康复动作识别算法^[11]中的卷积网络部分可以采取迁移学习方法, 一定程度上解决了小样本下的学习问题。本文Pose-AMGRU算法只需对每帧所提取的低维度特征进行处理, 并通过浅层GRU网络进行时空特征提取, 大幅降低了所需训练的参数量。

下载CSV 表 6 4种人体康复动作识别算法的训练参数量对比 Table 6 Comparison of training parameter amount of four human rehabilitation motion recognition algorithms

3 结束语

本文提出一种轻量且高效的人体康复动作识别算法。通过姿态估计方法获取骨架数据并进行预处理, 然后从中提取表征肢体活动的动作特征序列, 结合注意力机制构建融合多级特征的GRU网络进行动作识别。实验结果表明, 该算法在康复动作数据集中能够有效识别5种典型的脑卒中康复动作, 并且具备良好的实时性。后续将增加更多类型的脑卒中康复动作, 同时引入多视角视觉信息以提取更加丰富的特征, 进一步增强人体康复动作识别算法对复杂动作的识别能力。

参考文献

[1]	GAN Yong, YANG Tingting, LIU Jianxin, et al. Research progress on the prevalence trend and influencing factors of stroke at home and abroad[J]. Chinese Preventive Medicine, 2019, 20(2): 139-144. (in Chinese) 甘勇, 杨婷婷, 刘建新, 等. 国内外脑卒中流行趋势及影响因素研究进展[J]. 中国预防医学杂志, 2019, 20(2): 139-144.
[2]	DAUNORAVICIENE K, ADOMAVICIENE A. Effects of robot-assisted training on upper limb functional recovery during the rehabilitation of poststroke patients[J]. Technology and Health Care Official Journal of the European Society for Engineering and Medicine, 2018, 26(S2): 1-10.
[3]	SHENG Han, SHAO Shengwen, WANG Huiqin, et al. A study on the rehabilitation exercise compliance curve in stroke patients[J]. Chinese Journal of Nursing, 2016, 51(6): 712-715. (in Chinese) 盛晗, 邵圣文, 王惠琴, 等. 脑卒中患者康复锻炼依从性动态变化的研究[J]. 中华护理杂志, 2016, 51(6): 712-715. DOI:10.3761/j.issn.0254-1769.2016.06.016
[4]	BISIO I, DELFINO A, LAVAGETTO F, et al. Enabling IoT for in-home rehabilitation:accelerometer signals classification methods for activity and movement recognition[J]. IEEE Internet of Things Journal, 2016, 4(1): 135-146.
[5]	AHMADI M, O'NEIL M, FRAGALA-PINKHAM M, et al. Machine learning algorithms for activity recognition in ambulant children and adolescents with cerebral palsy[J]. Journal of NeuroEngineering and Rehabilitation, 2018, 15(1): 105-114. DOI:10.1186/s12984-018-0456-x
[6]	ZUO Guoyu, XU Zhaokun, LU Jiahao, et al. A structure-optimized DDAG-SVM action recognition method for upper limb rehabilitation training[J]. Acta Automatica Sinica, 2020, 46(3): 549-561. (in Chinese) 左国玉, 徐兆坤, 卢佳豪, 等. 基于结构优化的DDAG-SVM上肢康复训练动作识别方法[J]. 自动化学报, 2020, 46(3): 549-561.
[7]	PEI Xiaomin, FAN Huijie, TANG Yandong. Action recognition method of spatio-temporal feature fusion deep learning network[J]. Infrared and Laser Engineering, 2018, 47(2): 46-51. (in Chinese) 裴晓敏, 范慧杰, 唐延东. 时空特征融合深度学习网络人体行为识别方法[J]. 红外与激光工程, 2018, 47(2): 46-51.
[8]	XIAO Xiao, XU Dan, WAN Wanggen.Overview: video recognition from handcrafted method to deep learning method[C]//Proceedings of International Conference on Audio, Language and Image.Washington D.C., USA: IEEE Press, 2017: 646-651.
[9]	JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231. DOI:10.1109/TPAMI.2012.59
[10]	DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(4): 677-691.
[11]	SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems, 2014, 1: 568-576.
[12]	CAO Congqi, ZHANG Yifan, ZHANG Chunjie, et al. Body joint guided 3-D deep convolutional descriptors for action recognition[J]. IEEE Transactions on Cybernetics, 2018, 48(3): 1095-1108. DOI:10.1109/TCYB.2017.2756840
[13]	FONTES D G A E, MENEZES C T D, PASCAL F, et al. Rehabilitation motion recognition based on the international biomechanical standards[J]. Expert Systems with Application, 2019, 116: 396-409. DOI:10.1016/j.eswa.2018.09.026
[14]	HBALI Y, HBALI S, BALLIHI L, et al. Skeleton-based human activity recognition for elderly monitoring systems[J]. IET Computer Vision, 2018, 12(1): 16-26. DOI:10.1049/iet-cvi.2017.0062
[15]	ZHANG Qingzhi, WU Panfeng, DU Xiaohui, et al.Rehabilitation recognition skeleton data depth learning based on RNN[EB/OL].[2020-03-14].http://doi.org/10.1051/matecconf/201927702007.
[16]	CAO Z, HIDALGO G, SIMON T, et al.OpenPose: realtime multi-person 2D pose estimation using part affinity fields[EB/OL].[2020-03-14].https://doi.org/10.1109/TPAMI.2019.2929257.
[17]	CHO K, VAN M B, BAHDANAU D, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].[2020-03-14].https://arxiv.org/abs/1406.1078.
[18]	LIU W, ANGUELOV D, ERHAN D, et al.SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision.Berlin, Germany: Springer, 2016: 21-37.
[19]	XU Mengya, YANG Weimin. Application of family medical gymnastics in community rehabilitation of ischemic stroke[J]. Chinese Journal of Gerontology, 2010, 30(17): 41-42. (in Chinese) 许梦雅, 杨伟民. 家庭医疗体操在缺血性脑卒中社区康复中的应用[J]. 中国老年学杂志, 2010, 30(17): 41-42.
[20]	SCHULDT C, LAPTEV I, CAPUTO B.Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Washington D.C., USA: IEEE Press, 2004: 32-36.
[21]	MEGRHI S, JMAL M, SOUIDENE W, et al. Spatio-temporal action localization and detection for human action recognition in big dataset[J]. Journal of Visual Communication and Image Representation, 2016, 41: 375-390. DOI:10.1016/j.jvcir.2016.10.016
[22]	LU Tianran, YU Fengqin, CHEN Ying. A human action recognition method based on LSDA dimension reduction[J]. Computer Engineering, 2019, 45(3): 237-241, 249. (in Chinese) 鹿天然, 于凤芹, 陈莹. 一种基于线性序列差异分析降维的人体行为识别方法[J]. 计算机工程, 2019, 45(3): 237-241, 249.
[23]	MA Yuxi, TAN Li, DONG Xu, et al. Action recognition for intelligent monitoring[J]. Journal of Image and Graphics, 2019, 24(2): 128-136. (in Chinese) 马钰锡, 谭励, 董旭, 等. 面向智能监控的行为识别[J]. 中国图象图形学报, 2019, 24(2): 128-136.
[24]	SARGANO A B, WANG X, ANGELOV P, et al.Human action recognition using transfer learning with deep representations[C]//Proceedings of 2017 International Joint Conference on Neural Networks.Washington D.C., USA: IEEE Press, 2017: 463-469.
[25]	LI S, LI W Q, COOK C, et al.Independently Recurrent Neural Network(IndRNN): building a longer and deeper RNN[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2018: 5457-5466.
[26]	LEI T, ZHANG Yu, WANG S I, et al.Simple recurrent units for highly parallelizable recurrence[C]//Proceedings of 2018 Conference on Empirical Methods in Natural Language Processing.Philadelphia, USA: ACL Press, 2018: 4470-4481.
[27]	TRAN D, BOURDEV L, FERGUS R, et al.Learning spatio-temporal features with 3D convolutional networks[C]//Proceedings of 2015 IEEE International Conference on Computer Vision.Washington D.C., USA: IEEE Press, 2015: 4489-4497.