2. 太原理工大学 电气与动力工程学院, 太原 030024
2. College of Electrical and Power Engineering, Taiyuan University of Technology, Taiyuan 030024, China
开放科学(资源服务)标志码(OSID):
机器学习是使计算机模拟或实现人类的学习行为从而获取新知识或技能的一种途径。人们在生活中的感知是多元的,识别一个物体不仅依靠视觉,还可以通过触觉、嗅觉、听觉等形式进行感知。任何感知能力的缺失都会造成生活能力减退。因此,在研究物体分类时,不仅可以依赖图像的视觉信息,还可以采集其真实的其他模态信息,通过多模态融合来为计算机提供更丰富的物体特征,使计算机充分感知物体信息,从而更好地实现物体识别与分类。例如,在物体材质分类研究中,由于不同材质的物体可能有相同的形状以及相似的纹理,在光照等因素的影响下,单纯依靠视觉信息可能无法对其进行有效分类,需要将不同模态的信息进行融合以实现物体识别与分类。
在多模态信息融合方面,研究者提出了较多方法。文献[1]以物体触觉加速度信号和相应的表面纹理图像为输入处理表面材料分类问题,有效地提高了分类精度。文献[2]研究表明,不同模态的特征对材料分类的性能具有不同的影响。文献[3]提出一种基于稀疏表示的多模态生物特征识别算法。文献[4]将视觉特征和触觉特征相融合以研究步态识别问题。文献[5]对RGB-D信息进行融合分类研究。文献[6]从不同的应用领域介绍多模态的研究现状。尽管上述研究取得了一定成果,但是如何将不同的模态信息进行有效融合仍具有较高难度。文献[7]建立一种新的投影字典学习框架,通过引入一个潜在的配对矩阵,同时实现了字典学习和配对矩阵估计,从而提高融合效果。文献[8]设计一个字典学习模型,该模型可以同时学习不同度量下的投影子空间和潜在公共字典。在多模态融合框架的研究中,分类器选择也是一个重点环节。
近年来,卷积神经网络(Conrolutional Neural Networks,CNN)在图像识别分类领域取得了较多成果。从最早的LeNet到AlexNet、Overfeat、VGG、GoogLeNet、ResNet以及DenseNet,网络越来越深,架构越来越复杂,虽然分类精度大幅提升,但是模型中的参数也成倍增加,对计算机内存的要求也越来越高[9-11]。文献[12]在极限学习机(Extreme Learing Machine,ELM)的基础上引入局部感受野的概念,提出基于局部感受野的极限学习机(ELM-LRF)[13]。ELM-LRF可以实现输入层与隐含层的局部连接,不仅能够发挥局部感受野的局部感知优势,还继承了ELM学习速率快、泛化性能高的优点[14-15],在保证分类性能的同时,模型参数和训练时间均较CNN大幅减小。但ELM-LRF算法中局部感受野采用单一尺度的卷积核,对复杂图像难以取得较好的分类效果。文献[16]提出多尺度局部感受野的极限学习机算法(ELM-MSLRF),ELM-MSLRF通过多个不同尺度的卷积核更充分地提取图像信息,使得分类效果更好。文献[17]在ELM-MSLRF的基础上进行改进,构建一种多模态融合框架,算法通过将物体材质视觉和触觉信息进行融合,大幅提高了分类性能。但是,ELM-MSLRF使用的ELM在训练数据时需要将所有数据输入到模型中,不能单纯地更新数据。在线序列极限学习机(Online Sequence Extreme Learning Machine,OSELM)[18-19]可以逐个或逐块(数据块)学习数据,因此,可以采用OSELM用于在线学习和网络更新。OSELM不仅具有ELM速度快、泛化能力强的优点,还可以随着新数据的输入而不断更新模型,无需重新再训练所有数据。
本文针对传统多模态框架ELM在训练过程中需要输入所有数据的问题,提出一种多模态融合的多尺度局部感受野在线序列极限学习机算法。在训练过程中,对样本分批次地进行增量式训练,且训练新数据时不再训练旧数据。在特征提取过程中,对传统的ELM框架进行改进,通过保留更多的特征图来提高算法的学习性能,从而提高分类精度。
1 在线序列极限学习机OSELM由LIANG等[18]于2006年提出,该算法主要解决极限学习机无法实时动态地处理数据而花费时间过长的问题。OSELM可以逐个或者逐块地学习,并丢弃已经完成训练的数据,从而大幅缩短训练所需时间。OSELM的训练过程主要分成初始阶段和在线学习阶段两部分。
1) 初始阶段
初始样本
| $ {\mathit{\boldsymbol{H}}}_{0}={\left[\begin{array}{ccc}G\left({\omega }_{1}\cdot {X}_{1}+{b}_{1}\right)& \cdots & G\left({\omega }_{L}\cdot {X}_{1}+{b}_{L}\right)\\ ⋮& & ⋮\\ G\left({\omega }_{1}\cdot {X}_{{N}_{0}}+{b}_{1}\right)& \cdots & G\left({\omega }_{L}\cdot {X}_{{N}_{0}}+{b}_{L}\right)\end{array}\right]}_{{N}_{0}\times L} $ | (1) |
相应地,网络的初始输出权重
| $ {\mathit{\boldsymbol{{\beta }}}}^{\left(0\right)}={\mathit {\boldsymbol{{P}}}}_{0}^{-1}{\mathit {\boldsymbol{{H}}}}_{0}^{\mathrm{T}}{\mathit {\boldsymbol{{T}}}}_{0} $ | (2) |
其中:
2) 在线学习阶段
令
| $ {\mathit{\boldsymbol{{\beta }}}}^{\left(g+1\right)}={\mathit{\boldsymbol{{\beta }}}}^{\left(g\right)}+{\mathit{\boldsymbol{{P}}}}_{g+1}{\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{T}}\left({\mathit{T}}_{g+1}-{\mathit{\boldsymbol{{H}}}}_{g+1}{\mathit{\boldsymbol{{\beta }}}}^{\left(g\right)}\right) $ | (3) |
其中:
基于多尺度局部感受野的极限学习机多模态融合算法(MM-MSLRF-ELM)于2018年由LIU等提出,是一种通过多模态融合进行物体材质识别的算法[17]。该算法不仅可以通过融合多模态信息完成分类任务,而且在提取模态信息的过程中采用了多尺度局部感受野,使算法可以学习到更完备的特征。MM-MSLRF-ELM算法具体步骤如下:
步骤1 对每种模态样本随机生成初始权重并进行正交。
设局部感受野有
为了方便起见,使用上标
| $ \begin{array}{l}{\hat{\mathit{\boldsymbol{{A}}}}}_{{}^{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}}}^{\mathrm{v}\left(s\right)},{\hat{\mathit{\boldsymbol{{A}}}}}_{{}^{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}}}^{\mathrm{h}\left(s\right)}\in {\mathbb{R}}^{{r}_{s}^{2}\times K}\\ {\hat{\mathit{\boldsymbol{{a}}}}}_{k}^{\mathrm{v}\left(s\right)},{\hat{\mathit{\boldsymbol{{a}}}}}_{k}^{\mathrm{h}\left(s\right)}\in {\mathbb{R}}^{{r}_{s}^{2}}\\ s=\mathrm{1, 2}, \cdots , S\\ k=\mathrm{1, 2}, \cdots , K\end{array} $ | (4) |
步骤2 多尺度特征映射。
每种模态第
| $ \begin{array}{l}\begin{array}{c}{C}_{i, j, k}^{\mathrm{v}\left(s\right)}\left(X\right)=\sum\limits_{m=1}^{{r}_{s}}\sum\limits_{n=1}^{{r}_{s}}\left({X}_{i+m-1, j+n-1}^{\mathrm{v}}\cdot {\mathit{\boldsymbol{{a}}}}_{{}_{m, n, k}}^{\mathrm{v}\left(s\right)}\right)\\ {C}_{i, j, k}^{\mathrm{h}\left(s\right)}\left(X\right)=\sum\limits_{m=1}^{{r}_{s}}\sum\limits_{n=1}^{{r}_{s}}\left({X}_{i+m-1, j+n-1}^{\mathrm{h}}\cdot {\mathit{\boldsymbol{{a}}}}_{{}_{m, n, k}}^{\mathrm{h}\left(s\right)}\right)\end{array}\\ s=1, 2, \cdots , S\\ k=1, 2, \cdots , K\\ i, j=1, 2, \cdots , (d-{r}_{s}+1)\end{array} $ | (5) |
步骤3 多尺度平方根池化。
在步骤2之后,对卷积特征进行池化操作,令池化图的大小与特征图的大小相同,均为
| $ \begin{array}{l}\begin{array}{c}{h}_{p, q, k}^{\mathrm{v}\left(s\right)}=\sqrt{\sum\limits_{i=p-{e}_{s}}^{p+{e}_{s}}\sum\limits_{j=q-{e}_{s}}^{q+{e}_{s}}{C}_{i, j, k}^{2\left(\mathrm{v}\left(s\right)\right)}}\\ {h}_{p, q, k}^{\mathrm{h}\left(s\right)}=\sqrt{\sum\limits_{i=p-{e}_{s}}^{p+{e}_{s}}\sum\limits_{j=q-{e}_{s}}^{q+{e}_{s}}{C}_{i, j, k}^{2\left(\mathrm{h}\left(s\right)\right)}}\end{array}\\ s=\mathrm{1, 2}, \cdots , S\\ k=\mathrm{1, 2}, \cdots , K\\ p, q=\mathrm{1, 2}, \cdots , (d-{r}_{s}+1)\end{array} $ | (6) |
若节点(i,j)不在(d-rs+1)范围内,则
步骤4 对每种模态特征进行全连接得到对应每种模态的特征组合矩阵。
将每种模态所有组合节点的值组合成一个行向量,并把
步骤5 多模态融合。
将不同模态的特征矩阵组合得到混合网络矩阵
| $ {d}^{″}=\frac{P\times N\times K\cdot \sum\limits_{s=1}^{S}{\left(d-{r}_{s}+1\right)}^{2}}{{d}^{\text{'}}} $ | (7) |
其中:
步骤6 混合矩阵的卷积和池化。
此步骤的特征提取过程与步骤2、步骤3相同,此处特征图及池化图的大小变为
步骤7 混合网络的特征全连接。
与步骤4相似,将混合网络所有组合节点的值组合成一个行向量,并把输入样本的所有行向量放在一起,得到组合矩阵
步骤8 计算输出权重。
输出权重
| $ \left\{\begin{array}{l}N\le {K}^{\text{'}}\cdot \sum\limits_{{s}^{\text{'}}=1}^{{S}^{\text{'}}}\left({d}^{\text{'}}-{r}_{{s}^{\text{'}}}+1\right)\left({d}^{″}-{r}_{{s}^{\text{'}}}+1\right),\\ \mathit{\boldsymbol{{\beta }}}={\left({\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}{\left(\frac{\mathit{I}}{C}+{\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}{\left({\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}\right)}^{-1}\mathit{T}\\ N>{K}^{\text{'}}\cdot \sum\limits_{{s}^{\text{'}}=1}^{{S}^{\text{'}}}\left({d}^{\text{'}}-{r}_{{s}^{\text{'}}}+1\right)\left({d}^{″}-{r}_{{s}^{\text{'}}}+1\right),\\ \mathit{\boldsymbol{{\beta }}}={\left(\frac{\mathit{I}}{C}+{\left({\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}{\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{-1}{\left({\mathit{\boldsymbol{{H}}}}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}\mathit{T}\end{array}\right. $ | (8) |
其中:
MM-MSLRF-ELM算法在实验过程中还对输入样本进行颜色R、G、B分离。在对输入样本进行颜色三通道分离后,在每个颜色通道设置
本文在MSLRF-OSELM[22]的基础上,结合基于多尺度局部感受野的极限学习机多模态融合算法,提出一种多模态融合的多尺度局部感受野在线序列极限学习机算法(MM-MSLRF-OSELM)。该算法将保留单模态执行过卷积操作生成的特征图,并对实际生成的(
多模态融合通过提取物体在不同模态下的信息,然后进行融合以用于物体识别和分类。该方法不仅利用多尺度局部感受野更充分地提取了特征,而且通过将不同模态下的特征进行融合,大幅提高了算法的测试精度,此外还可在线更新训练数据,在实际问题中具有更大的适用性。MM-MSLRF-OSELM算法整体架构如图 1所示,其包含(p+1)个MM-MSLRF-NET,每个MM-MSLRF-NET包含多种模态信息,在线生成的块数据集依次输入相应的网络以更新输出权重
|
Download:
|
| 图 1 MM-MSLRF-OSELM算法架构 Fig. 1 The architecture of MM-MSLRF-OSELM algorithm | |
MM-MSLRF-OSELM算法具体步骤如下:
步骤1 初始阶段。
1) 随机生成并正交化每种模态的初始权重。
设输入图像大小为
为了方便起见,使用上标
| $ \begin{array}{l}{\hat{\mathit{\boldsymbol{{A}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}\left(c\right)}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\mathrm{、}{\hat{\mathit{\boldsymbol{{A}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}\left(c\right)}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\in {\mathbb{R}}^{{r}_{s}^{2}\times K}\\ {\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, k}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\mathrm{、}{\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, k}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\in {\mathbb{R}}^{{r}_{s}^{2}}\\ {\hat{\mathit{\boldsymbol{{A}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}\left(c\right)}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}=\left[{\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, 1}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}, {\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, 2}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}, \cdots , {\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, K}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\right]\\ {\hat{\mathit{\boldsymbol{{A}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}\left(c\right)}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}=\left[{\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, 1}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}, {\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, 2}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}, \cdots , {\hat{\mathit{\boldsymbol{{a}}}}}_{\mathrm{i}\mathrm{n}\mathrm{i}\mathrm{t}, c, K}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\right]\\ c\in \left\{\mathrm{R}, \mathrm{G}, \mathrm{B}\right\}\\ k=\mathrm{1, 2}, \cdots , K\\ s=\mathrm{1, 2}, \cdots , S\end{array} $ | (9) |
2) 每种模态的多尺度特征映射。
视觉模态和触觉加速度模态在
| $ \begin{array}{l}\begin{array}{c}{C}_{i, j, c, k}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\left({\mathit {\boldsymbol{{X}}}}^{\left(c\right)}\right)=\sum\limits_{m=1}^{{r}_{s}}\sum\limits_{n=1}^{{r}_{s}}\left({X}_{i+m-1, j+n-1}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(c\right)}\cdot {\mathit {\boldsymbol{{a}}}}_{m, n, c, k}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\right)\hspace{1em}\hspace{1em}\hspace{1em}\\ {C}_{i, j, c, k}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\left({\mathit {\boldsymbol{{X}}}}^{\left(c\right)}\right)=\sum\limits_{m=1}^{{r}_{s}}\sum\limits_{n=1}^{{r}_{s}}\left({X}_{i+m-1, j+n-1}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(c\right)}\cdot {\mathit {\boldsymbol{{a}}}}_{m, n, c, k}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\right)\mathrm{ }\mathrm{ }\mathrm{ }\end{array}\\ c\in \left\{\mathrm{R}, \mathrm{G}, \mathrm{B}\right\}\\ k=1, 2, \cdots , K\\ s=1, 2, \cdots , S\\ i, j=1, 2, \cdots , \left(d-{r}_{s}+1\right)\end{array} $ | (10) |
3) 每种模态的多尺度平方根池化。
视觉模态、触觉加速度模态在
| $ \begin{array}{l}\begin{array}{c}{h}_{p, q, c, k}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}=\sqrt{\sum\limits_{i=p-{e}_{s}}^{p+{e}_{s}}\sum\limits_{j=q-{e}_{s}}^{q+{e}_{s}}{\left({C}_{i, j, c, k}^{\mathrm{i}\mathrm{m}\mathrm{a}\mathrm{g}\mathrm{e}\left(s\right)}\right)}^{2}}\hspace{1em}\hspace{1em}\hspace{1em}\\ {h}_{p, q, c, k}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}=\sqrt{\sum\limits_{i=p-{e}_{s}}^{p+{e}_{s}}\sum\limits_{j=q-{e}_{s}}^{q+{e}_{s}}{\left({C}_{i, j, c, k}^{\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{e}\mathrm{l}\mathrm{e}\mathrm{r}\mathrm{a}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}\left(s\right)}\right)}^{2}}\mathrm{ }\mathrm{ }\mathrm{ }\end{array}\mathrm{ }\mathrm{ }\\ c\in \left\{\mathrm{R}, \mathrm{G}, \mathrm{B}\right\}\\ k=\mathrm{1, 2}, \cdots , K\\ s=\mathrm{1, 2}, \cdots , S\\ p, q=\mathrm{1, 2}, \cdots , (d-{r}_{s}+1)\end{array} $ | (11) |
若节点
4) 对每种模态进行特征全连接。
将视觉模态和触觉加速度模态输入样本对应的组合节点值分别连接成行向量,并将
5) 模态融合。
将2种模态的组合特征向量矩阵组合成1个混合矩阵
6) 多模态多尺度特征映射与平方根池化。
将2种模态融合后得到的混合矩阵输入到一个新的混合网络,该网络设有
7) 多模态特征向量全连接。
此时的特征全连接方法与第4步相似,得到混合网络的组合层矩阵
8) 计算初始输出权重
根据式(8)计算初始输出权重
步骤2 在线学习阶段。
1) 设
2) 由式(12)根据
| $ \begin{array}{l}{\mathit{\boldsymbol{{\beta }}}}^{\left(g+1\right)}={\mathit{\boldsymbol{{\beta }}}}^{\left(g\right)}+{\mathit{\boldsymbol{{P}}}}_{g+1}{\left({\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}\left({\mathit {\boldsymbol{{T}}}}_{g+1}-{\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}{\mathit{\boldsymbol{{\beta }}}}^{\left(g\right)}\right)\\ {\mathit{\boldsymbol{{P}}}}_{g+1}={\mathit{\boldsymbol{{P}}}}_{g}-{\mathit{\boldsymbol{{P}}}}_{g}{\left({\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}{\left(\mathit {\boldsymbol{{I}}}+{\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}{\mathit{\boldsymbol{{P}}}}_{g}{\left({\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}\right)}^{\mathrm{T}}\right)}^{-1}\\ \mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }{\mathit{\boldsymbol{{H}}}}_{g+1}^{\mathrm{h}\mathrm{y}\mathrm{b}\mathrm{r}\mathrm{i}\mathrm{d}}{\mathit{\boldsymbol{{P}}}}_{g}\end{array} $ | (12) |
其中:
3) 令
| $ \mathit{\boldsymbol{{\beta }}}={\mathit{\boldsymbol{{\beta }}}}^{\left(g+1\right)} $ | (13) |
为了验证本文所提算法(MM-MSLRF-OSELM)的有效性,在TUM触觉纹理数据集上进行实验。TUM触觉纹理数据集是一个新型的多模态数据集,包含108种不同物体的触觉加速度、摩擦力、金属检测信号、反射率、声音和视觉图像信号,且TUM触觉纹理数据集每种信号均包含2组数据(有约束条件下记录的数据和无约束条件下的数据),数据是由10个自由手(5个线性和5个圆形运动)记录组成。本文重组2组数据并随机从每组每个类别中选择一个样本作为测试集,其他数据作为训练集。每个模态设置(
本文实验主要选取TUM数据集中的视觉图像信号和触觉加速度信号,输入样本预处理过程参考文献[17]。在实验中,分别通过单模态实验和两模态融合实验来验证算法的性能,具体实验设置如下:
1) 单模态实验。将处理后得到的视觉图像和触觉加速度频谱图作为输入样本进行实验,本文局部感受野选择2个不同的尺度,且每个尺度通道设置2个特征图,为了验证块数据集大小对实验结果的影响以及本文算法是否可以使用新数据更新训练网络,设置数据块大小分别为162、243、486,具体设置如表 1所示。
|
下载CSV 表 1 单模态实验参数设置 Table 1 Parameters setting of single-modal experiment |
2) 两模态融合实验。本文通过将视觉模态和触觉加速度模态特征进行融合,形成混合网络进行实验以验证模态融合的有效性。在对每种模态分别提取特征时,本文采用2个不同尺度的局部感受野,感受野大小与单模态实验中的感受野大小相同。考虑计算机的内存问题,两模态融合后得到的混合网络进行特征提取时也选择2个不同尺度的局部感受野,每个尺度通道的特征图数量均设置为2。本文设置3组2个尺度的局部感受野,分别为
|
下载CSV 表 2 两模态融合实验参数设置 Table 2 Parameters setting of two-modal fusion experiment |
在2个不同尺度局部感受野的情况下,本文采用十折交叉验证统计实验结果。单模态实验中分批训练数据块大小对实验结果的影响如表 3和表 4所示。由表 3和表 4可以看出,块数据集越大,即训练样本越多,训练精度越高,整体训练时间越快,相对应的测试精度随着训练精度的不同也有所变化,由于测试数据大小无变化,因此测试时间几乎无变化。
|
下载CSV 表 3 数据块大小不同时不同模态的训练精度及训练时间 Table 3 Training accuracy and training time of different modes corresponding to data block size |
|
下载CSV 表 4 数据块大小不同时不同模态的测试精度及测试时间 Table 4 Testing accuracy and testing time of different modes corresponding to data block size |
两模态融合实验结果如表 5所示,由表 5可以看出,局部感受野大小对测试结果有明显影响,局部感受野越小,分类精度越高,局部感受野由小到大对应的测试精度分别为65.89%、59.63%、48.01%。通过对比表 4和表 5可以看出,两模态融合的分类精度远高于单模态,验证了模态融合的优势以及可行性。
|
下载CSV 表 5 融合网络中不同局部感受野时的测试精度及测试时间 Table 5 Testing accuracy and testing time of different local receptive field sizes in fusion network |
为了更好地说明本文算法的有效性,将本文算法与MM-MSLRF-ELM[17]算法进行对比,结果如表 6所示,单模态实验时两种对比算法的参数设置相同,MM-MSLRF-OSELM算法的测试精度在2种模态下均高于MM-MSLRF-ELM算法,同时时间消耗也都接近MM-MSLRF-ELM算法的3倍。因为本文实验的时间单位为s,所以3倍的时间换算法测试精度10%的提升(视觉图像)是值得的。在两模态融合的对比实验中,由表 6可以观察到,虽然MM-MSLRF-OSELM的测试精度高于MM-MSLRF-ELM,但是提高幅度较低,这是由于局部感受野大小设置的原因,具体分析如下:
在模态融合网络局部感受野同样设置为2个尺度且大小分别为
|
下载CSV 表 6 不同模态时的测试精度与测试时间 Table 6 Testing accuracy and testing time in different modals |
本文提出一种MM-MSLRF-OSELM算法,选用TUM数据集中的视觉图像和触觉加速度信息进行实验,通过实验证明两模态融合后的分类精度明显高于单模态的分类精度,且通过与MM-MSLRF-ELM算法进行对比,进一步证明本文算法具有较好的分类性能。MM-MSLRF-OSELM在训练过程中仅对新数据进行在线更新训练,在实际中适用性更强。由于本文利用了不同模态的信息,而这些信息中可能存在一些冗余特征,因此下一步将采用属性约简算法对冗余特征进行约简。
| [1] |
ZHENG H T, FANG L, JI M Q, et al. Deep learning for surface material classification using haptic and visual information[J]. IEEE Transactions on Multimedia, 2016, 18(12): 2407-2416. DOI:10.1109/TMM.2016.2598140 |
| [2] |
STRESE M, SCHUWERK C, IEPURE A, et al. Multimodal feature-based surface material classification[J]. IEEE Transactions on Haptics, 2017, 10(2): 226-239. DOI:10.1109/TOH.2016.2625787 |
| [3] |
WANG Y W, DONG X W, CHEN Y. Multimodal biometric recognition algorithm based on sparse representation[J]. Computer Engineering, 2016, 42(10): 219-225. (in Chinese) 王玉伟, 董西伟, 陈芸. 基于稀疏表示的多模态生物特征识别算法[J]. 计算机工程, 2016, 42(10): 219-225. DOI:10.3969/j.issn.1000-3428.2016.10.038 |
| [4] |
YANG N. Study on gait recognition method based on visual-tactile features fusion[D]. Tianjin: Hebei University of Technology, 2015. (in Chinese) 杨楠. 基于视触觉多特征融合的步态识别方法研究[D]. 天津: 河北工业大学, 2015. |
| [5] |
LI F X. Research and application based on ELM-LRF[D]. Taiyuan, Taiyuan University of Technology, 2017. (in Chinese) 李凤雪. 基于局部感受野极限学习机的研究与应用[D]. 太原: 太原理工大学, 2017. |
| [6] |
FENG D Z, FRANCIS L. State of the art and future directions of multimodal studies: a review of the 7th international conference on multimodality[J]. Journal of Foreign Languages, 2015, 38(4): 108-113. (in Chinese) 冯德正, FRANCIS L. 多模态研究的现状与未来——第七届国际多模态会议评述[J]. 上海外国语大学学报, 2015, 38(4): 108-113. |
| [7] |
LIU H P, WU Y P, SUN F C, et al. Weakly paired multimodal fusion for object recognition[J]. IEEE Transactions on Automation Science and Engineering, 2018, 15(2): 784-795. DOI:10.1109/TASE.2017.2692271 |
| [8] |
LIU H P, SUN F C, FANG B, et al. Multimodal measurements fusion for surface material categorization[J]. IEEE Transactions on Instrumentation and Measurement, 2018, 67(2): 246-256. DOI:10.1109/TIM.2017.2764298 |
| [9] |
YANG B, ZHONG J Y. Review of convolution neural network[J]. Journal of University of South China (Science and Technology), 2016, 30(3): 66-72. (in Chinese) 杨斌, 钟金英. 卷积神经网络的研究进展综述[J]. 南华大学学报(自然科学版), 2016, 30(3): 66-72. DOI:10.3969/j.issn.1673-0062.2016.03.016 |
| [10] |
SUN X S. Research and application of multi-layer convolution neural network[D]. Hangzhou: Hangzhou Dianzi University, 2018. (in Chinese) 孙新胜. 基于多层卷积神经网络的研究与应用[D]. 杭州: 杭州电子科技大学, 2018. |
| [11] |
YANG N, NAN L, ZHANG D Y, et al. Research on image interpretation based on deep learning[J]. Infrared and Laser Engineering, 2018, 47(2): 9-16. (in Chinese) 杨楠, 南琳, 张丁一, 等. 基于深度学习的图像描述研究[J]. 红外与激光工程, 2018, 47(2): 9-16. |
| [12] |
HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks[C]//Proceedings of 2004 IEEE International Joint Conference on Neural Networks. Washington D.C., USA: IEEE Press, 2004: 985-990.
|
| [13] |
HUANG G B, BAI Z, KASUN L L C, et al. Local receptive fields based extreme learning machine[J]. Computational Intelligence Magazine, 2015, 10(2): 18-29. DOI:10.1109/MCI.2015.2405316 |
| [14] |
HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501. |
| [15] |
HUANG G B, ZHOU H M, DING X J, et al. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man and Cybernetics, Part B(Cybernetics), 2012, 42(2): 513-529. DOI:10.1109/TSMCB.2011.2168604 |
| [16] |
HUANG J H, YU Z L, CAI Z Q, et al. Extreme learning machine with multi-scale local receptive fields for texture classification[J]. Multidimensional Systems and Signal Processing, 2016, 28: 995-1011. DOI:10.1007/s11045-016-0414-3 |
| [17] |
LIU H P, FANG J, XU X Y, et al. Surface material recognition using active multi-modal extreme learning machine[J]. Cognitive Computation, 2018, 10: 937-950. DOI:10.1007/s12559-018-9571-z |
| [18] |
LIANG N T, HUANG G B, SARATCHANDRAN P, et al. A fast and accurate online sequential learning algorithm for feedforward networks[J]. IEEE Transactions on Neural Networks, 2006, 17(6): 1411-1423. DOI:10.1109/TNN.2006.880583 |
| [19] |
LAN Y, SOH Y C, HUANG G B. A constructive enhancement for online sequential extreme learning machine[C]//Proceedings of 2009 International Joint Conference on Neural Network. Washington D.C., USA: IEEE Press, 2009: 1708-1713.
|
| [20] |
FANG J. The research based on LRF-ELM algorithm and its application in object material classification[D]. Taiyuan, Taiyuan University of Technology, 2018. (in Chinese) 方静. 基于LRF-ELM算法的研究及其在物体材质分类中的应用[D]. 太原: 太原理工大学, 2018. |
| [21] |
FANG J, XU X Y, LIU H P, et al. Local receptive field based extreme learning machine with three channels for histopathological image classification[J]. International Journal of Machine Learning and Cybernetics, 2018, 10(7): 1437-1447. |
| [22] |
XU X Y, FANG J, LI Q, et al. Multi-scale local receptive field based online sequential extreme learning machine for material classification[C]//Proceedings of ICCSIP'18. Berlin, Germany: Springer, 2018: 37-53.
|
2021, Vol. 47
