开放科学(资源服务)标志码(OSID):
支持向量机(Support Vector Machine,SVM)是20世纪90年代由VAPNIK[1-2]提出的一种机器学习算法。与传统的以降低经验风险为目标的神经网络相比,SVM的主要思想是最小化结构风险,这使得SVM具有良好的泛化性能[3-4]。目前,SVM在入侵检测[5]、图像处理[6]、故障诊断[7]、干扰识别[8]等领域得到广泛应用。然而,SVM在训练大规模数据集时,存在时间复杂度高导致训练速度慢的问题[9]。KHEMCHANDANI等[10]提出孪生支持向量机(Twin Support Vector Machine,TSVM)。与SVM相比,TSVM仅需求解两个较小规模的二次规划问题,因此训练时间仅为SVM的1/4左右。CHEN等[11]提出投影孪生支持向量机(Projection Twin Support Vector Machine,PTSVM)。PTSVM通过为每个类寻找一个最优投影轴使投影点类内方差最小化,构建分类模型。
PENG[12]把TSVM的思想用于回归领域,提出孪生支持向量回归(Twin Support Vector Regression,TSVR)算法。TSVR通过求解两个较小规模的二次规划问题寻求回归函数,与传统SVR相比,TSVR具有更好的泛化性能和更快的训练速度。CHEN等[13]引入Sigmoid光滑函数,对TSVR的目标函数进行光滑处理,提出光滑孪生支持向量回归(Smooth Twin Support Vector Regression,STSVR)算法。STSVR通过求解一对无约束优化问题,获得了比TSVR更快的训练速度。PENG等[14]基于PTSVM的思想,提出投影孪生支持向量回归(Projection Twin Support Vector Regression,PTSVR)算法,包括双边移位投影孪生支持向量回归(Pair-shifted PTSVR,PPTSVR)算法和单边移位投影孪生支持向量回归(Single-shifted PTSVR,SPTSVR)算法。PTSVR将训练集中的每个训练点进行上下移位得到两个新的移位集,从而利用PTSVM的思想求解两个最优超平面的法向量。PPTSVR和SPTSVR的主要区别在于,PPTSVR在两个移位集上构建回归函数,而SPTSVR则是在原始集和一个移位集上构建回归函数。实验结果表明,PTSVR有着比TSVR更好的预测性能。
然而,PPTSVR在寻找最优超平面的过程中,将所有训练样本对超平面的作用视为相同,没有反映数据在空间中的分布情况,当训练样本中存在异常点时,会削弱算法的拟合性能。本文采用孤立森林法赋予每个训练样本不同的权值,通过赋予潜在的异常点很小的权值,削弱异常点对超平面构造的影响,从而提高算法的拟合性能。同时,为了避免在对偶空间中求解二次规划问题,引入正号函数,将有约束优化问题转化为不光滑的无约束优化问题,并采用Sigmoid光滑函数进行光滑处理,提出一种加权光滑投影孪生支持向量回归(Weighted Smooth Projection Twin Support Vector Regression,WSPTSVR)算法,以证明其任意阶光滑且全局收敛的特性,并采用牛顿迭代法进行求解。
1 WSPTSVR算法本节首先采用孤立森林法判断样本中的潜在异常点,并通过异常分数机制赋予每个样本不同的权值;其次引入Sigmoid光滑函数,提出WSPTSVR算法,并证明其具有全局唯一最优解;最后在原空间中使用牛顿迭代法进行求解。
1.1 基于孤立森林法的加权系数确定孤立森林法能够有效地检测出样本中的潜在异常点,即使样本中没有异常点,也能够根据异常分数赋予每个样本相应的权值,从而提高算法的拟合性能[15-17]。孤立森林法首先递归地分割给定样本集,直到每个样本都被单独分离出来,然后根据每个样本分离的路径长度计算其异常分数,根据异常分数大小判断样本是否为异常点并赋予每个样本点相应的权值。通过孤立森林法确定加权系数共分为以下3个步骤:
1)通过训练样本的子集构建
2)在训练后的孤立森林中,根据每个样本点分离所需的路径长度赋予其相应的异常分数
$ {S}_{i}={2}^{-\frac{E\left(h\right(i\left)\right)}{c\left(n\right)}} $ | (1) |
其中:
$ c\left(n\right)=2H(n-1)-2(n-1)/n $ | (2) |
其中:
3)通过孤立森林法中的异常分数机制为每个样本点赋予相应的权值:
$ {\rho }_{i}=1-{S}_{i}, i=\mathrm{1, 2}, \cdots , n $ | (3) |
其中:
文献[15]的研究表明,当样本点的异常分数
$ {\boldsymbol{W}}_{ij}=\left\{\begin{array}{l}{\rho }_{i}, \mathrm{当}i=j\mathrm{且}{S}_{i}\le 0.6\\ {10}^{-5}, \mathrm{当}i=j\mathrm{且}{S}_{i} > 0.6\\ 0, \mathrm{其}\mathrm{他}\end{array}\right. $ | (4) |
假设训练集用
在双边移位投影孪生支持向量回归算法的目标函数中引入权值矩阵
$ \underset{{\boldsymbol{\omega }}_{1}, {\delta }_{1}, \boldsymbol{\xi }}{\mathrm{m}\mathrm{i}\mathrm{n}}\frac{{C}_{3}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{1}\right|{|}_{2}^{2}+{\delta }_{1}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\right) +{C}_{1}{\boldsymbol{e}}^{\mathrm{T}}\boldsymbol{\xi }, \mathrm{s}.\mathrm{t}.\boldsymbol{F}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\le -\boldsymbol{e}+\boldsymbol{\xi }, \boldsymbol{\xi }\ge 0 $ | (5) |
$ \underset{{\boldsymbol{\omega }}_{2}, {\delta }_{2}, \boldsymbol{\eta }}{\mathrm{m}\mathrm{i}\mathrm{n}} \frac{{C}_{4}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{2}\right|{|}_{2}^{2}+{\delta }_{2}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\right)+{C}_{2}{\boldsymbol{e}}^{\mathrm{T}}\boldsymbol{\eta }, \mathrm{s}.\mathrm{t}.\boldsymbol{G}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\ge \boldsymbol{e}-\boldsymbol{\eta }, \;\;\;\boldsymbol{\eta }\ge 0 $ | (6) |
其中:
然而,式(5)和式(6)需要在对偶空间中求解二次规划问题,训练速度较慢。为了加快训练速度,采用正号函数将其转化为无约束优化问题,在原空间中直接进行求解。
由Karush-Kuhn-Tucker(KKT)条件可得:
$ \boldsymbol{\xi }=\mathrm{m}\mathrm{a}\mathrm{x}\left\{0, \boldsymbol{e}+\boldsymbol{F}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\right\} $ | (7) |
$ \boldsymbol{\eta }=\mathrm{m}\mathrm{a}\mathrm{x}\left\{0, \boldsymbol{e}-\boldsymbol{G}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\right\} $ | (8) |
式(5)和式(6)可改写为如下无约束优化问题:
$ \underset{{\boldsymbol{\omega }}_{1}, {\delta }_{1}}{\mathrm{m}\mathrm{i}\mathrm{n}}\frac{{C}_{3}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{1}\right|{|}_{2}^{2}+{\delta }_{1}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\right)+{C}_{1}{\boldsymbol{e}}^{\mathrm{T}}\mathrm{m}\mathrm{a}\mathrm{x}\left\{0, \boldsymbol{e}+\boldsymbol{F}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\right\} $ | (9) |
$ \underset{{\boldsymbol{\omega }}_{2}, {\delta }_{2}}{\mathrm{m}\mathrm{i}\mathrm{n}}\frac{{C}_{4}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{2}\right|{|}_{2}^{2}+{\delta }_{2}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\right)+{C}_{2}{\boldsymbol{e}}^{\mathrm{T}}\mathrm{m}\mathrm{a}\mathrm{x}\left\{0, \boldsymbol{e}-\boldsymbol{G}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\right\} $ | (10) |
定理1 [18] 无约束优化问题式(9)和式(10)连续但不光滑。
证明 分别令正号函数
定理1表明式(9)和式(10)不光滑,因此无法使用牛顿迭代法等梯度优化方法求解。为此,采用Sigmoid光滑函数逼近正号函数
Sigmoid光滑函数
$ p(\boldsymbol{x}, \alpha )=\boldsymbol{x}+\frac{1}{\alpha }\mathrm{l}\mathrm{o}{\mathrm{g}}_{a}(1+{\mathrm{e}}^{-\alpha x}) $ | (11) |
其中:
据此可得正号函数
$ ({\boldsymbol{x}}_{1}{)}_{+}=p(\boldsymbol{e}+\boldsymbol{F}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}, \alpha ) $ | (12) |
$ ({\boldsymbol{x}}_{2}{)}_{+}=p(\boldsymbol{e}-\boldsymbol{G}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}, \alpha ) $ | (13) |
将式(12)和式(13)分别代入式(9)和式(10),得到线性情况下加权光滑投影孪生支持向量回归算法的两个无约束优化问题,如式(14)、式(15)所示:
$ \underset{{\boldsymbol{\omega }}_{1}, {\delta }_{1}}{\mathrm{m}\mathrm{i}\mathrm{n}} {P}_{1}=\frac{{C}_{3}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{1}\right|{|}^{2}+{\delta }_{1}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}\right)+{C}_{1}{\boldsymbol{e}}^{\mathrm{T}}p(\boldsymbol{e}+\boldsymbol{F}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{1}^{\mathrm{T}}& {\delta }_{1}\end{array}\right]}^{\mathrm{T}}, \alpha ) $ | (14) |
$ \underset{{\boldsymbol{\omega }}_{2}, {\delta }_{2}}{\mathrm{m}\mathrm{i}\mathrm{n}} {P}_{2}=\frac{{C}_{4}}{2}\left(\right|\left|{\boldsymbol{\omega }}_{2}\right|{|}^{2}+{\delta }_{2}^{2})+\frac{1}{2}(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}{)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(\boldsymbol{E}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}\right) +{C}_{2}{\boldsymbol{e}}^{\mathrm{T}}p(\boldsymbol{e}-\boldsymbol{G}{\left[\begin{array}{cc}{\boldsymbol{\omega }}_{2}^{\mathrm{T}}& {\delta }_{2}\end{array}\right]}^{\mathrm{T}}, \alpha ) $ | (15) |
引理1[19] 若矩阵
定理2 式(14)中的
证明 对任意的正常数
令
$ \nabla {P}_{1}\left({\boldsymbol{u}}_{1}\right)=({C}_{3}\boldsymbol{I}+{\boldsymbol{E}}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\boldsymbol{E}){\boldsymbol{u}}_{1}+\\ {C}_{1}{\boldsymbol{F}}^{\mathrm{T}}\frac{1}{1+\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (\boldsymbol{F}{\boldsymbol{u}}_{1}+\boldsymbol{e}\left)\right)} $ | (16) |
$ \begin{array}{l}{\nabla }^{2}{P}_{1}\left({\boldsymbol{u}}_{1}\right)={C}_{3}\boldsymbol{I}+{\boldsymbol{E}}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\boldsymbol{E}+\\ \alpha {C}_{1}{\boldsymbol{F}}^{\mathrm{T}}\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left(\frac{\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (\boldsymbol{F}{\boldsymbol{u}}_{1}+\boldsymbol{e}\left)\right)}{{\left(1+\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (\boldsymbol{F}{\boldsymbol{u}}_{1}+\boldsymbol{e}\left)\right)\right)}^{2}}\right)\boldsymbol{F}\end{array} $ | (17) |
考虑到权值矩阵和对角矩阵都是正定阵,两者可以分别分解为
$ \begin{array}{l}{\nabla }^{2}{P}_{1}\left({\boldsymbol{u}}_{1}\right)={C}_{3}\boldsymbol{I}+{\boldsymbol{E}}^{\mathrm{T}}{\boldsymbol{P}}^{\mathrm{T}}\boldsymbol{P}\boldsymbol{E}+\alpha {C}_{1}{\boldsymbol{F}}^{\mathrm{T}}{\boldsymbol{Q}}^{\mathrm{T}}\boldsymbol{Q}\boldsymbol{F}=\\ {C}_{3}\boldsymbol{I}+{\left(\boldsymbol{P}\boldsymbol{E}\right)}^{\mathrm{T}}\boldsymbol{P}\boldsymbol{E}+\alpha {C}_{1}{\left(\boldsymbol{Q}\boldsymbol{F}\right)}^{\mathrm{T}}\boldsymbol{Q}\boldsymbol{F}\end{array} $ | (18) |
其中:
式(14)和式(15)二阶可微,因此可以使用具有快速收敛能力的牛顿迭代法进行求解[20-21]。由定理2可知式(14)和式(15)是严格凸的,因此使用牛顿迭代法求解可以全局收敛,并得到唯一最优解。牛顿迭代法可表示如下:
$ {\boldsymbol{u}}_{1}^{{k}+1}={\boldsymbol{u}}_{1}^{{k}}-\left({\nabla }^{2}{P}_{1}\right({\boldsymbol{u}}_{1}{\left)\right)}^{-1}(\nabla {P}_{1}({\boldsymbol{u}}_{1}\left)\right) $ | (19) |
$ {\boldsymbol{u}}_{2}^{{k}+1}={\boldsymbol{u}}_{2}^{{k}}-\left({\nabla }^{2}{P}_{2}\right({\boldsymbol{u}}_{2}{\left)\right)}^{-1}(\nabla {P}_{2}({\boldsymbol{u}}_{2}\left)\right) $ | (20) |
其中:
$ \nabla {P}_{2}\left({\boldsymbol{u}}_{2}\right)=({C}_{4}\boldsymbol{I}+{\boldsymbol{E}}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\boldsymbol{E}){\boldsymbol{u}}_{2}-\\ {C}_{2}{\boldsymbol{G}}^{\mathrm{T}}\frac{1}{1+\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (-\boldsymbol{G}{\boldsymbol{u}}_{2}+\boldsymbol{e}\left)\right)} $ | (21) |
$ \begin{array}{l}{\nabla }^{2}{P}_{2}\left({\boldsymbol{u}}_{2}\right)={C}_{4}\boldsymbol{I}+{\boldsymbol{E}}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\boldsymbol{E}+\\ \alpha {C}_{2}{\boldsymbol{G}}^{\mathrm{T}}\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left(\frac{\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (-\boldsymbol{G}{\boldsymbol{u}}_{2}+\boldsymbol{e}\left)\right)}{(1+\mathrm{e}\mathrm{x}\mathrm{p}(-\alpha (-\boldsymbol{G}{\boldsymbol{u}}_{2}{+\boldsymbol{e}\left)\right))}^{2}}\right)\boldsymbol{G}\end{array} $ | (22) |
首先,通过上述牛顿迭代法求解式(14)和式(15)可得两个最优超平面的法向量
然后,通过求解式(23)和式(24)两个无约束最小化问题,可得两个最优超平面的偏置分别如式(25)、式(26)所示:
$ \mathrm{m}\mathrm{i}\mathrm{n}\left\{\frac{1}{2}\sum\limits _{i=1}^{n}({\boldsymbol{\omega }}_{1}^{\mathrm{T}}{\boldsymbol{x}}_{i}+{\delta }_{1}({\boldsymbol{y}}_{i}+\epsilon )+{b}_{1}{)}^{2}\right\} $ | (23) |
$ \mathrm{m}\mathrm{i}\mathrm{n}\left\{\frac{1}{2}\sum\limits _{i=1}^{n}({\boldsymbol{\omega }}_{2}^{\mathrm{T}}{\boldsymbol{x}}_{i}+{\delta }_{2}({\boldsymbol{y}}_{i}-\epsilon )+{b}_{2}{)}^{2}\right\} $ | (24) |
$ {b}_{1}=-{\boldsymbol{\omega }}_{1}^{\mathrm{T}}\stackrel{-}{\boldsymbol{x}}-{\delta }_{1}(\stackrel{-}{\boldsymbol{y}}+\epsilon ) $ | (25) |
$ {b}_{2}=-{\boldsymbol{\omega }}_{2}^{\mathrm{T}}\stackrel{-}{\boldsymbol{x}}-{\delta }_{2}(\stackrel{-}{\boldsymbol{y}}-\epsilon ) $ | (26) |
在通常情况下,
最终,可得回归函数如下:
$ \begin{array}{l}f\left(\boldsymbol{x}\right)=\frac{1}{2}\left({f}_{1}\left(\boldsymbol{x}\right)+{f}_{2}\left(\boldsymbol{x}\right)\right)=\\ \;\;\;\;\;\;\;\;\;\;\;\;\;-\frac{1}{2}{\left(\frac{{\boldsymbol{\omega }}_{1}}{{\delta }_{1}}+\frac{{\boldsymbol{\omega }}_{2}}{{\delta }_{2}}\right)}^{\mathrm{T}}\boldsymbol{x}-\frac{1}{2}\left(\frac{{b}_{1}}{{\delta }_{1}}+\frac{{b}_{2}}{{\delta }_{2}}\right)\end{array} $ | (27) |
在非线性情况下,利用核技巧,构造加权光滑投影孪生支持向量回归算法的两个无约束优化问题如下:
$ \begin{array}{l}\mathrm{m}\mathrm{i}\mathrm{n}{P}_{1}=\frac{1}{2}\left(φ \right(\boldsymbol{E}\left)\right[{\boldsymbol{\omega }}_{1}^{\mathrm{T}}{\delta }_{1}{\left]\right)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(φ \right(\boldsymbol{E}\left)\right[{\boldsymbol{\omega }}_{1}^{\mathrm{T}}{\delta }_{1}{]}^{\mathrm{T}})+\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\frac{{C}_{3}}{2}\left(\left|\right|{\boldsymbol{\omega }}_{1}^{}|{|}^{2}+{\delta }_{1}^{2}\right)+\\ \;\;\;\;\;\;\;\;\;\;\;\;\;{C}_{1}{\boldsymbol{e}}^{\mathrm{T}}p(\boldsymbol{e}+φ(\boldsymbol{F}\left)\right[{\boldsymbol{\omega }}_{1}^{\mathrm{T}}{\delta }_{1}{]}^{\mathrm{T}}, \alpha ) \end{array}$ | (28) |
$ \begin{array}{l}\mathrm{m}\mathrm{i}\mathrm{n}{P}_{2}=\frac{1}{2}\left(φ \right(\boldsymbol{E}\left)\right[{\boldsymbol{\omega }}_{2}^{\mathrm{T}}{\delta }_{2}{\left]\right)}^{\mathrm{T}}{\boldsymbol{W}}_{ij}\left(φ \right(\boldsymbol{E}\left)\right[{\boldsymbol{\omega }}_{2}^{\mathrm{T}}{\delta }_{2}{]}^{\mathrm{T}})+\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\frac{{C}_{4}}{2}\left(\left|\right|{\boldsymbol{\omega }}_{2}^{}|{|}^{2}+{\delta }_{2}^{2}\right)+\\ \;\;\;\;\;\;\;\;\;\;\;\;\;{C}_{2}{\boldsymbol{e}}^{\mathrm{T}}p(\boldsymbol{e}-φ (\boldsymbol{G}\left)\right[{\boldsymbol{\omega }}_{2}^{\mathrm{T}}{\delta }_{2}{]}^{\mathrm{T}}, \alpha )\end{array} $ | (29) |
其中:
定理2同样适用于非线性加权光滑投影孪生支持向量回归算法,即式(28)和式(29)是连续可微的严格凸函数,亦可采用具有快速收敛能力的牛顿迭代法进行求解。
通过求解式(28)和式(29)可得两个最优超平面的法向量
$ \begin{array}{l}f\left(\boldsymbol{x}\right)=\frac{1}{2}\left({f}_{1}\left(\boldsymbol{x}\right)+{f}_{2}\left(\boldsymbol{x}\right)\right)=\\ \;\;\;\;\;\;\;\;\;\;\;\;\;-\frac{1}{2}{\left(\frac{{\boldsymbol{\omega }}_{1}}{{\delta }_{1}}+\frac{{\boldsymbol{\omega }}_{2}}{{\delta }_{2}}\right)}^{\mathrm{T}}φ \left(\boldsymbol{x}\right)-\frac{1}{2}\left(\frac{{b}_{1}}{{\delta }_{1}}+\frac{{b}_{2}}{{\delta }_{2}}\right)\end{array} $ | (30) |
在线性情况下,采用牛顿迭代法训练加权光滑投影孪生支持向量回归算法的过程如下:
输入 惩罚参数
输出 回归函数
步骤1 通过式(4)计算权值矩阵
步骤2 给定任意初始点
步骤3 基于
步骤4 通过式(27)计算
非线性情况跟线性情况类似,此处省略。
1.5 时间复杂度分析本节将WSPTSVR算法的时间复杂度与TSVR[12]、STSVR[13]、PTSVR[14]以及快速聚类加权孪生支持向量回归(Fast Clustering-based Weighted Twin Support Vector Regression,FCWTSVR)算法[9]进行对比。由于加法的时间复杂度远小于乘法的时间复杂度,因此本文只考虑矩阵乘法运算的次数。另外,核矩阵的求解是所有算法都不可避免的,因此也不作考虑。
PPTSVR、SPTSVR与TSVR一样,在对偶空间中求解二次规划问题,其时间复杂度为
为了验证WSPTSVR算法的有效性,将其与TSVR、STSVR、PPTSVR、SPTSVR以及FCWTSVR分别在基准测试数据集和人工测试函数上进行比较。首先对数据集进行归一化处理,然后采用标准的五折交叉验证法将数据集划分为训练集和测试集。采用RMSE、MAE、ET这3个性能指标来综合评价回归算法的性能:
$ {R}_{\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}}=\sqrt{\frac{1}{n}\sum\limits _{i=1}^{n}({\widehat{\boldsymbol{y}}}_{i}-{\boldsymbol{y}}_{i}{)}^{2}} $ | (31) |
$ {M}_{\mathrm{M}\mathrm{A}\mathrm{E}}=\frac{1}{n}\sum\limits _{i=1}^{n}|{\widehat{\boldsymbol{y}}}_{i}-{\boldsymbol{y}}_{i}| $ | (32) |
$ {E}_{\mathrm{E}\mathrm{T}}=\frac{\sum\limits _{i=1}^{n}({\widehat{\boldsymbol{y}}}_{i}-{\boldsymbol{y}}_{i}{)}^{2}}{\sum\limits _{i=1}^{n}({\boldsymbol{y}}_{i}{-\stackrel{-}{\boldsymbol{y}})}^{2}} $ | (33) |
其中:
通常地,RMSE的值越小,算法的预测性能越好;MSE的值越小,算法的预测误差越小;ET的值越小,表明预测值与真实值的一致性越好。一个好的回归算法应该综合考量RMSE、MAE和ET的值。
此外,还分别统计了各算法的CPU运行时间。所有实验都是在MATLAB 2019a平台上用Intel i5-9400F@2.90 GHz处理器、16 GB内存的计算机完成的,并且所有的实验结果均取20次独立运行结果的平均值。
参数选择与算法性能密切相关,实验采用网格搜索法选取最优参数。由于
为了对比各个算法的综合性能,将其在7个基准测试数据集上进行测试,使用的基准测试数据集如表 1所示,其中样本数最小为103,最大为9 568,它们可以从UCI机器学习库下载。
![]() |
下载CSV 表 1 实验中使用的7个基准测试数据集 Table 1 Seven benchmark datasets used in the experiments |
表 2统计了各个算法在7个基准测试数据集上的实验结果,为了清楚起见,最优结果加粗表示。
![]() |
下载CSV 表 2 6种回归算法在基准测试数据集上的实验结果 Table 2 Experimental results of six regression algorithms on the benchmark datasets |
由表 2可以看出:1)与PPTSVR相比,WSPTSVR算法在大多数数据集上有着相似或者更小的RMSE、MAE和ET,这是由于WSPTSVR算法采用孤立森林法赋予样本中的异常点很小的权值,并通过异常分数赋予每个样本点不同的权值,能够有效地降低潜在噪声或异常点对回归超平面的影响,从而提升算法的预测性能;2)与采用聚类方法去除异常点的FCWTSVR相比,WSPTSVR算法在4个数据集上的RMSE值最优,在3个数据集上的MAE值最优,而FCWTSVR的RMSE、MAE和ET值均在3个数据集上最优,表明WSPTSVR算法的预测性能与当前提出的回归算法相比具有可比性。
在算法的训练时间方面,WSPTSVR算法的时间复杂度要小于TSVR、PPTSVR以及SPTSVR,实验结果也表明,WSPTSVR算法的训练速度快于TSVR、PPTSVR以及SPTSVR。但是由于WSPTSVR算法在目标函数中引入了权值矩阵,因此与STSVR相比,训练速度稍慢。而FCWTSVR由于采用了快速聚类算法剔除异常点,其时间复杂度在6种算法中是最大的,实验结果也表明,FCWTSVR的训练速度最慢。
2.3 人工测试函数为了进一步验证WSPTSVR算法在非线性情况下的拟合性能,在
$ {\boldsymbol{y}}_{i}=\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{c}\left({\boldsymbol{x}}_{i}\right)+{n}_{i}=\frac{\mathrm{s}\mathrm{i}\mathrm{n}\left({\boldsymbol{x}}_{i}\right)}{{\boldsymbol{x}}_{i}}+{n}_{i}, {\boldsymbol{x}}_{i}\in [-3\mathrm{\pi }, 3\mathrm{\pi }] $ | (34) |
其中:
$ {n}_{{i}_{1}}=\left(-\frac{\left|{\boldsymbol{x}}_{i}\right|}{8\mathrm{\pi }}+0.5\right)\times {\xi }_{i}, {\xi }_{i}\sim U[-\mathrm{0.1, 0.1}] $ | (35) |
$ {n}_{{i}_{2}}=\left(-\frac{\left|{\boldsymbol{x}}_{i}\right|}{8\mathrm{\pi }}+0.5\right)\times {\xi }_{i}, {\xi }_{i}\sim N[\mathrm{0, 0}.{1}^{2}] $ | (36) |
其中:
随机生成47个混入噪声的独立样本作为训练样本和150个混入噪声的独立样本作为测试样本。另外,在训练样本中人为加入3个异常点。
表 3给出了2种不同类型噪声下6种回归算法的平均RMSE、MAE、ET以及CPU运行时间,最优结果加粗表示。
![]() |
下载CSV 表 3 6种回归算法在人工测试函数上的实验结果 Table 3 Experimental results of six regression algorithms on artificial test function |
从表 3可以看出:当样本中没有异常点时,FCWTSVR和WSPTSVR的RMSE、MAE以及ET值要小于其他4种回归算法,表明FCWTSVR和WSPTSVR算法具备更好的预测性能和抗噪声能力;当样本中存在异常点时,WSPTSVR算法的RMSE、MAE和ET值均明显小于PPTSVR,以RMSE为例,WSPTSVR算法比PPTSVR平均约小44.2%,表明本文算法在样本中存在异常点时,有着更好的预测性能。这是由于本文算法采用孤立森林法赋予异常点很小的权值,因此受异常点的影响较小。另外,FCWTSVR采用聚类的方法剔除样本中的异常点,同样获得了较好的预测性能。在训练时间方面,由于WSPTSVR算法直接在原空间中采用牛顿迭代法进行求解,训练速度比TSVR、PPTSVR和SPTSVR更快,而与STSVR相比,由于目标函数中添加了权值矩阵,因此训练速度稍慢。
图 1给出了高斯分布噪声下不同回归算法在
![]() |
Download:
|
图 1 高斯分布噪声下6种回归算法的拟合曲线 Fig. 1 Fitting curves of six regression algorithms under noise with Gaussian distribution |
本文提出一种加权光滑投影孪生支持向量回归算法。采用孤立森林法判断样本中潜在的异常点,并通过赋予潜在的异常点很小的权值,有效地削弱了其对超平面构造的影响。引入Sigmoid光滑函数,通过在原空间中采用牛顿迭代法求解无约束优化问题,获得了比双边移位投影孪生支持向量回归算法更快的训练速度。实验结果表明,与其他代表性回归算法相比,该算法受异常点的影响更小,拟合效果更佳。下一步将从寻找逼近能力更优的光滑函数入手,使WSPTSVR算法获得更好的拟合性能。
[1] |
VAPNIK V N. The nature of statistical learning theory[M]. New York, USA: Springer, 1995.
|
[2] |
VAPNIK V N. Statistical learning theory[M]. New York, USA: Wiley, 1998.
|
[3] |
王海, 翁晨傲, 李克, 等. 一种面向基站扇区方向角估计的改进SVM算法[J]. 计算机工程, 2021, 47(4): 120-126. WANG H, WENG C N, LI K, et al. An improved SVM algorithm for azimuth estimation of base station sector[J]. Computer Engineering, 2021, 47(4): 120-126. (in Chinese) DOI:10.19678/j.issn.1000-3428.0057604 |
[4] |
鲁淑霞, 蔡莲香, 张罗幻. 基于动量加速零阶减小方差的鲁棒支持向量机[J]. 计算机工程, 2020, 46(12): 88-95, 104. LU S X, CAI L X, ZHANG L H. Robust support vector machine based on momentum acceleration zero-order variance reduction[J]. Computer Engineering, 2020, 46(12): 88-95, 104. (in Chinese) DOI:10.19678/j.issn.1000-3428.0056286 |
[5] |
KIM S T, HAN I G, LEE C Y, et al. A development of unknown intrusion detection system with SVM[J]. Convergence Security Journal, 2007, 7(4): 23-28. |
[6] |
CHEN Y, DING S H, HU G L, et al. Facial beautification method based on age evolution[J]. Computer Aided Drafting, Design and Manufacturing, 2013, 23(4): 7-12. |
[7] |
BEN ABID F, ZGARNI S, BRAHAM A. Distinct bearing faults detection in induction motor by a hybrid optimized SWPT and aiNet-DAG SVM[J]. IEEE Transactions on Energy Conversion, 2018, 33(4): 1692-1699. DOI:10.1109/TEC.2018.2839083 |
[8] |
罗彬珅, 刘利民, 董健, 等. 基于SAE-GA-SVM模型的雷达新型干扰识别[J]. 计算机工程, 2020, 46(6): 281-287. LUO B S, LIU L M, DONG J, et al. Radar new jamming identification based on SAE-GA-SVM model[J]. Computer Engineering, 2020, 46(6): 281-287. (in Chinese) DOI:10.19678/j.issn.1000-3428.0054730 |
[9] |
GU B J, FANG J W, PAN F, et al. Fast clustering-based weighted twin support vector regression[J]. Soft Computing, 2020, 24(8): 6101-6117. DOI:10.1007/s00500-020-04746-6 |
[10] |
KHEMCHANDANI J R, CHANDRA S. Twin support vector machines for pattern classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(5): 905-910. DOI:10.1109/TPAMI.2007.1068 |
[11] |
CHEN X, YANG J, YE Q. Recursive projection twin support vector machine via within-class variance minimization[J]. Pattern Recognition, 2011, 44(10/11): 2643-2655. |
[12] |
PENG X J. TSVR: an efficient twin support vector machine for regression[J]. Neural Networks, 2010, 23(3): 365-372. DOI:10.1016/j.neunet.2009.07.002 |
[13] |
CHEN X B, YANG J, LIANG J, et al. Smooth twin support vector regression[J]. Neural Computing and Applications, 2012, 21(3): 505-513. DOI:10.1007/s00521-010-0454-9 |
[14] |
PENG X J, CHEN D. PTSVR: regression models via projection twin support vector machine[J]. Information Sciences, 2018, 435: 1-14. DOI:10.1016/j.ins.2018.01.002 |
[15] |
LIU F T, TING K M, ZHOU Z H. Isolation forest[C]//Proceedings of the 8th IEEE International Conference on Data Mining. Washington D. C., USA: IEEE Press, 2009: 413-422.
|
[16] |
LIU F T, TING K M, ZHOU Z H. Isolation-based anomaly detection[J]. ACM Transactions on Knowledge Discovery from Data, 2012, 6(1): 1-39. |
[17] |
FENG W, SHEN G L, XU B Y, et al. Isolation forest-based least squares twin margin distribution support vector regression[J]. International Journal of Innovative Computing, Information and Control, 2021, 17(2): 565-579. |
[18] |
DING S F, HUANG H J, XU X Z, et al. Polynomial smooth twin support vector machines[J]. Applied Mathematics & Information Sciences, 2014, 8(4): 2063-2071. |
[19] |
BARLOW J L. Matrix analysis[J]. Computing Reviews, 2013, 54(8): 462-463. |
[20] |
WANG L D, GAO C, ZHAO N N, et al. A projection wavelet weighted twin support vector regression and its primal solution[J]. Applied Intelligence, 2019, 49(8): 3061-3081. |
[21] |
BI J B, BENNETT K P. A geometric approach to support vector regression[J]. Neurocomputing, 2003, 55(1/2): 79-108. |
[22] |
TANVEER M, SHUBHAM K. A regularization on Lagrangian twin support vector regression[J]. International Journal of Machine Learning and Cybernetics, 2017, 8(3): 807-821. |
[23] |
LÓPEZ J, MALDONADO S. Robust twin support vector regression via second-order cone programming[J]. Knowledge-Based Systems, 2018, 152: 83-93. |
[24] |
GU B J, SHEN G L, PAN F, et al. Least squares twin projection support vector regression[J]. International Journal of Innovative Computing Information and Control, 2019, 15(6): 2275-2288. |