«上一篇 下一篇»
  计算机工程  2021, Vol. 47 Issue (10): 132-139, 146  DOI: 10.19678/j.issn.1000-3428.0060480
0

引用本文  

张彭明, 张晓梅, 胡建鹏. 基于动态信任值的智能手机隐式认证方案[J]. 计算机工程, 2021, 47(10), 132-139, 146. DOI: 10.19678/j.issn.1000-3428.0060480.
ZHANG Pengming, ZHANG Xiaomei, HU Jianpeng. Implicit Authentication Scheme for Smart Phone Based on Dynamic Trust Value[J]. Computer Engineering, 2021, 47(10), 132-139, 146. DOI: 10.19678/j.issn.1000-3428.0060480.

基金项目

国家自然科学基金(61802252)

通信作者

张晓梅(通信作者)、副教授

作者简介

张彭明(1993-), 男, 硕士研究生, 主研方向为移动设备隐式认证;
胡建鹏, 副教授

文章历史

收稿日期:2021-01-04
修回日期:2021-02-27
基于动态信任值的智能手机隐式认证方案
张彭明 , 张晓梅 , 胡建鹏     
上海工程技术大学 电子电气工程学院, 上海 201620
摘要:在智能手机隐私安全领域,隐式认证具有高安全性、友好交互体验等优点,但存在行为特征采集不便、认证模型复杂的问题。提出一种基于动态信任值的分级隐式认证方案。利用机器学习方法进行模型训练,提取用户划屏行为特征作为前级认证数据,并将前级输出概率经信任值检测作为后级认证数据,进而得到最终认证结果。同时基于真实用户历史认证变化的稳定性和连续性,通过计算一定时间窗口内的认证概率均值作为动态信任更新值,使信任值在真实用户认证结果变化范围内波动。实验结果表明,该方案的分类准确率达到98.63%,等错误率仅为3.43%,与只包含前级认证的方案相比准确性更高,并且能够有效阻挡冒名者非法使用手机。
关键词隐私安全    隐式认证    行为特征    机器学习    动态信任值    
Implicit Authentication Scheme for Smart Phone Based on Dynamic Trust Value
ZHANG Pengming , ZHANG Xiaomei , HU Jianpeng     
School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai 201620, China
Abstract: In the field of privacy and security of smart phones, implicit authentication has been widely studied as it can provide high security and user-friendly interactions.Still, the existing implicit authentication schemes suffer from difficulty in behavior feature collection and high complexity of authentication models.Given the limitations, a hierarchical implicit authentication scheme is proposed based on dynamic trust value.The scheme employs machine learning algorithms to train the model, extracting the features of the scrolling behavior as front-level authentication data.The output probability receives a trust value detection, and the result is taken as the input of back-level authentication data to output the final authentication result.Based on the stability and continuity of real user history authentication, this scheme calculates the average authentication probability value in a certain time window as the dynamically updated trust value, making the trust value ranging within the real user's authentication results.The experimental results demonstrate that the proposed scheme can achieve a classification accuracy of 98.63% and an equal error rate of 3.43%.Compared to the methods with only front-level authentication scheme, the proposed scheme can improve the accuracy of authentication and effectively prevent the impostors from illegally using the phones.
Key words: privacy and security    implicit authentication    behavior features    machine learning    dynamic trust value    

开放科学(资源服务)标志码(OSID):

0 概述

隐式认证是基于行为特征的新兴认证方式,其通过智能手机传感器采集用户操作设备的行为信息,提取相关行为特征作为隐式密码,并利用分类算法识别用户身份。隐式认证能持续监测行为信息,在整个交互期间实时认证用户身份,保障系统安全性,且认证过程都在后台进行,用户不必再记忆和频繁输入密码,提升了设备交互体验。

基于行为的隐式认证大多通过增加更多的特征种类、训练复杂性模型来提高认证准确性。研究表明,多种行为特征融合可提高认证准确率。将触摸、点击等行为相结合[1-3],分析用户点击位置、速度、轨迹长度等行为信息[4],从多个维度描述用户行为特征,结合较复杂的分类算法[5],在手机上获得较高的认证准确率。另一部分研究结合了加速度、陀螺仪等传感器捕捉用户在运动状态的行为信息[6-7]。这些认证方式在一定程度上提高了系统安全性,但加入过多的特征往往会导致模型变得复杂,且训练困难,从而产生过拟合,在某些用户上反而降低了准确性。有些行为特征采集不便,无法满足认证条件[8]。此外某些特征需要配备专有穿戴设备(智能手表、手环等)才能完成认证[9-11],不仅使系统认证机制变得繁琐,同时也增加了额外的成本。过多的特征也会导致行为分析变得困难,模型训练时间过长,运算量大,在计算力与能耗有限的手机等移动设备中难以普及。

针对以上认证机制存在的问题,本文将易采集的划屏行为特征、训练分类模型作为前级认证,根据前级历史认证结果的均值动态设定信任值,并将分类概率与信任值比对作为后级认证,最终判断是否为真实用户。通过滑动窗口机制记录模型前级认证结果,将历史认证概率取均值后动态更新信任值,用于后续认证。

1 相关工作

行为特征具有不易被模仿的特点,近年来基于行为特征的隐式认证发展迅速。根据采集的行为特征不同,现有相关工作整理为基于击键行为、基于步态行为、基于触屏行为。

1.1 基于击键行为的特征

基于不同的人具有各自独特的输入方式,击键认证在输入过程中分析击键特性(如击键时延、击键力度,击键持续时间、击键位置等)进行身份识别。早期,智能手机大多是物理键盘。当时研究的持续认证方式以击键特征为主,不需要额外昂贵的硬件设备,具有成本低、灵活性高特点。击键认证又分为固定文本和自由文本研究。LEE等[12]研究学习用户按键动态特征,提出参数化模型方法,模型可以为每个用户选择最具区别的功能。其错误拒绝率为11%。ALSULTAN等[13]基于自由文本击键动力学,通过结合决策级和特征级融合方案,融合决策层用于多数表决法的相融输出,其错误接受率为0,错误拒绝率为0。LU等[14]提出将用户的击键数据划分为定长击键序列,并根据击键的时间特征将击键序列转换为击键向量序列。采用递归神经网络和卷积神经网络相结合的模型,训练学习单个击键向量特征。其实验结果的等错误率(Equal Error Rate,EER)为4%~10%。HO等[15]提出一类朴素贝叶斯算法,根据预处理阶段的时长对击键特征属性排序,改进分类有效性。但击键行为在大多数移动设备上逐渐减少,不具有很好的普适性[16],因此基于该行为特征的隐式认证并不适用于目前流行的智能手机等移动设备。

1.2 基于步态行为的特征

YANG等[17]利用手机内置加速度传感器监测用户步态特征变化,实现了对用户身份的认证,但仅限于平坦路面情况。TRIVINO等[18]分析了整个步态周期内加速度变化,使用模糊有限状态机(Fuzzy Finite State Machine,FFSM)来模拟信号进化感知,其中每种状态都使用关于人类步态生理阶段的知识来建立,并描述了信号在其演化过程中经历状态的规则,模型EER为3%。因此步态识别更隐秘且数据获取方便,但步态识别也存在一定的缺陷,例如服饰、行走的路面、视角、鞋帽、背包等携带物都会影响其步态,进而影响其准确率,最终导致无法通过认证。步态行为应用受限于特定环境,在行走情况下才能认证,不是用户与设备交互的日常行为。

1.3 基于触屏行为的特征

触屏行为是手机等智能移动设备的主要交互行为,且触屏特征不需要额外设备,易于采集分析,数据获取实时性较高,更适用于持续隐式认证。用户划屏轨迹、速度或点击位置的差异,对屏幕产生的压力不同,行为特征区分性明显。触屏又分为滑动触屏和点击触屏。BO等[19]建立基于触摸识别的行为特征,不但融合了加速度传感器与陀螺仪信息,还结合具体APP使用行为,分析用户在不同APP下的使用行为变化。FRANK等[20]基于上下、左右滚动操作提取了30个触摸特征,旨在测试这种行为模式如何随着时间推移表现出一致性。随着使用时间延长,EER在不断上升,认证性能逐步下降,说明该特征不适用于长期身份认证。GONG等[21]基于行为触摸模式的稳定性和灵敏度属性基础出发,把触摸行为当作是一些随机“秘密”的函数,由用户潜意识形成的函数特征,以此来抵抗隐私安全攻击。基于以上特征的EER为18%。WANG等[22]融合点击和滑动操作提取了多个特征点,首次在跨设备认证中做了尝试。在单设备上特征AUC为0.9,F1分数为0.94。在跨设备上AUC为0.81,F1分数为0.905,在跨设备上首次实现了较高的认证结果。YANG等[23]融合触摸生物识别技术,通过单分类支持向量机(Support Vector Machines,SVM)算法训练所有者模型,并使用模型计算每种类型的准确率。模型平均准确率达到了95.85%,也取得了较好的认证效果。依据欧洲访问控制系统标准(EN-50133-1)的要求[24],基于触屏行为的用户认证仍需要进一步研究以提高系统的准确性。本文提出一种基于动态信任值的分级隐式认证机制,通过触屏行为特征得到的认证概率均值对认证结果进行动态调整,从而提高了认证准确率。

2 基于动态信任值的隐式认证方案

隐式认证架构如图 1所示。

Download:
图 1 隐式认证架构 Fig. 1 Architecture of implicit authentication

在该认证方案中,先通过智能手机设备传感器获取行为数据,并对数据做预处理,提取细化行为特征信息;然后传入分类器中训练模型,在交叉验证评估后得到认证模型;并与动态信任值做二级认证,输出真实或假冒用户。在前级认证时输出认证概率,并通过滑动窗口机制计算窗口内概率均值,更新当前信任值。

2.1 行为特征分析提取

首先通过手机内置传感器获取原始划屏数据,包含时间戳、触摸类型坐标、x坐标、y坐标、手指压力、x方向、y方向移动速率信息。原始数据格式为:

$ \begin{array}{l}D=\left\{\mathrm{T}\mathrm{i}\mathrm{m}\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{m}\mathrm{p}, \mathrm{T}\mathrm{o}\mathrm{u}\mathrm{c}\mathrm{h}\mathrm{T}\mathrm{y}\mathrm{p}\mathrm{e}, x\mathrm{C}\mathrm{o}\mathrm{o}\mathrm{r}\mathrm{d}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{t}\mathrm{e}, \right.\\ y\mathrm{C}\mathrm{o}\mathrm{o}\mathrm{r}\mathrm{d}\mathrm{i}\mathrm{n}\mathrm{a}\mathrm{t}\mathrm{e}, \mathrm{P}\mathrm{r}\mathrm{e}\mathrm{s}\mathrm{s}\mathrm{u}\mathrm{r}\mathrm{e}, x\mathrm{V}\mathrm{e}\mathrm{l}\mathrm{o}\mathrm{c}\mathrm{i}\mathrm{t}\mathrm{y}, y\mathrm{V}\mathrm{e}\mathrm{l}\mathrm{o}\mathrm{c}\mathrm{i}\mathrm{t}\mathrm{y}\}\end{array} $

用户划屏行为对比如图 2所示。从图 2可以看到,同一用户的划屏坐标集中在相同范围,轨迹线非常相似。横向对比分析,3个用户划屏轨迹的起始xy坐标不同,划屏长度不同。用户1和用户3轨迹的弯曲程度均不同。用户2的xy坐标与其他用户差异更大,表明坐标位置区分度较高。分析表明手指划屏时压力随着轨迹在不断变化:用户1开始时压力变化平稳,在轨迹后半部分压力有所增加;用户2的压力值在划屏轨迹内较为恒定;刚开始用户3的压力值较低,在轨迹中部达到最大,在轨迹结束时降到最小。对于速度特征也具有类似的变化,表明不同用户使用设备的行为习惯有较大差异。

Download:
图 2 用户划屏行为对比 Fig. 2 Swiping behavior comparison of users

基于以上分析,提取每次划屏的原始特征变化信息,再通过随机森林(Random Forest,RF)得出特征贡献率,对特征进行评估,行为特征贡献率如图 3所示。

Download:
图 3 不同行为特征贡献率对比 Fig. 3 Contribution rate comparison between different behavior features

因RF不受数据量纲影响,得出的特征贡献率较为客观。从图 3可以看出,与速度相关的特征贡献率较高,其中划屏速度均值特征贡献率高达17.46%,说明用户手指翻页速度不同,阅览习惯差异明显。与前者相比,位置变化相关的特征贡献率略低,但对不同用户而言,仍具有区分性。坐标xy最大值表明手指划屏的区域位置信息,说明不同用户在手机划屏的起止位置、范围不同,具有一定的差异性。与压力变化相关特征贡献率较低,说明划屏手指压力仅在一定范围内变化,这些特征仍有一定差异性。两次划屏轨迹间隔时间和压力变化中位值特征排在最后,贡献率很低,信息量少。去除这些特征后,把其余特征作为用户特征集,用于训练模型。

2.2 数据预处理 2.2.1 噪声数据处理

在实验中,采集数据时不免会出现噪声数据。原始数据中主要有两种噪声干扰。首先是冗余噪声数据,在用户手指划屏开始和结束时刻,手指在屏幕上处于静止状态但未离开屏幕。由于传感器非常灵敏,在一瞬间重复记录了轨迹的起始点与结束点处的相关信息,产生大量冗余位置点,对后续轨迹内其他特征计算产生影响,应予以剔除。因冗余噪声数据仅出现在轨迹起止前后几个点,因此采取截断法处理冗余噪声数据,即可消除影响。其次在阅读过程中,存在用户误触屏幕等客观因素的干扰,导致在轨迹内出现异常值,产生了离群点数据。本文采用箱线图法通过四分位边界值检测离群点和异常值,并用上、下四分位与中位数值之和的均值来对异常值修正,检测算法如式(1)、式(2)所示,数据修正如式(3)所示:

$ \left\{\begin{array}{l}{Q}_{1}=\frac{n+1}{4}\\ {Q}_{2}=\frac{n+1}{2}\\ {Q}_{3}=\frac{3\left(n+1\right)}{4}\end{array}\right. $ (1)
$ \left\{\begin{array}{l}{I}_{\mathrm{Q}}={Q}_{3}-{Q}_{1}\mathrm{ }\\ {W}_{\mathrm{u}\mathrm{p}}={Q}_{3}+1.5\times {I}_{\mathrm{Q}}\\ {W}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}={Q}_{1}-1.5\times {I}_{\mathrm{Q}}\end{array}\right. $ (2)
$ \left\{\begin{array}{l}{Z}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}}=\frac{{Q}_{2}+{Q}_{1}}{2}\\ {Z}_{\mathrm{u}\mathrm{p}}=\frac{{Q}_{2}+{Q}_{3}}{2}\end{array}\right. $ (3)

其中:$ {Q}_{1} $为下四分位数;$ {Q}_{2} $为中位数;$ {Q}_{3} $为上四分位数;IQ为四分位间距;$ {W}_{\mathrm{u}\mathrm{p}} $为上限边界值;$ {W}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}} $为下限边界值;$ {Z}_{\mathrm{d}\mathrm{o}\mathrm{w}\mathrm{n}} $为下界异常值修正;$ {Z}_{\mathrm{u}\mathrm{p}} $为上界异常值修正。

2.2.2 数据归一化处理

因特征量纲不同,数据不能直接用于分类器训练,需要进行归一化处理。本文采用min-max标准化方法把特征值映射在[0, 1]区间内。

$ {\widehat{z}}_{i}^{q}=\frac{{z}_{i}^{q}-\underset{1\le i\le {n}_{q}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{{z}^{q}\right\}}{\underset{1\le i\le {n}_{q}}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{{z}^{q}\right\}-\underset{1\le i\le {n}_{q}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{{z}^{q}\right\}} $ (4)

其中:n为用户总的划屏轨迹数;qn范围内的轨迹序号;i为轨迹内的特征序号;$ {z}_{i}^{q} $为第q次轨迹的第i个特征值;$ {\widehat{z}}_{i}^{q} $为在该轨迹内第i个特征新的映射值。

2.3 机器学习模型

不同的分类器在特征集上表现会有差异。为了验证特征更适合哪种分类器,本文选取SVM、RF和多层感知机(Multilayer Perceptron,MLP)三种分类器,筛选出更适合本文特征的机器学习算法,并评估行为特征有效性。

2.3.1 支持向量机

SVM是有监督二分类模型,从训练集的两个类中寻找超平面,作为分类决策边界。对于复杂高维特征,可用核函数对数据进行映射,使得数据集易于分类。分类器模型如式(5)所示:

$ \left\{\begin{array}{l}\underset{w, b}{\mathrm{m}\mathrm{i}\mathrm{n}}=\frac{1}{2}{‖w‖}^{2}+C\sum\limits_{i=1}^{N}{\mathcal{L}}_{i}\\ {\mathcal{L}}_{i}=\mathrm{m}\mathrm{a}\mathrm{x}\left(1-{y}_{i}\left({\boldsymbol{w}}^{\mathrm{T}}{\boldsymbol{x}}_{i}+b\right), 0\right)\\ \begin{array}{cc}1-{\mathcal{L}}_{i}\le {y}_{i}\left({\boldsymbol{w}}^{\mathrm{T}}{\boldsymbol{x}}_{i}+b\right), {\mathcal{L}}_{i}\ge 0& \end{array}\end{array}\right. $ (5)

其中:$ \boldsymbol{w} $为模型权重;C为惩罚参数;$ b $为偏差项;$ {\boldsymbol{x}}_{i} $为特征集内第i种特征向量;$ {y}_{i} $为特征学习的监督标签;$ {\mathcal{L}}_{i} $为样本点$ \left({\boldsymbol{x}}_{i}, {y}_{i}\right) $距离超平面的最大间隔。SVM分类结果取决于$ f\left(x\right)=\left({\boldsymbol{w}}^{\mathrm{T}}x+b\right) $超平面,如果$ f\left(x\right)\ge 0 $,分类结果为真,否则为假。本文采集的特征维度不高,数据量较大,因此选用线性核SVM,且线性核SVM不易过拟合,训练模型速度快。

2.3.2 随机森林

RF是利用多棵决策树对样本进行训练并预测的分类算法。它由多个相互不关联的决策树组成,类似投票机制,其最终结果是由多棵树分类结果的众数决定。特征空间采用树形结构分割,将空间划分为某个维度时,选择获得最大信息增益的维度划分作为边界。森林常用的CART决策树基于基尼系数($ {G}_{\mathrm{i}} $)的特征选择,基尼系数度量每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一分类,此时基尼系数最小。在二分类中基尼系数计算如式(6)所示,分类结果输出如式(7)所示:

$ {G}_{\mathrm{i}}\left(p\right)=2p\left(1-p\right) $ (6)
$ {G}_{\mathrm{i}}\left(D, A\right)=\frac{\left|{D}_{1}\right|}{D}{G}_{\mathrm{i}}\left({D}_{1}\right)+\frac{\left|{D}_{2}\right|}{D}{G}_{\mathrm{i}}\left({D}_{2}\right) $ (7)

其中:p为样本属于正类别的概率;Gi(D)为集合D的不确性;Gi(DA)为经过A=a分割后集合D的不确定性。RF中的每棵决策树不断遍历特征子集寻找基尼系数最小特征的分割点,将数据集分成两类。

2.3.3 多层感知机

MLP是一种前馈神经网络,由输入层、隐藏层和输出层三部分组成,每一层全连接到下一层。除输入层外,每层节点都带有非线性激活函数的神经元,调节输出权重。MLP算法具有很强的数据拟合能力,在非线性数据上取得较好的结果。本文采用ReLu激活函数,输出该层各节点权重,在输出层采用Sigmoid激活函数,建立三层网络快速训练模型。用二值交叉熵计算损失,作为二分类结果输出,如式(8)~式(11)所示:

$ f\left(x\right)=\mathrm{m}\mathrm{a}\mathrm{x}\left(0, x\right) $ (8)
$ S\left(x\right)=\frac{1}{1+{\mathrm{e}}^{x}} $ (9)
$ {a}_{j}=g\left({h}_{j}\right)=g\left(\sum\limits_{i=0}^{M}{w}_{ij}{x}_{ij}\right) $ (10)
$ y={a}_{k}=g\left({h}_{k}\right)=g\left(\sum\limits_{i=0}^{M}{w}_{ik}{x}_{jk}\right) $ (11)

其中:$ {a}_{j} $为隐藏层神经元输出值;$ g\left({h}_{j}\right) $为激活函数;$ {w}_{ij}{x}_{ij} $为偏移值;当前神经元输出值经$ g\left({h}_{j}\right) $输入到下一层神经元节点$ {a}_{j} $$ {h}_{k} $为输出层中第k个输出神经元加权之和;$ {a}_{k} $为最终输出结果。MLP结构如图 4所示。

Download:
图 4 MLP结构 Fig. 4 Structure of MLP
2.4 动态信任值认证机制

在一定时间内真实用户行为习惯变化具有连续性,不会产生较大误差。对于攻击者而言,在某段时间内模仿的行为具有不稳定性,易产生认证结果突变,与滑动窗口内概率值变化较大。通过比对误差检测认证异常突变。首先分类器认证成功后,输出模型为真实用户的概率,计算概率与信任值偏差,若偏差在阈值范围内,则表明是真实用户,反之则认定为假冒用户。在长时间使用中,用户自身划屏行为也会产生微小偏差,导致认证准确率下降,因此需要在检测完毕后更新信任值。滑动窗口概率值集合为$ U=\left\{{p}_{1}, {p}_{2}, \cdots , {p}_{i}, \cdots , {p}_{L}\right\} $,计算滑动窗口U集合内的均值更新信任值,之后剔除最早加入窗口内的概率值$ {p}_{1} $,并把本次认证的概率值加入滑动窗口中。信任值检测机制如式(12)所示,更新机制如式(13)所示:

$ f\left({P}_{k}\right)=\left|{P}_{k}-{T}^{\mathrm{R}}\right|-{E}^{\mathrm{R}}, 1\le k $ (12)
$ {T}_{k}^{\mathrm{R}}=\frac{\sum\limits_{i=1}^{L}{P}_{i}}{L} $ (13)

其中:$ {P}_{k} $为第k次轨迹特征被判定为真实用户的概率;$ {T}_{k}^{\mathrm{R}} $为第k次动态信任值,是前一次滑动窗口U集合内均值;L为滑动窗口大小;ER为偏差项。更新流程如图 5所示,其中$ {S}_{k} $为第k次的划屏行为特征。

Download:
图 5 动态信任值更新机制 Fig. 5 Update mechanism of dynamic trust value
3 实验分析与评估

为采集用户行为数据,本文基于开源的电子书阅读APP,在保证基本功能同时,加入数据收集服务。选用华为HonorV10手机作为实验设备,把实验APP部署在手机中,通过Android API获取传感器数据。

3.1 实验设定与数据采集

本次实验召集了10名用户参与,由6名男生和4名女生组成,所有用户均为在校大学生。阅读器内下载有不同用户喜欢的电子书,用户与书号一一对应,不限制使用环境。为了防止用户因阅读疲倦导致日常行为发生变化,实验规定每人每天轮流使用设备阅读1小时,共10天完成数据收集。最终,共收集12 000条数据用于训练测试。全部数据经预处理后按70%、20%和10%,分为训练集、测试集和验证集。训练集用于筛选和训练分类器,并收集模型在训练集上输出的概率值,用于分析设定信任值最低阈值点,信任值更新步长,记录认证概率值得滑动窗口大小等模型参数。验证集用于评估整个认证系统性能和模型调参,优化分类器。为了验证动态信任值模型性能,评估模型泛化能力,在实验环节把10个用户依次标记为真实用户,其他为冒名者,重复进行10轮次训练验证。

3.2 评估指标

本文选用以下常用评价指标,对实验各环节进行评估。

1) ROC曲线下面积

曲线下面积的意义是随机选一对正例和负例,正例得分大于负例得分的概率。曲线下面积同时考虑分类器对于正例和负例的分类能力,即使在不平衡的样本分布中,仍能够对分类器做出合理评价,如式(14)所示:

$ {A}_{\mathrm{U}}=\frac{\sum\limits_{i}^{M}{r}_{i}-\frac{M\left(1+M\right)}{2}}{M\times N} $ (14)

其中:M为正例数;N为负例数;iM中一个正例的序号;$ {r}_{i} $为第i个正例在M+N中所有预测值排序后的排名。

2) 错误接受率和错误拒绝率

错误接受率是负例被分类器错误标记为正例所占总体正例样本的比率,衡量分类器的可靠性,如式(15)所示:

$ {F}_{\mathrm{A}}=\frac{{F}_{\mathrm{P}}}{{F}_{\mathrm{P}}+{T}_{\mathrm{N}}} $ (15)

其中:FP为负例预测正例数;TN为负例预测负例数。

错误拒绝率是正例被分类器错误标记为负例所占总体正例样本的比率,衡量分类器的易用性。错误拒绝率越高,分类器对用户越不友好,模型难以使用,如式(16)所示:

$ {F}_{\mathrm{R}}=\frac{{F}_{\mathrm{N}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{N}}} $ (16)

其中:TP为正例预测正例数;FN为正例预测负例数。

3) 正负例分类准确率

正负例分类准确率是正确分类的正例与负例占总体分类的结果比率,用于评估加入信任值前后模型整体的分类性能,如式(17)所示:

$ {A}_{\mathrm{c}}=\frac{{T}_{\mathrm{P}}+{T}_{\mathrm{N}}}{{T}_{\mathrm{P}}+{F}_{\mathrm{P}}+{T}_{\mathrm{N}}+{P}_{\mathrm{N}}} $ (17)
3.3 分类器性能对比分析

本文在调整模型各自最佳参数后,采用$ {A}_{\mathrm{U}} $和准确率评估算法在特征集上的表现,3种分类器各自的认证结果如图 6所示。

Download:
图 6 MLP、RF、SVM算法ROC曲线 Fig. 6 ROC curves of MLP, RF, SVM algorithms

图 6可以看到,3种分类器$ {A}_{\mathrm{U}} $面积均在0.95以上,说明选取的行为特征具有较高的区分性,能较好地识别真实或假冒用户。在$ {A}_{\mathrm{U}} $达到0.4之前,3种分类器的准确率都迅速上升,变化比较一致,表明算法响应迅速。在准确率到达0.4之后,RF算法变化迟缓,说明其错误分类开始增多,性能不稳定,$ {A}_{\mathrm{U}} $与准确率都低于其他两种算法。SVM算法与MLP算法变化趋势一致,在准确率达到0.8之后,SVM算法逐渐减缓,略低于MLP算法。因此,MLP算法稳定性好,准确率高,更适合本文特征集。

3.4 信任值参数设定与结果分析

在本实验中用户4被标定为真实用户,经训练后模型输出的概率分布如图 7所示(彩色效果见《计算机工程》官网HTML版)。从图 7可以看到,用户4的认证概率P分布较集中,大部分在70%以上,表明其划屏行为稳定。有少部分在70%以下,这可能是用户实验中误操作或行为偶然变化,不属于用户4的日常行为。而用户1的概率值在0~100%分布杂乱,说明其行为特征变化较不稳定。在80%~100%,用户2、用户3和用户5概率值趋于0,与用户4有明显差异。用户6~9的概率值大部分在20%以下,仅有少部分值高于70%,与真实用户认证结果分布区别较大。因此经以上分析,在认证刚开始时信任值初始设定为80%,信任值最低阈值设定为70%,可以最大限度过滤大部分假冒用户登入系统。

Download:
图 7 用户概率分布对比 Fig. 7 Probability distribution comparison of users

在设定最低阈值后,对连续划屏的认证结果进行比较,得出用户在两次认证间的概率差值,用于分析假冒用户和真实用户的概率值稳定性。概率偏差分布如图 8所示(彩色效果见《计算机工程》官网HTML版)。实验表明在设定最低阈值为70%时,已经滤掉大部分假冒用户,仅有用户0、用户1、用户7和用户9概率值高于阈值。用户4的连续认证概率差波动均衡,大部分点在±15%范围内。而其余用户概率差较大,分布在0~100%区间内。虽然假冒用户通过了分类器认证,但其认证概率极不稳定,在连续认证期间波动很大,表明假冒用户仅是侥幸通过了分类器初级检测,但不能持续还原真实用户行为。基于以上分析,设定信任值的偏差项ER为15%,进一步过滤假冒用户认证结果。在连续认证情况下,用户认证概率与信任值偏差在±15%内,判定为真实用户。

Download:
图 8 连续划屏认证的概率偏差分布 Fig. 8 Probability deviation distribution of continuous screen marking authentication

图 8可以看出,真实用户连续多次的认证概率不是恒定的,直接设定固定信任值会导致较高的拒绝率,造成大量误判。但图 7可以看出,真实用户概率通常稳定在某个范围。保持信任值随真实用户认证概率在一定范围内变化,可有效增强真实用户通过率,降低假冒者攻击成功率。因此,本文设定认证概率连续变化的均值作为当前信任值。认证概率值记录在长度为L的数组内,当记录个数大于L时,将窗口向后滑动,并计算窗口内均值更新信任值。

为保证有效过滤假冒用户,本文分析了窗口长度LFA,FR之间的关系,如表 1所示。窗口长度从2~6,随着窗口增大,FA逐渐下降,FR有轻微上升。随着记录的历史值增多,更新的信任值越来越趋于真实用户认证概率变化,识别率升高。窗口长度大于6之后FR陡然增大,而FA下降缓慢,表明记录过多的历史值得出的信任值变化迟缓,越来越趋于恒定,与真实用户概率值偏差过大,导致真实用户被错误分类。基于以上分析,窗口大小L=6时模型FAFR均较低,分类最优。

下载CSV 表 1 窗口长度与FAFR之间关系 Table 1 The relationship between window length FA, FR 
3.5 信任值认证评估

首先把数据集内10个用户轮流标记为真实用户,分析加入信任值前后,模型在不同用户上的分类准确率,结果如表 2所示。加入信任值机制前,模型准确率都在94%以下,其中有些用户的认证准确率仅有89.41%,说明在少量特征下,仅基于初级分类模型不足以保证隐式认证安全。加入信任值机制后,所有用户的分类准确率均提升到96%以上,其中在用户4上准确率达到98.63%,准确度显著提高。说明根据历史认证结果,动态调整信任值方式能有效提升认证安全性。

下载CSV 表 2 在不同用户上模型的认证表现 Table 2 Authentication performance of model on different users  
3.6 研究工作对比

本文对比了与划屏行为特征相关的研究工作,从特征维数、准确率、等错误率3个方面进行综合分析,结果如表 3所示。

下载CSV 表 3 不同算法的相关工作对比 Table 3 Related work comparison between different algorithms

文献[25]采用ANN算法实现了93.9%的准确率,等错误率为7%,优于本文初始采用的MLP算法,说明其采用ANN分类器训练的模型准确率较高,但仍低于本文加入信任值机制的认证模型。而文献[26]采用的KDRN算法准确率高达98.23%,高于MLP算法,与基于信任值的认证模型准确率相近,但其等错误率较高,且采用的特征量较多。文献[27]采用RF算法的等错误率较高于本文算法。文献[28]通过欧氏距离计算特征相似度,在较少特征上取得与文献[26]相近的效果,准确率稍高于MLP算法,但低于采用信任值机制的模型分类结果。以上分析表明,基于动态信任值的隐式认证在较少的特征下仍取得了较高的准确率,在等错误率方面达到最优。

4 结束语

本文提出基于动态信任值的隐式认证,依据持续认证情况下真实用户认证结果的稳定性和连续性信息动态设定信任值,检测当前认证概率与最近历史认证的结果偏差,分析评估用户真实性。实验结果表明,与只有前级认证相比,加入动态信任值机制后可提高模型准确率,降低分类误识率,并有效阻止冒名者访问智能设备。同时本文采用的特征维数较少,数据易采集且易于实现应用。下一步将对认证准确率、数据采集频率和设备能耗的均衡性进行研究。

参考文献
[1]
ALGHAMDI S J, ELREFAEI L A. Dynamic authentication of smartphone users based on touchscreen gestures[J]. Arabian Journal for Science and Engineering, 2018, 43(2): 789-810. DOI:10.1007/s13369-017-2758-x
[2]
LI Y T, ZOU B, DENG S J, et al. Using feature fusion strategies in continuous authentication on smartphones[J]. IEEE Internet Computing, 2020, 24(2): 49-56. DOI:10.1109/MIC.2020.2971447
[3]
EHATISHAM U H, AZAM A M, NAEEM U, et al. Continuous authentication of smartphone users based on activity pattern recognition using passive mobile sensing[J]. Journal of Network and Computer Applications, 2018, 109(1): 24-35.
[4]
GARBUZ A, EPISHKINA A, KOGOS K. Continuous authentication of smartphone users via swipes and taps analysis[C]//Proceedings of 2019 European Intelligence and Security Informatics Conference. Washington D.C., USA: IEEE Press, 2019: 48-53.
[5]
VOLAKA H C, ALPTEKIN G, BASAR O E, et al. Towards continuous authentication on mobile phones using deep learning models[J]. Procedia Computer Science, 2019, 155: 177-184. DOI:10.1016/j.procs.2019.08.027
[6]
SHEN C, LI Y X, CHEN Y F, et al. Performance analysis of multi-motion sensor behavior for active smartphone authentication[J]. IEEE Transactions on Information Forensics and Security, 2017, 13(1): 48-62.
[7]
SITOVÁ Z, ŠEDĚNKA J, YANG Q, et al. HMOG: new behavioral biometric features for continuous authentication of smartphone users[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(5): 877-892. DOI:10.1109/TIFS.2015.2506542
[8]
DIEZ F P, TOUCEDA D S, SIERRA J M, et al. Toward self-authenticable wearable devices[J]. IEEE Wireless Communications, 2015, 22(1): 36-43. DOI:10.1109/MWC.2015.7054717
[9]
LEE W H, LEE R. Implicit sensor-based authentication of smartphone users with smartwatch[C]//Proceedings of 2016 Hardware and Architectural Support for Security and Privacy. New York, USA: ACM Press, 2016: 1-8.
[10]
WANG F, LI Z J, HAN J S. Continuous user authentication by contactless wireless sensing[J]. IEEE Internet of Things Journal, 2019, 6(5): 8323-8331. DOI:10.1109/JIOT.2019.2916777
[11]
ACAR A, AKSU H, ULUAGAC A S, et al. A usable and robust continuous authentication framework using wearables[J]. IEEE Transactions on Mobile Computing, 2021, 20(6): 2140-2153. DOI:10.1109/TMC.2020.2974941
[12]
LEE H, HWANG J Y, LEE S, et al. A parameterized model to select discriminating features on keystroke dynamics authentication on smartphones[J]. Pervasive and Mobile Computing, 2019, 54: 45-57. DOI:10.1016/j.pmcj.2019.02.001
[13]
ALSULTAN A, WARWICK K, WEI H. Improving the performance of free-text keystroke dynamics authentication by fusion[J]. Applied Soft Computing, 2017, 70(2): 1024-1033.
[14]
LU X F, ZHANG S F, YI S W. Continuous authentication by free-text keystroke based on CNN plus RNN[J]. Procedia Computer Science, 2019, 147(1): 314-318.
[15]
HO J C, KANG D K. Mini-batch bagging and attribute ranking for accurate user authentication in keystroke dynamics[J]. Pattern Recognition, 2017, 70(10): 139-151.
[16]
PENG G, ZHOU G, DAVID T N, et al. Continuous authentication with touch behavioral biometrics and voice on wearable glasses[J]. IEEE Transactions on Human Machine Systems, 2017, 47(3): 404-416. DOI:10.1109/THMS.2016.2623562
[17]
YANG L, MA Z R, ZHANG C H, et al. Mobile platform continuous authentication scheme based on gait characteristics[J]. Journal on Communications, 2019, 40(7): 126-134. (in Chinese)
杨力, 马卓茹, 张程辉, 等. 基于步态特征的移动平台持续认证方案[J]. 通信学报, 2019, 40(7): 126-134.
[18]
TRIVINO G, ALVAREZ A, BAILADOR G. Application of the computational theory of perceptions to human gait pattern recognition[J]. Pattern Recognition, 2010, 43(7): 2572-2581. DOI:10.1016/j.patcog.2010.01.017
[19]
BO C, ZHANG L, JUNG T, et al. Continuous user identification via touch and movement behavioral biometrics[C]//Proceedings of the 33rd International Performance Computing and Communications Conference. Washington D.C., USA: IEEE Press, 2014: 1-8.
[20]
FRANK M, BIEDERT R, MA E, et al. Touchalytics: on the applicability of touchscreen input as a behavioral biometric for continuous authentication[J]. IEEE Transactions on Information Forensics and Security, 2012, 8(1): 136-148.
[21]
GONG N Z, PAYER M, MOAZZEZI R, et al. Forgery-resistant touch-based authentication on mobile devices[J]. Hydrological Processes, 2015, 26(23): 499-510.
[22]
WANG X, YU T, MENGSHOEL O, et al. Towards continuous and passive authentication across mobile devices: an empirical study[C]//Proceedings of the 10th ACM Conference on Distributed and Event-based Systems. New York, USA: ACM Press, 2017: 35-45.
[23]
YANG Y F, GUO B, WANG Z, et al. BehaveSense: continuous authentication for security-sensitive mobile APPs using behavioral biometrics[J]. Ad Hoc Networks, 2019, 84(1): 9-18.
[24]
CENELEC. Alarm and electronic security systems, electronic access control systems. system and components requirements: BSEN60839-11-1[S]. London, UK: Brithsh Standard, 2013: 62.
[25]
JOSE C J, RAJASREE M S. Implicit continuous user authentication using swipe actions on mobile touch screen with ANN classifier[C]//Proceedings of International Conference on Artificial Intelligence, Smart Grid and Smart City Applications. Berlin, Germany: Springer, 2020: 353-363.
[26]
CHANG I, LOW C Y, CHOI S, et al. Kernel deep regression network for touch-stroke dynamics authentication[J]. IEEE Signal Processing Letters, 2018, 25(7): 1109-1113. DOI:10.1109/LSP.2018.2846050
[27]
SHEN C, ZHANG Y, GUAN X H, et al. Performance analysis of touch-interaction behavior for active smartphone authentication[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(3): 498-513. DOI:10.1109/TIFS.2015.2503258
[28]
QIAO M Y, ZHANG S Y, SUNG A H, et al. A novel touchscreen-based authentication scheme using static and dynamic hand biometrics[C]//Proceedings of the 39th Annual Computer Software and Applications Conference. New York, USA: ACM Press. 2015: 494-503.