基于鞋印图像的性别预测方法

引用本文

张涛, 朱振东, 王慧, 等. 基于鞋印图像的性别预测方法[J]. 计算机工程, 2022, 48(11), 306-313. DOI: 10.19678/j.issn.1000-3428.0062940.

ZHANG Tao, ZHU Zhendong, WANG Hui, et al. Gender Prediction Method Based on Shoeprint Image[J]. Computer Engineering, 2022, 48(11), 306-313. DOI: 10.19678/j.issn.1000-3428.0062940.

基金项目

大连市科技创新基金（2019J12GX036）

作者简介

张涛(1976—), 女, 高级工程师、博士, 主研方向为图像处理、生物特征识别、模式识别;
朱振东, 硕士研究生;
王慧, 硕士研究生;
刘禹辰, 硕士;
王新年, 副教授、博士、博士生导师

文章历史

收稿日期：2021-10-13
修回日期：2022-01-05

Contents Abstract Full text Figures/Tables PDF

基于鞋印图像的性别预测方法

张涛¹ , 朱振东¹ , 王慧¹ , 刘禹辰¹ , 王新年²

1. 辽宁师范大学物理与电子技术学院, 辽宁大连 116029;
2. 大连海事大学信息科学技术学院, 辽宁大连 116026

收稿日期：2021-10-13；修回日期：2022-01-05

基金项目：大连市科技创新基金（2019J12GX036）

作者简介：张涛(1976—), 女, 高级工程师、博士, 主研方向为图像处理、生物特征识别、模式识别; 朱振东, 硕士研究生; 王慧, 硕士研究生; 刘禹辰, 硕士; 王新年, 副教授、博士、博士生导师.

E-mail: Innuzt@Innu.edu.cn

摘要：鞋印是作案人在案发现场经常遗留的痕迹，承载人的性别、身高等属性信息。基于鞋印的性别预测对快速排查嫌疑人具有重要作用，其方法主要由刑侦人员凭借经验判断，需要大量领域知识，而少数自动预测方法是基于人工提取的特征和经验模型进行预测，受测量误差的影响，导致预测准确率降低。针对该问题，提出基于鞋印图像的端到端预测方法。采用卷积神经网络提取鞋印图像特征，引入通道注意力模块对特征权重进行重新分配，使模型重点关注鞋印图像中对性别起显著作用的部分。在此基础上，将特征图输入到性别预测模块进行预测。此外，分别构建适用于单枚和多枚鞋印应用场景的数据集SiSIS和SeSIS，根据在案发现场中鞋印可能出现的情况，设计鞋印方向差异、鞋印残缺和弹性形变的数据增广方式。实验结果表明，该方法在SiSIS和SeSIS数据集上的预测准确率分别达到91.80%和99.35%，相比现有基于鞋印的性别预测方法，具有较优的预测性能。

Gender Prediction Method Based on Shoeprint Image

ZHANG Tao¹ , ZHU Zhendong¹ , WANG Hui¹ , LIU Yuchen¹ , WANG Xinnian²

1. School of Physics and Electronic Technology, Liaoning Normal University, Dalian, Liaoning 116029, China;
2. Information Science and Technology College, Dalian Maritime University, Dalian, Liaoning 116026, China

Abstract: Shoeprints are traces frequently left behind at crime scenes.They provide information regarding a person's attributes, such as gender and height.Gender prediction based on shoeprint plays a critical role in the rapid screening of suspects.Currently, shoeprint-based gender prediction method is mainly based on the experience of criminal investigators, which depends on extensive domain knowledge.Although a few automatic prediction methods are based on manually extracted features and empirical models, they are affected by measurement errors, reducing the prediction accuracy.This study proposes an automatic end-to-end shoeprint image-based gender prediction method.The convolutional neural network is used to extract shoeprint image features.The channel attention module is introduced to redistribute the feature weights such that the model focuses on the parts of the shoeprint image that play a significant role in gender prediction.The feature image is input into the gender prediction module for prediction using the proposed model.In addition, SiSIS and SeSIS datasets suitable for single and multiple shoeprint application scenarios are constructed.Based on possible cases of shoeprints at the crime scene, data augmentation methods of shoeprint direction difference, shoeprint imperfection, and elastic deformation are designed.The experimental results show that the prediction accuracy of the proposed method on SiSIS and SeSIS datasets are 91.80% and 99.35%, respectively.The proposed method performs better than existing gender prediction methods based on shoeprints.

开放科学（资源服务）标志码（OSID）：

0 概述

性别信息可以有效缩小嫌疑人范围，对刑事案件的侦破起着至关重要的作用。性别预测方法主要包括基于人脸的性别预测、基于步态的性别预测和基于鞋印的性别预测。在基于人脸的性别预测方法中，通过多人脸区域融合^[1]、空域与时域结合^[2]、高斯差分空间提取多尺度局部二值特征^[3]，具有较优的预测效果，但缺点是对于人脸图像的质量和拍摄角度有一定要求。基于步态的性别预测方法具有隐蔽性强、可远距离捕捉的优点^[4]，在预测过程中无需被观察对象配合，以适用于大流量人群场景或远距离场景。其中，步态主成分图像^[5]、形态学运算^[4]和步态能量图像投影模型^[6]等方法取得了较优的性别预测效果。尽管基于人脸或步态的性别预测方法取得了较优的预测效果，但是在刑事案件中，大多数嫌疑人是蓄谋作案。现有预测方法难以通过监控系统获得完整有效的人脸信息和步态信息，而在案发现场，鞋印的遗留率却非常高。因此，基于鞋印的性别预测对于案件侦破有着重要作用。

在刑事侦查过程中，刑侦人员通过现场遗留鞋印、脚印或遗留鞋样进行性别预测，主要方法有特征分析法和参数预测法。

特征分析法是基于刑侦专家多年积累的案件经验根据特征差异进行性别预测，特征差异主要包括静态特征差异和动态特征差异^[7-8]。其中静态特征差异是指男性足长足弓高、鞋较宽大、鞋底花纹较深，而女性足小足弓低、鞋较短小、鞋底花纹细浅且无花纹较多，动态特征差异是指男性行走时偏外落足偏内起足或正起足的比例大，步长大、步角大、步宽窄、重心高，在行走过程中遗留痕迹较重且不均匀，常出现挖、蹬动作痕迹，脚前掌和脚后跟压力大。女性行走时正落足正起足的比例远高于男性，部分女性会出现偏内落足、偏外起足的现象，步长较短、步角较小、步宽较宽、重心较低，在行走过程中遗留痕迹较轻且均匀，不出现挖、蹬动作痕迹，脚前掌和脚后跟压力较轻且程度均匀。虽然男女脚印和鞋印在结构特征和运动特征上有所区别，但是根据这些特征差异准确地预测性别，需要大量的领域知识和多年的破案经验。

参数预测法是根据现场测量的鞋印或脚印的长、宽等相关参数进行回归预测。文献[9]使用Logistic回归分析对足部测量数据（足长、足宽）进行性别预测，右足判断准确率为95.6%，左足判断准确率为96.4%。文献[10]对足部测量数据和鞋测量数据（鞋长、鞋宽）进行回归分析，发现足长鞋长比足宽鞋宽对于性别预测更有帮助。文献[11]利用由鞋测量数据（鞋长、鞋宽）、鞋码和足长组成的四变量模型进行性别预测，准确率为96%。文献[12]提出根据脚印测量数据进行性别预测，从脚印提取7个维度的特征，包括每个脚趾前点到后跟中点长度、脚底宽度和脚跟宽度，使用判别函数分析，性别预测准确率为69.8%~80.3%。文献[13]将足部和脚印测量数据作为特征，交叉验证的性别预测准确率为71%~91%，为西澳大利亚人群的性别预测提供了可行方案。文献[14]提出足部指数结合足长、足宽进行性别预测的方法，使用多元回归模型取得了84%的性别预测准确率。文献[15]使用分类和回归树（Classification And Regression Tree，CART）算法对足部测量数据和手部测量数据进行性别预测，最优模型的性别预测准确率为95.83%。文献[16]在提取鞋长、鞋宽和鞋码特征的基础上引入步长特征，使用多元线性回归算法得到的性别预测准确率为93.5%。上述方法不仅需要人工提取特征、依赖领域知识，而且在参数测量时可能产生误差，影响预测结果。文献[17]将深度学习方法引入到足迹分析领域中，使用AlexNet卷积神经网络对赤足图像的性别进行预测，准确率为92.2%，但仅对赤足图像进行简单预处理，存在样本比例不均衡、预测准确率较低的问题。

本文提出一种基于注意力机制的性别预测方法，实现对鞋印图像特征的自动提取。构建基于注意力机制和卷积神经网络的性别预测网络，主要包括特征提取模块、通道注意力模块和性别预测模块。根据男性与女性之间的特征差异，采用合成鞋印步态能量图表达被采集者的运动特征，通过旋转、翻转、随机遮挡和随机弹性形变的方式对鞋印图像数据集进行增广，提高模型预测准确率和泛化能力。

1 数据集与预处理

目前尚没有公开的用于人身属性预估的鞋印图像数据集，为了验证所提算法的有效性，本文分别构建单枚鞋印图像数据集（SiSIS）和序列鞋印图像数据集（SeSIS）。

SiSIS共包含5 652幅单枚鞋印图像。在采集鞋印时，男志愿者1 157人，女志愿者256人。为保证鞋印花纹的随机性和数据集的丰富性，每位志愿者各穿自己具有两种花纹的鞋，每种花纹左右脚各踩一枚鞋印，男性和女性鞋印图像分别为4 628幅和1 024幅。

SeSIS共包含686幅序列鞋印图像。男志愿者28人，提供序列鞋印图像484幅，女志愿者10人，提供序列鞋印图像202幅。为避免因花纹不同所产生特异性对实验造成的影响，所有志愿者均穿统一提供的新鞋，每人至少穿8类花纹鞋进行鞋印采集。

1.1 鞋印步态能量图

受承痕体材质、随机干扰等因素的影响，在人走路时的每幅鞋印都存在差异。为提取稳定的特征，本文采用加权平均的方法合成鞋印步态能量图^[18]（Tread Energy Map，TEM）。以左右脚为依据划分左右步态能量图，左步态能量图（LTEM）和右步态能量图（RTEM）的计算如式（1）和式（2）所示：

$ \mathrm{L}\mathrm{T}\left(x, y\right)=\sum \limits_{t=1}^{T}w\left({\boldsymbol{T}}^{\mathrm{L}}\left(x, y, t\right)\right){\boldsymbol{T}}^{\mathrm{L}}\left(x, y, t\right) $

(1)

$ \mathrm{R}\mathrm{T}\left(x, y\right)=\sum \limits_{t=1}^{T}w\left({\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right)\right){\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right) $

(2)

其中：T表示参与运算的行走周期数；t表示行走周期；T^L（x，y，t）表示标准化后的第t个行走周期内的左鞋印图像，标准化是指对从鞋印序列中截取包含单枚鞋印的矩形区域进行补零，将单枚鞋印图像标准化到相同大小；w（T^L（x，y，t））表示其对应的权重系数；T^R（x，y，t）表示标准化后的第t个行走周期内的右鞋印图像；w（T^R（x，y，t））表示其对应的权重系数。

为降低鞋印残缺和外来噪声对能量图的影响，本文在计算过程中对权重系数做出限制：若鞋印图像中的一点在t时刻的灰度值极小或极大，则该时刻的灰度值不参与计算。以w（T^R（x，y，t））为例给出权重系数的定义，如式（3）和式（4）所示：

$ w\left({\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right)\right)=\left\{\begin{array}{l}0, {\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right) < \mathrm{t}{\mathrm{h}}_{\mathrm{R}}\left(\alpha , x, y\right)\\ 0, {\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right) > \mathrm{t}{\mathrm{h}}_{\mathrm{H}}\left(\alpha , x, y\right)\\ 1, \mathrm{其}\mathrm{他}\end{array}\right. $

(3)

$ w\left({\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right)\right)=\frac{w\left({\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right)\right)}{\sum \limits_{t=1}^{T}w\left({\boldsymbol{T}}^{\mathrm{R}}\left(x, y, t\right)\right)} $

(4)

其中：th_R（$ \alpha $，x，y）和th_H（$ \alpha $，x，y）分别表示对[T^R（x，y，t），t=1，2，…，T]进行升序排列，取排在第$ \alpha $位和第T-$ \alpha $位对应的值。w（T^L（x，y，t））采用相同的方法计算。图 1所示为不同人穿两种相同鞋底花纹鞋行走得到的左右步态能量图（为便于观看，对鞋印图像进行了反向），对比被采集者A和被采集者B的步态能量图。从图 1可以看出：不同人行走得到的步态能量图有所差异，而同一人穿不同鞋底花纹鞋行走得到的能量图相对稳定，明显区别于其他人。

	Download: JPG larger image
图 1 不同被采集者的左右步态能量图 Fig. 1 Left and right tread energy maps among different gatherers

1.2 数据增广

由于采集的鞋印图像较少，因此为了避免网络过拟合，同时提升模型的泛化能力，本文根据案发现场鞋印可能出现的情形设计3种数据增广方式。

1.2.1 鞋印方向差异

本文主要模拟因行走方向和习惯差异造成的鞋印差别。设输入图像为I，对其进行方向差异增广的操作包括以下2个：

1）对图像I旋转180º得到图像I_r，相当于案发现场遗留的同侧脚从相反方向行走得到鞋印图像，如式（5）所示：

$ {\boldsymbol{I}}_{\mathrm{r}}(x, y)=\boldsymbol{I}(x\mathrm{c}\mathrm{o}\mathrm{s}\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{\pi }+y\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{ }\mathrm{\pi }, -x\mathrm{s}\mathrm{i}\mathrm{n}\mathrm{ }\mathrm{\pi }+y\mathrm{c}\mathrm{o}\mathrm{s}\mathrm{ }\mathrm{\pi }) $

(5)

2）对图像I和图像I_r进行180º水平翻转，得到翻转后的图像I_f和I_rf，相当于案发现场遗留的异侧脚从相同方向行走得到的鞋印图像，如式（6）和式（7）所示：

$\boldsymbol{I}_{\mathrm{f}}=\boldsymbol{I}(-x, y) $

(6)

$ \boldsymbol{I}_{\mathrm{rf}}=\boldsymbol{I}_{\mathrm{r}}(-x, y) $

(7)

经以上操作，鞋印图像数量扩增为原图像数量的4倍，原图像与旋转、翻转后的图像如图 2所示。

	Download: JPG larger image
图 2 原图像与旋转、翻转增广后的图像 Fig. 2 The original image and the augmented images after rotation and flip

1.2.2 鞋印残缺

本文主要模拟因承痕体和外界因素造成的鞋印残缺。设输入图像I、I_r、I_f和I_rf，对其进行模拟残缺增广的操作包括：使用固定图形进行随机遮挡，即在鞋印图像中随机生成10个大小为400×20像素且像素值为0的矩形块，再将鞋印划分为3部分，分别在每部分中随机生成10个大小为50×50像素且像素值为0的矩形块和10个半径为30像素且像素值为0的圆形，生成遮挡后的鞋印图像I_e、I_re、I_fe和I_rfe，相当于案发现场因承痕体不均匀、外力破坏和现场保护不到位等原因导致鞋印图像残缺破损。使用固定图形随机遮挡后，图像数量扩大为原图像的8倍，随机遮挡后的图像如图 3所示。

	Download: JPG larger image
图 3 随机遮挡后的图像 Fig. 3 Images after random occlusions

1.2.3 承痕体材质与非均匀性对鞋印图像的影响

本文主要模拟因泥地、雪地等承痕体形变造成的鞋印差异。设输入图像I、I_r、I_f和I_rf，对其进行承痕体形变增广的操作包括：将图像分割为M×N个相同区域，每个区域大小为20×20像素，随机生成∆x和∆y 2个平移矩阵；根据平移矩阵对各区域进行平移变换，得到随机弹性形变的鞋印图像，计算过程如式（8）~式（10）所示：

$ \Delta \boldsymbol{x}={\rm{rand}}(M, N) \times \boldsymbol{X}_{\max } $

(8)

$ \Delta \boldsymbol{y}={\rm{rand}}(M, N) \times \boldsymbol{Y}_{\max } $

(9)

$ \Delta \boldsymbol{y}={\rm{rand}}(M, N) \times \boldsymbol{Y}_{\max } $

(10)

其中：rand（M，N）表示生成大小为M×N元素值在[-1, 1]之间的随机均匀分布的矩阵；X_max和Y_max分别表示x和y方向的最大位移量；（i，j）表示点（x，y）所在区域对应的块编号；∆x（i，j）表示点（x，y）所在区域对应的x方向随机位移量；∆y（i，j）表示点（x，y）所在区域对应的y方向随机位移量；f（x，y）表示输入图像I、I_r、I_f和I_rf；g（x，y）表示随机弹性形变后的鞋印图像I_d、I_rd、I_fd和I_rfd。本文模拟承痕体形变后，鞋印图像数量扩大为原图像的16倍，其中部分示例如图 4所示。

	Download: JPG larger image
图 4 随机弹性形变后的图像 Fig. 4 Images after random elastic distortions

本文分别对图像进行旋转、翻转操作，模拟了同侧脚从相反方向行走的遗留鞋印和异侧脚从相同方向行走的遗留鞋印，使用固定图形对鞋印图像进行随机遮挡，模拟了在案发现场中鞋印被部分破坏的情况，对鞋印图像进行随机弹性形变，模拟了承痕体材质与非均匀性对鞋印图像的影响。本文在训练集中加入这部分数据，提升了模型的鲁棒性并扩大了实践中的适用性。

2 本文方法

本文提出的网络由特征提取模块、通道注意力模块和性别预测模块组成。本文网络的参数设置如表 1所示。

下载CSV 表 1 本文网络参数设置 Table 1 Parameter settings of the proposed network

本文网络结构如图 5所示，首先，通过特征提取模块得到鞋印特征图，然后，利用通道注意力模块重新分配每个特征图的特征权重，最后，使用性别预测模块得到性别预测结果。

	Download: JPG larger image
图 5 本文网络结构 Fig. 5 Structure of the proposed network

2.1 特征提取模块

鞋印图像具有种类丰富、花纹复杂、存在磨损和残缺等特点，其主要通过形象特征和步法特征进行描述。形象特征主要包括鞋印尺寸、种类和花纹等；步法特征包括在多周期行走过程中的运动特征，如步幅、步宽、步角等。传统的特征提取方法主要是针对鞋印尺寸提出的，采用鞋长、鞋宽等长度特征作为鞋印图像的量化特征，仅表达了静态特征差异，无法表达因行走习惯不同而造成的动态特征差异。卷积神经网络模拟人类视觉神经细胞的感受野，以提取鞋印图像的局部和细节信息，通过增大感受野进一步提取更复杂、更抽象的信息，最终得到鞋印图像在不同尺度的抽象表达。

本文选用Inception V3^[19]作为基础框架来提取特征，其原因在于：1）方便训练，采用批量标准化（Batch Normalization，BN）正则化方法，解决过拟合与梯度消失问题；2）提取丰富的特征，使用3个不同结构的初始模块，利用不同大小卷积核组成的模块提取不同尺度的图像特征，同时将所有提取的特征进行拼接和合并，以挖掘鞋印图像中更深层的信息，从而提取鞋印图像的多尺度特征；3）计算量低且表达能力更强，将较大的二维卷积拆成2个较小的一维卷积，在增加特征表达能力的同时减少了模型的计算量，例如，使用2个3×3卷积串联代替1个5×5卷积来提取鞋印图像特征，在第1个卷积层后添加Relu激活函数，有效改善了线性性能，在卷积层后加入卷积填充层使模块大小加倍，2个卷积串联后的感受野不变，表达能力却优于单个卷积，与单独使用5×5的卷积相比，减少了28%的参数量。

2.2 通道注意力模块

注意力机制被广泛应用在计算机视觉领域，如图像分类^[20-21]、语义生成^[22]、图像着色^[23]等，其主要目的是学习人类观察物体的行为方式。当人类观察物体时会有选择地重点观察物体的显著部分，从而对物体进行识别和分析，得到更准确的视觉信息。通道注意力模块^[24]通过对每个特征的权重进行重新分配，结合特征图间的关系，建立特征通道间的相互依赖关系，在一定程度上还原了人类对物体的观察过程，使算法更加高效。

在处理鞋印图像时，通道注意力模块根据每个特征图对应特征通道的重要程度来改变特征的权重，实现了根据全局信息进行特征通道的增强或抑制，达到了特征通道自适应校准的效果，相当于重点观察鞋印图像中对性别起显著作用的部分，适当忽视非重点部分。同时，该模块在不同深度网络中发挥的作用是不同的。当把该模块添加到较浅层网络时，不同类间共享特征通道的权重，它所激发的特征与类别无关；当把该模块添加到较深层网络时，特征则表现出更高的特异性。因此，在本文的性别预测任务中，通道注意力模块放置在网络末端，此时，点积大小和输入类别呈强相关关系，进一步增强了分类效果。

通道注意力模块的结构如图 6所示，主要包括压缩、激励和点积3个重要操作。本文输入大小为H×W×C的特征图，首先，经过全局平均池化层（Global Average Pooling，GAP）进行特征压缩，输出大小为1×1×C的向量；然后，经过2层全连接层和相应的激活函数进行特征激励，生成每个通道的权重；最后，输入特征图中的每个通道分别乘以对应通道的权重值，通过点积操作，输出特征图中的不同通道被赋予不同的权重，用于表示该通道对性别预测的重要性。

	Download: JPG larger image
图 6 通道注意力模块结构 Fig. 6 Structure of channel attention module

2.3 性别预测模块

该模块由全局平均池化层、全连接层和激活函数组成。通道注意力模块最终输出经全局平均池化层整合的全局空间信息，同时避免了过拟合现象的发生，由激活函数Softmax对鞋印图像进行性别预测。性别预测是二分类问题，使用二分类交叉熵损失函数，如式（11）所示：

$ L=-\frac{1}{n}\sum \limits_{i=1}^{n}\left[{y}_{i}\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left({P}_{i}\right)+\left(1-{y}_{i}\right)\mathrm{l}\mathrm{o}{\mathrm{g}}_{\mathrm{a}}\left(1-{P}_{i}\right)\right] $

(11)

其中：n表示样本个数；y_i∈{0，1}表示样本i的标签；y_i=1表示样本i为男性鞋印；P_i∈[0, 1]表示样本i预测为男性的概率。

3 实验与结果分析 3.1 实验方法与评价标准

针对案发现场遗留鞋印的不同情况，本文分别构建了适用于现场遗留单枚鞋印场景的SiSIS数据集和适用于遗留多枚鞋印场景的SeSIS数据集。

SiSIS数据集具有被采集者多、图像数量大且鞋印花纹种类丰富的特点，缺点是单枚鞋印图像不能稳定表达不同性别个体的特征。本文采用随机划分的方式设置实验数据，验证所提方法在SiSIS数据集上的性别预测能力。

SeSIS数据集的男女占比更加均衡，采集的多周期内鞋印可以稳定表达不同性别个体的特征。根据该数据集的特点，本文共设置3组对照实验，分别为不同花纹对照组、不同个体对照组和随机划分对照组。

1）不同花纹对照组，由于被采集者均穿统一提供的新鞋，因此本文采集不同个体的鞋印图像具有相同的花纹。为了避免花纹特异性对实验结果产生影响，在该对照组的数据集划分中，确保训练集和测试集不出现相同花纹的鞋印，以验证训练出的模型对陌生花纹鞋印图像的性别预测能力。

2）不同个体对照组，由于人的行走过程是通过全身多器官和骨骼协调配合完成的，因此不同个体间的落脚形态存在一定差异。为了避免个体落脚形态对实验结果产生影响，在该对照组的数据集划分中，确保训练集和测试集中不出现同一个体的鞋印，以验证训练出的模型对陌生个体鞋印图像的性别预测能力。

3）随机划分对照组，在现实生活中，不同个体有可能穿相同花纹的鞋出现在案发现场，同一个体也有可能穿不同花纹的鞋出现在案发现场。为了尽可能模拟现实生活中的情况，在该对照组的数据集划分中，训练集和测试集均为随机划分，以验证训练出的模型对随机鞋印图像的性别预测能力。

在性别预测问题中，准确率（Accuracy）是评价模型性能的主要指标。准确率的计算如式（12）所示：

$ {A}_{\mathrm{A}\mathrm{c}\mathrm{c}\mathrm{u}\mathrm{r}\mathrm{a}\mathrm{c}\mathrm{y}}=\frac{{T}_{\mathrm{T}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}}{{T}_{\mathrm{T}\mathrm{P}}+{T}_{\mathrm{T}\mathrm{N}}+{F}_{\mathrm{F}\mathrm{P}}+{F}_{\mathrm{F}\mathrm{N}}} $

(12)

其中：T_TP表示预测为男性的男性鞋印数目；T_TN表示预测为女性的女性鞋印数目；F_FP表示预测为男性的女性鞋印数目；F_FN表示预测为女性的男性鞋印数目。

3.2 实验环境与参数设置

在Keras库中，本文调用基于ImageNet数据集预先训练的Inception V3模型，去掉全连接层，加入通道注意力模块，输出层节点数为2，使用Softmax激活函数。输入图像大小为256×256×3，采用Adam优化器^[25]，初始学习率设置为0.000 2，Batch Size设置为16，迭代次数为100。使用ReduceLROnPlateau函数自适应调整学习率，使用ModelCheckpoint函数对训练过程进行监测并自动保存最优模型，使用TensorBoard函数记录模型的训练过程及相关参数。

3.3 对比实验

为验证本文所提方法的有效性，与文献[9-11, 15-17]所提的方法进行对比实验。文献[9]采用足长、足宽特征作为参数结合逻辑回归进行性别预测；文献[10]采用鞋长、鞋宽特征结合逻辑回归对性别、身高和年龄进行预测，并分析了各特征与性别的相关性；文献[11]提取由足长、足宽、脚印长、脚印宽、鞋长、鞋宽和鞋跟长、鞋跟宽等多个特征组成多变量模型，使用判别函数进行性别预测，并分析得出对于性别预测最有效的多变量模型由足长、鞋长、鞋宽和鞋号4个变量组成的结论；文献[15]提取足长、足宽作为特征，采用分类和回归树算法进行性别预测；文献[16]基于鞋长、鞋宽、鞋码和步长特征，使用多元线性回归进行性别预测；文献[17]使用AlexNet卷积神经网络对赤足图像进行性别预测。在SiSIS数据集和SeSIS数据集上采用以上文献的特征提取和预测方法进行性别预测，实验结果如表 2所示。

下载CSV 表 2 不同方法的性别预测准确率对比 Table 2 Gender prediction accuracy comparison among different methods

从表 2可以看出，文献[9-11]提出的方法结合传统鞋印长宽特征，能有效解决性别预测问题，在不同对照组上的性能指标均值低、标准差较大，虽然文献[11]在鞋长、鞋宽特征的基础上加入了鞋码特征，有效提升了性别预测的准确率，但性能指标均值仍较低。文献[15]方法相比于文献[9-11]方法在不同对照组上的性能指标均值有小幅提升，标准差明显降低，但在SiSIS数据集上性能指标明显下降，鲁棒性较差。文献[16]方法在SeSIS数据集上的性能指标明显优于前文所述的方法，但是在数据量更大、男女鞋码大量交叉的SiSIS数据集上的性能指标无明显优势，说明该方法的泛化能力较差。文献[17]所提方法在基于鞋印图像的性别预测中准确率虽然高于前文所述的方法，但性能指标均值低于本文方法且标准差较大，尤其是在SiSIS数据集上的性能指标与本文方法相差较大。本文方法在SiSIS数据集上的准确率为91.80%，在SeSIS数据集上的不同花纹、不同个体和随机划分对照组上，本文方法分别取得了97.86%、99.35%和99.26%的性别预测准确率，性能指标均值远高于上述文献提出的方法，且性能指标标准差最小，模型泛化能力和抗干扰能力均较优。

3.4 消融实验

为验证本文所提融合通道注意力模块的有效性，本文对VGG16网络^[26]、未融合通道注意力模块的特征提取网络、VGG16融合通道注意力模块后的网络和本文方法Inception V3+通道注意力进行消融实验，实验结果如表 3所示。

下载CSV 表 3 消融实验结果 Table 3 Ablation experimental results

从表 3可以看出：1）Inception V3的指标明显优于VGG16的各项指标；2）融合通道注意力模块的性能优于没有融合通道注意力模块的性能，如VGG16+通道注意力和Inception V3+通道注意力的各项指标明显高于Inception V3和VGG16；3）本文方法受花纹或个体因素的影响较小，如在SeSIS数据集上，本文方法在不同对照组上的性能指标均值明显高于其他方法，且性能指标标准差较小。但融合通道注意力模块后，本文方法在不同花纹对照组上，相比Inception V3的准确率下降了0.61个百分点，其原因为通道注意力模块起作用的前提是花纹种类足够多，而SeSIS数据集只包含8类花纹，没有达到通道注意力模块起作用所需要的花纹数目。为了验证此结论，本文分别在SeSIS数据集和SiSIS数据集上采用不同花纹类别的鞋印进行模型训练，结果如表 4和表 5所示。SeSIS数据集包含8类花纹新鞋，分别设置3类、4类、5类和6类花纹作为训练样本，其余5类、4类、3类和2类样本作为测试样本。SiSIS数据集包含近2 800类花纹的鞋印，分别以1 000类、1 400类、1 800类和2 200类花纹作为训练样本，其余类别作为测试样本。

下载CSV 表 4 在SeSIS数据集上鞋印花纹种类数目对不同方法性能的影响 Table 4 Influence of the number of types of shoeprint patterns on performance of different methods on SeSIS dataset

下载CSV 表 5 在SiSIS数据集上鞋印花纹种类数目对不同方法性能的影响 Table 5 Influence of the number of types of shoeprint patterns on performance of different methods on SiSIS dataset

从表 4可以看出，VGG16+通道注意力和Inception V3+通道注意力的准确率下降幅度随着花纹种类数的增加而逐渐减小。参与训练的鞋印花纹数越多，本文方法的性能越显著，但SeSIS数据集的花纹种类只有8类，因此，未明显体现出本文方法的优势。从表 5可以看出，当参与训练花纹种类数为1 000类时，VGG16+通道注意力的准确率略低于VGG16，Inception V3+通道注意力的准确率略低于Inception V3；当花纹种类数达到1 400类时，VGG16+通道注意力和Inception V3+通道注意力的性能优于未融合通道注意力模块的性能。随着花纹种类数的增加，本文融合通道注意力模块的性能优势愈加凸显。综合表 4和表 5的实验结果表明，本文所提的通道注意力模块在参与训练的鞋印花纹数超过一定数目时，效果要优于未融合通道注意力的方法。

为验证对SiSIS和SeSIS数据集进行数据增广的有效性，本文对原数据和增广后的数据进行消融实验，结果如表 6所示。

下载CSV 表 6 数据增广对性别预测准确率的影响 Table 6 Influence of data augmentation on gender prediction accuracy

从表 6可以看出，对鞋印数据集进行数据增广可以有效提高性别预测准确率。在SiSIS和SeSIS（不同个体）数据集上，经数据增广操作后本文方法的预测准确率分别提升了1.49和1.30个百分点，其他方法的预测准确率也均有不同程度的提升。

4 结束语

本文提出一种基于鞋印的端到端性别预测方法，同时构建符合案发现场实际情况的单枚和序列鞋印图像数据集。采用卷积神经网络提取鞋印图像特征，根据每个特征图对应特征通道的重要程度，通过通道注意力模块对特征权重进行重新分配，达到特征通道自适应校准的目的。在单枚和序列鞋印图像数据集上的实验验证本文方法的有效性，结果表明，相比传统的性别预测方法，本文方法具有较优的预测准确率。后续将对不同承痕体的鞋印数据集进行扩充，进一步优化性别预测模型。

参考文献

[1]	LU L, XU Z Y, SHI P F. Gender classification of facial images based on multiple facial regions[C]//Proceedings of WRI World Congress on Computer Science and Information Engineering. Washington D.C., USA: IEEE Press, 2009: 48-52.
[2]	BISWAS S, SIL J. Gender classification using spatial and temporal features[C]//Proceedings of IEEE Recent Advances in Intelligent Computational Systems. Washington D.C., USA: IEEE Press, 2013: 153-157.
[3]	XU Y N, ZHAO Y, ZHANG Y J. Multi-scale local binary pattern histogram for gender classification[C]//Proceedings of the 8th International Congress on Image and Signal Processing. Washington D.C., USA: IEEE Press, 2015: 654-658.
[4]	ARAI K, ANDRIE R. Gender classification with human gait based on skeleton model[C]//Proceedings of the 10th International Conference on Information Technology. Washington D.C., USA: IEEE Press, 2013: 113-118.
[5]	HU M D, WANG Y H. A new approach for gender classification based on gait analysis[C]//Proceedings of the 5th International Conference on Image and Graphics. Washington D.C., USA: IEEE Press, 2009: 869-874.
[6]	HEMA M, ESTHER R K. Gait energy image projections based on gender detection using support vector machines[C]//Proceedings of the 5th International Conference on Communication and Electronics Systems. Washington D.C., USA: IEEE Press, 2020: 1315-1320.
[7]	BODZIAK W J. Footwear impression evidence: detection, recovery and examination[M]. 2nd ed. Boca Raton, USA: CRC Press, 2000: 383-385.
[8]	史力民. 足迹检验实用技术教程[M]. 北京: 中国人民公安大学出版社, 2012. SHI L M. Practical technology course of footprint inspection[M]. Beijing: People's Public Security University of China Press, 2012. (in Chinese)
[9]	ZEYBEK G, ERGUR I, DEMIROGLU Z. Stature and gender estimation using foot measurements[J]. Forensic Science International, 2008, 181(1/2/3): 54.
[10]	OZDEN H, BALCI Y, DEMIRÜSTÜ C, et al. Stature and sex estimate using foot and shoe dimensions[J]. Forensic Science International, 2005, 147(2/3): 181-184.
[11]	ATAMTURK D. Estimation of sex from the dimensions of foot, footprints, and shoe[J]. Anthropologischer Anzeiger, 2010, 68(1): 21-29. DOI:10.1127/0003-5548/2010/0026
[12]	ABLEDU J K, ABLEDU G K, OFFEI E B, et al. Determination of sex from footprint dimensions in a Ghanaian population[J]. PLoS One, 2015, 10(10): 1-13.
[13]	HEMY N, FLAVEL A, ISHAK N I, et al. Sex estimation using anthropometry of feet and footprints in a western Australian population[J]. Forensic Science International, 2013, 231(1/2/3): 402.
[14]	SEN J, KANCHAN T, GHOSH S. Sex estimation from foot dimensions in an indigenous Indian population[J]. Journal of Forensic Sciences, 2011, 56(Suppl 1): 148-153.
[15]	DAYARATHNE S, NAWARATHNA L S, NANAYAKKARA D. Determination gender using foot, footprint, hand and hand print measurements in a Sinhalese population in Sri Lanka using supervised learning techniques[J]. Computer Methods and Programs in Biomedicine Update, 2021, 1: 1-17.
[16]	CHOOSAKOONKRIANG S, KHEAWPUM O. Estimation of stature and sex from step length and shoe dimensions for forensic investigation[J]. Interdisciplinary Research Review, 2020, 15(6): 1-5.
[17]	史力民, 李硕, 赵悦岑. 基于深度学习的赤足迹性别自动分析研究[J]. 中国刑警学院学报, 2018(3): 97-99. SHI L M, LI S, ZHAO Y C. Study on the gender automatic analysis of red footprint based on deep learning[J]. Journal of Criminal Investigation Police University of China, 2018(3): 97-99. (in Chinese)
[18]	王新年, 于丹, 张涛. 穿鞋足迹序列的足迹能量图组表达与识别[J]. 中国图象图形学报, 2021, 26(10): 2357-2375. WANG X N, YU D, ZHANG T. Shoeprint sequence representation and recognition using shoeprint energy map set[J]. Journal of Image and Graphics, 2021, 26(10): 2357-2375. (in Chinese)
[19]	SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2016: 2818-2826.
[20]	CHEN Q, LIU L, HAN R, et al. Image identification method on high speed railway contact network based on YOLO v3 and SENet[C]//Proceedings of Chinese Control Conference. Washington D.C., USA: IEEE Press, 2019: 8772-8777.
[21]	LV S Q, WANG Z P, NA J Y. Arrhythmia classification of merged features method based on SENet and BiLSTM[C]//Proceedings of the 4th International Conference on Information Communication and Signal Processing. Washington D.C., USA: IEEE Press, 2021: 162-167.
[22]	LU J S, XIONG C M, PARIKH D, et al. Knowing when to look: adaptive attention via a visual sentinel for image captioning[C]//Proceedings of Conference on Computer Vision and Pattern Recognition. Washington D.C., USA: IEEE Press, 2017: 3242-3250.
[23]	WU M, JIN X, JIANG Q, et al. Remote sensing image colorization based on multiscale SENet GAN[C]//Proceedings of the 12th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics. Washington D.C., USA: IEEE Press, 2019: 1-6.
[24]	HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023.
[25]	MEHTA S, PAUNWALA C, VAIDYA B. CNN based traffic sign classification using adam optimizer[C]//Proceedings of International Conference on Intelligent Computing and Control Systems. Washington D.C., USA: IEEE Press, 2019: 1293-1298.
[26]	WANG H. Garbage recognition and classification system based on convolutional neural network VGG16[C]//Proceedings of the 3rd International Conference on Advanced Electronic Materials, Computers and Software Engineering. Washington D.C., USA: IEEE Press, 2020: 252-255.