医学上通常将人类骨骼年龄(以下称为骨龄)作为其生物学年龄,与出生年龄相比,骨龄能更准确地反映人体成熟度。在临床医学中,骨龄评估广泛应用于儿童成长预测与相关疾病辅助诊断,是研究儿童内分泌、遗传因子和生长障碍的一种常用手段[1-3]。
目前临床通常采用G & P方法[4]或TW方法[5]通过左手(非惯用手)骨X射线图像进行骨龄人工评估。G & P方法又称图谱法,该方法主要通过观察远端指骨、中间指骨以及腕部的各种形状骨样,将特定感兴趣区域(Region of Interest,RoI)的图像特征与标准图谱中各年龄段图像特征进行对比来评估骨龄。TW方法又称计分法,该方法主要通过分析骨骺/干骨后端感兴趣区域(Epiphysis/Metaphysis Region of Interest,E/MRoI)以及腕骨感兴趣区域(Carpal Region of Interest,CRoI)等20个感兴趣区域(Region of Interest,RoI)并分别评分,然后将所有RoI分数相加得到骨成熟度总评分来评估骨龄。然而G & P方法和TW方法耗时较长,以G & P方法和TW方法中TW2方法为例,经验丰富的医生使用这两种方法分别需耗费1.4 min和7.9 min[6]。此外,上述方法均受医生主观因素影响,评估所得骨龄通常存在误差,其中,G & P方法的平均误差为0.96岁,TW2方法的平均误差为0.74岁[7]。
目前自动化骨龄检测方法大部分按照TW方法的原理对手骨X射线图像的RoI特征进行自动化提取。21世纪初,PIETKA等人[8-9]提出基于自组织指骨距离提取的E/MRoI分割方法,并用模糊分类器进行TW级分配,通过评估360张0岁~6岁儿童的手骨X射线图像得到骨龄平均绝对误差(Mean Absolute Error,MAE)为2.41岁,经改进分类器处理后得到MAE为1.93岁。2007年,GERTYCH等人[10]采用模糊逻辑的骨龄评估方法在1 400张0岁~18岁儿童手骨X射线图像公共数据集上进行评估,得到骨龄MAE为2.15岁。2016年,SEOK等人[11]提出一种决策规则的评估方法,在135张未公布年龄的X射线图像非公开数据集上评估得到骨龄均方误差(Mean Square Error,MSE)为0.19岁。文献[12]提出一种BoneXpert方法,融合G & P方法和TW方法建立统一模型进行自动年龄评估,利用生成模型和活动外观模型自动分割手部和腕部的15根骨骼,然后根据骨骼的形状、强度与纹理特征确定其G & P或TW2骨龄,在1 559张7岁~17岁儿童的手骨X射线图像非公开数据集上评估得到G & P和TW2骨龄的MSE为0.42岁和0.80岁。2017年,SPAMPINATO等人[13]提出一种基于深度学习的骨龄评估方法BoNet,在0岁~18岁涵盖所有种族和性别的手骨X射线图像公共数据集上进行自动化骨龄评估,得到骨龄MAE为0.8岁。
在上述研究中,除了基于深度学习的自动化骨龄评估方法,其他方法均基于G & P方法或TW方法中的E/MRoI和CRoI对手骨X射线图像进行分割提取图像几何物理特征,并计算出图像特征来评估骨龄,然而将临床特征直接作为计算机视觉或机器学习分析处理的对象极大限制了自动化骨龄评估的泛化能力。此外,骨龄评估还存在实验数据集不公开、数据量较少、针对特定性别或种族,以及大部分受试者因年龄较小骨骼尚未定型等问题,其中BoneXpert方法对图像质量要求较高。以上因素导致实验结果不能真实反映自动化评估方法的性能,且评估方法不易验证与推广。
针对上述自动化骨龄评估方法存在的问题,本文提出一种基于深度学习的X射线图像自动骨龄评估方法,建立改进的端到端深度学习网络Inception ResNet V2,减少特征提取复杂度与局限性,在不借助任何先验信息的情况下,将手骨X射线图像简单预处理后作为神经网络的输入,通过改进卷积神经网络自动提取手骨X射线图像深层特征进行识别和分类,并采用分层K折交叉验证法对网络进行训练。
1 基于深度学习的骨龄检测方法深度学习与传统简单学习的区别在于,前者通过多层网络结构自主学习和表征数据特征[14],而后者需要人工提取特征信息。人工提取的特征通常不准确或者不能很好地表征事物本质,难以取得理想的学习效果。与传统简单学习相比,深度学习的效果更优异且对数据特征的提取更准确。卷积神经网络是深度学习在图像领域的成功应用之一[15]。
近年来,深度卷积神经网络已成为图像识别性能优化的关键,其中具有代表性的是2014年ImageNet ILSVRC图像识别竞赛的冠军模型GoogleNet[16-17],其以相对较低的计算成本获得良好的识别精度。GoogleNet深度学习架构中较先进的Inception V3、Inception V4、Inception ResNet V1以及Inception ResNet V2网络[18]的检测错误率与参数量如表 1所示。可以看出,Inception ResNet V2网络的Top-1和Top-5错误率均低于GoogleNet系列的其他网络,因此,本文将Inception ResNet V2作为基础网络用于骨龄评估。
![]() |
下载CSV 表 1 不同网络的检测错误率与参数量 Table 1 Detection error rate and parameter quantity of different networks |
Inception ResNet V2网络的原始结构由Stem模块、Inception-ResNet模块、Reduction模块以及Softmax层组成。Inception-ResNet模块使用1×1卷积和降维的方法减少参数量,在增加网络深度的同时使用Shortcut可有效避免梯度消失的问题,提高识别速度并加快收敛。
使用Inception ResNet V2网络进行骨龄评估的具体过程为:利用深度卷积神经网络进行特征学习,将手骨X射线图像的低层特征和高层特征进行融合,同时重复利用手骨特征有效性,并删减Inception ResNet V2网络中Softmax层以优化Inception ResNet V2网络结构,如图 1所示(彩色效果参见《计算机工程》官网HTML版)。
![]() |
Download:
|
图 1 优化的Inception ResNet V2网络结构 Fig. 1 Optimized structure of Inception ResNet V2 network |
Inception模块使用多层感知器代替传统卷积神经网络中的通用线性结构,多层感知器具有良好的非线性分类能力,在分类精度和收敛速度方面具有更好的效果,适用于骨龄评估等非线性分类问题。Inception模块原始结构如图 2(a)所示,该模块利用1×1、3×3、5×5卷积核和3×3最大池化操作扩展网络的深度与宽度,将不同规模卷积核的结果联合滤波获得输出,以提取更丰富的手骨X射线图像深层特征。考虑到5×5卷积核需要大量计算,采用3×3卷积核代替5×5卷积核[19]对Inception模块进行优化,获得Inception-A模块,其结构如图 2(b)所示。为进一步减少计算量,引入非对称卷积核,使用1×n卷积核与n×1卷积核代替n×n卷积核,在卷积核感受野不变的情况下节约计算资源。非对称卷积核在中等大小的特征图上分类精度更高,经过测试得到卷积优化后的Inception-B模块和Inception-C模块,其结构分别如图 2(c)和图 2(d)所示。
![]() |
Download:
|
图 2 原始模块和卷积优化后的Inception模块结构 Fig. 2 Structure of original module and convolution optimized Inception modules |
Inception模块的引入使网络宽度与深度增加,卷积优化后的Inception模块可降低计算量并提取到手骨X射线图像不同层次的特征,有利于提高骨龄预测精度,但也会造成梯度消失或梯度爆炸等问题。因此,通过在卷积优化后的Inception模块中加入残差连接[20]结构可解决卷积神经网络深度增加带来的副作用,残差连接结构如图 3所示。
![]() |
Download:
|
图 3 残差连接结构 Fig. 3 Residual connection structure |
残差连接结构的输入和输出关系表示为:
$ {x_{l + 1}} = {x_l} + F\left( {{x_l}, {w_l}} \right) $ | (1) |
$ {x_{l + 2}} = {x_{l + 1}} + F\left( {{x_{l + 1}}, {w_{l + 1}}} \right) = {x_l} + F\left( {{x_{l, }}{w_l}} \right) + F\left( {{x_{l + 1}}, {w_{l + 1}}} \right) $ | (2) |
$ {x_L} = {x_l} + \mathop \sum \limits_{i = 1}^{L - 1} F\left( {{x_i}, {w_i}} \right) $ | (3) |
其中,xl为残差块的输入,xl+1、xl+2和xL分别为xl后第1层、第2层和第L层残差块的输出,F(·)为激活函数,w为卷积操作。
根据反向传播算法中的链式法则,损失函数c关于xl的梯度表示为:
$ \frac{{\partial c}}{{\partial {x_l}}} = \frac{{\partial c}}{{\partial {x_L}}}\frac{{\partial {x_L}}}{{\partial {x_l}}} = \frac{{\partial c}}{{\partial {x_L}}}\left( {1 + \frac{\partial }{{\partial {x_i}}}\mathop \sum \limits_{i = 1}^{L - 1} F\left( {{x_i}, {w_i}} \right)} \right) $ | (4) |
在残差连接结构中,当更新某个节点的参数时,由于xL=F(x)+xl,因此链式求导后即使
利用残差连接结构的优势,将改进后的Inception模块与残差连接结合[17]分别得到Inception-ResNet-A模块、Inception-ResNet-B模块和Inception-ResNet-C模块,其结构如图 4所示。
![]() |
Download:
|
图 4 3种模块的结构 Fig. 4 Structure of three modules |
本文采用固定学习率训练优化后的Inception ResNet V2网络,考虑到固定学习率下网络模型不易收敛,采用MSE损失函数。由于MSE损失梯度随损失减小而降低,当梯度下降即将结束时不易错过最小值,因此训练网络采用MSE损失函数较其他损失函数所得效果更精确。
将骨龄评估损失定义为手骨X射线图像评估所得骨龄读数与标签(真实)值的均方误差,计算公式为:
$ {\rm{MSE = }}\frac{1}{N}\mathop \sum \limits_i^N {\left( {{y_{{\rm{true}}}} - {y_{{\rm{pred}}}}} \right)^2} $ | (5) |
其中,N为样本数,ytrue为骨龄真实值,ypred为骨龄预测值。MSE值越大,表示骨龄预测结果越差。
1.3 评价指标对于骨龄数值回归预测结果,本文采用平均绝对误差作为评价指标,MAE值越小,说明预测精度越高,计算公式为:
$ {\rm{MAE = }}\frac{1}{N}\left( {\mathop \sum \limits_{i = 1}^N \left| {{y_{{\rm{true}}}} - {y_{{\rm{pred}}}}} \right|} \right) $ | (6) |
本文实验数据集采用一种骨骼年龄自动基准测量的公共综合X射线数据集Digital Hand Atlas Database System。该数据集包含1 391张18岁以下儿童左手骨X射线图像,涵盖亚洲人、非洲人、高加索人、西班牙人4个种族,每张图像都由医学专家提供骨龄值,儿童的种族、年龄、性别分布情况如表 2所示。由于该数据集为公共数据集,适用性较强,涵盖种族数量多、年龄范围广,因此其训练的网络可应用于各年龄段及各种族的骨龄评估,在一定程度上弥补了目前自动骨龄评估方法的不足。
![]() |
下载CSV 表 2 数据集中儿童的种族、年龄和性别分布情况 Table 2 Race, age and gender distribution of children in the dataset |
利用深度学习处理图像时,需采用大量数据进行训练,然而数据集样本不足,因此,需扩增数据集样本数量。由于不能改变手骨X射线图像RoI特征的原始样貌,因此未选用随机拉伸等数据增强方法,而是通过将图像上下翻转180°使数据集图像数量扩大为原来的两倍。然后对数据增强后的手骨X射线图像进行Z-Score标准化处理,经过处理的数据均值为0,标准差为1,最终将不同量级的数据转化为统一度量,从而提高数据可比性并削弱数据解释性。
2.3 改进的交叉验证方法本文实验所用数据集包括亚洲人、非洲人、高加索人和西班牙人4个种族,不同种族手骨X射线图像的特征区域存在差异。采用标准K折交叉验证法(见图 5(a))将数据集按顺序分为K等份,对于每一次模型的训练测试(共K次),都有(K-1)份做训练集,剩下1份做测试集,K次训练测试后共得到K个结果,对该结果取平均值作为最终结果。由于此方法按顺序将数据集划分等份,可能存在样本类别分配不均衡造成验证效果无意义,因此本文实验采用分层K折交叉验证法(见图 5(b))对数据分层采样,确保训练集和测试集中样本类别的比例与原始数据集相同,避免分类不均衡,以弥补标准K折交叉验证法的不足,使实验结果更准确。
![]() |
Download:
|
图 5 2种交叉验证方法 Fig. 5 Two cross validation methods |
本文实验在安装Windows10系统的GPU计算平台上进行,采用Intel® CoreTM i7-8700K CPU、16 GB×2内存以及NVIDIA GeForce GTX 1080Ti GPU,所有程序通过以Tensorflow为后端的开源框架Keras及其Python接口实现。
2.5 训练策略本文采用MSE损失函数和Adam优化算法[21]训练模型,批量大小设置为32,初始学习速率为0.1,以每次缩小为原速率1/5或1/10的速率依次递减进行学习速率调参,并在取得较高骨龄评估精度时通过微调学习速率取得最优结果。使用骨龄标签值作为模型训练目标,在增强后的数据集上使用分层5折交叉验证法评估网络模型对骨龄的预测精度,每折进行200次迭代,并计算骨龄预测值和骨龄真实值的MAE作为模型输出。
2.6 结果分析神经网络权值的变化基于损失梯度的调整,而学习速率控制神经网络权值变化的速度。若学习速率过高,则梯度降幅较大,易越过最优解;若学习速率过低,则梯度降幅较小,将会延长收敛时间。在采用改进的Inception ResNet V2网络进行骨龄评估过程中,为取得最优学习速率,本文在不同学习速率下进行实验,所得结果如图 6所示。可以看出,改进的Inception ResNet V2网络在评估骨龄过程中,当学习速率小于0.005时MAE值开始收敛,并在学习速率为0.001时MAE达到最小值,得到模型训练后的最优结果。
![]() |
Download:
|
图 6 改进Inception ResNet V2网络在不同学习速率下的MAE值 Fig. 6 MAE values of improved Inception ResNet V2 network at different learning rates |
为验证本文提出的改进Inception ResNet V2网络(以下称为本文网络)的检测性能,将其与基于深度学习的BoNet[13]骨龄评估网络(以下称为BoNet网络)在同一数据集上进行对比。BoNet网络由5个卷积层和位于第4个卷积层后的1个变形层组成,由含有2 048个神经元的全连接层与用于估计的单神经元组成回归网络。在对比实验中,本文网络采用分层K折交叉验证法,BoNet网络采用标准K折交叉验证法,结果如表 3所示。可以看出,本文网络的MAE值较BoNet网络更低,骨龄预测精度更高。由此可见,在包括多个种族、不同年龄和性别的公共数据集上,本文方法能提取更具区分性的特征,对骨骼图像的识别率更高,具有较好的鲁棒性与泛化能力。
![]() |
下载CSV 表 3 2种网络的MAE值 Table 3 MAE values of two networks |
为验证Inception ResNet V2网络在骨龄评估方面的优异性能,对比Inception V3、Inception V4、Inception ResNet V1网络(上述网络均已删去Softmax层以便骨龄评估)的骨龄评估情况,采用MSE损失函数和MAE指标并利用分层K折交叉验证法进行实验,批处理图像数量为32,通过调参得到各网络的最优学习速率,不同网络的学习速率调参结果如图 7所示。结合图 6可以看出,Inception V3、Inception V4、Inception ResNet V1与Inception ResNet V2网络的最优学习速率分别为0.001 0、0.010 0、0.000 5和0.001 0。4种网络在最优学习速率下所得MAE值如表 4所示。
![]() |
Download:
|
图 7 不同网络的学习速率调参结果 Fig. 7 Results of parameter adjustments of learning rate of different networks |
![]() |
下载CSV 表 4 4种网络在最优学习速率下的MAE值 Table 4 MAE values of four networks at optimal learning rates |
可以看出,Inception系列网络的骨龄预测精度均优异于BoNet网络,说明Inception系列模块在手骨X射线图像特征提取上具有优异的效果。Inception ResNet V1在Inception V3的基础上加入残差连接结构,Inception ResNet V2在Inception V4的基础上加入残差连接结构,Inception V4在Inception V3基础上对网络进行优化,与Inception V3相比,Inception V4的网络结构更精简且Inception模块更多,上述网络中前者的MAE值均低于后者,骨龄预测精度更高。以上实验结果表明,残差网络的连接结构对骨龄评估有正向促进作用。残差网络结构使深度神经网络在前向传播时的输入信号从任意层直接传播到高层,在一定程度上解决网络退化问题,且深度神经网络在反向传播时的错误信号可不经过任何中间权重矩阵变换直接传播到低层,在一定程度上缓解梯度弥散问题,从而提升网络模型对手骨X线图像特征的处理性能,得到更高的预测精度。
3 结束语本文提出一种基于深度学习的改进Inception ResNet V2网络骨龄评估方法。通过去除Softmax层优化深度卷积神经网络结构,在Inception模块中加入非对称卷积核和残差连接结构提高分类精度,扩展数据集避免深度学习算法出现过拟合现象,采用分层K折交叉验证法对数据均衡采样。实验结果表明,与采用BoNet网络的方法相比,该方法骨龄预测精度更高,具有较好的鲁棒性和泛化能力。后续将对卷积神经网络的特征提取区域进行可视化研究,并与G & P方法和TW方法的特征提取区域进行对比,进一步提高本文方法的骨龄评估性能。
[1] |
MARTIN D D, DEUSCH D, SCHWEIZER R, et al. Clinical application of automated Greulich-Pyle bone age determination in children with short stature[J]. Pediatric Radiology, 2009, 39(6): 598-607. DOI:10.1007/s00247-008-1114-4 |
[2] |
LIU Jielin, LIU Jie. A review of the development of bone age assessment system[J]. Life Science Instruments, 2017, 15(2): 9-13. (in Chinese) 刘洁琳, 刘杰. 骨龄评估系统发展综述[J]. 生命科学仪器, 2017, 15(2): 9-13. |
[3] |
ZHANG A F, GERTYCH A, LIU B J. Automatic bone age assessment for young children from newborn to 7-year-old using carpal bones[J]. Computerized Medical Imaging and Graphics, 2007, 31(4): 299-310. |
[4] |
GREULICH W W, PYLE S I.Radiographic atlas of skeletal development of the hand and wrist[EB/OL].[2019-11-25].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1273618/.
|
[5] |
KIM S Y, OH Y J, SHIN J Y, et al. Comparison of the Greulich-Pyle and Tanner Whitehouse(TW3) methods in bone age assessment[J]. Journal of Korean Society of Pediatric Endocrinology, 2008, 13(1): 50-55. |
[6] |
CHRISTOFORIDIS A, BADOURAKI M, KATZOS G, et al. Bone age estimation and prediction of final height in patients with β-thalassaemia major:a comparison between the two most common methods[J]. Pediatric Radiology, 2007, 37(12): 1241-1246. DOI:10.1007/s00247-007-0656-1 |
[7] |
KING D G, STEVENTON D M, OSULLIVAN M P, et al. Reproducibility of bone ages when performed by radiology registrars:an audit of Tanner and Whitehouse Ⅱ versus Greulich and Pyle methods[J]. The British Journal of Radiology, 1994, 67(801): 848-851. DOI:10.1259/0007-1285-67-801-848 |
[8] |
PIETKA E, GERTYCH A, POSPIECH S, et al. Computer-assisted bone age assessment:image preprocessing and epiphyseal/metaphyseal RoI extraction[J]. IEEE Transactions on Medical Imaging, 2001, 20(8): 715-729. DOI:10.1109/42.938240 |
[9] |
PIETKA E, POSPIECH-KURKOWSKA S, GERTYCH A, et al. Integration of computer assisted bone age assessment with clinical PACS[J]. Computerized Medical Imaging and Graphics, 2003, 27(2): 217-228. |
[10] |
GERTYCH A, ZHANG A F, SAYRE J, et al. Bone age assessment of children using a digital hand atlas[J]. Computerized Medical Imaging and Graphics, 2007, 31(4): 322-331. |
[11] |
SEOK J, KASA-VUBU J, DIPIETRO M, et al. Expert system for automated bone age determination[J]. Expert Systems with Applications, 2016, 50(5): 75-88. |
[12] |
THODBERG H H, KREIBORG S, JUUL A, et al. The BoneXpert method for automated determination of skeletal maturity[J]. IEEE Transactions on Medical Imaging, 2009, 28(1): 52-66. DOI:10.1109/TMI.2008.926067 |
[13] |
SPAMPINATO C, PALAZZO S, GIORDANO D, et al. Deep learning for automated skeletal bone age assessment in X-ray images[J]. Medical Image Analysis, 2017, 36(2): 41-51. |
[14] |
HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647 |
[15] |
LECUN Y, KAVUKCUOGLU K, FARABET C.Convolutional networks and applications in vision[C]//Proceedings of 2010 IEEE international symposium on circuits and systems.Washington D.C., USA: IEEE Press, 2010: 253-256.
|
[16] |
SZEGEDY C, LIU W, JIA Y, et al.Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2015: 1-9.
|
[17] |
IOFFE S, SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL].[2019-11-25].https://arxiv.org/abs/1502.03167.
|
[18] |
SZEGEDY C, IOFFE S, VANHOUCKE V, et al.Inception-V4, Inception-ResNet and the impact of residual connections on learning[EB/OL].[2019-11-25].https://arxiv.org/abs/1602.07261.
|
[19] |
SZEGEDY C, VANHOUCKE V, IOFFE S, et al.Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 2818-2826.
|
[20] |
HE Kaiming, ZHANG Xianyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C., USA: IEEE Press, 2016: 770-778.
|
[21] |
KINGMA D P, BA J.Adam: a method for stochastic optimization[EB/OL].[2019-11-25].https://arxiv.org/abs/1412.6980.
|