作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2025年, 第51卷, 第1期 刊出日期:2025-01-15
  

  • 全选
    |
    封面和目录
  • 计算机工程. 2025, 51(1): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 基于感知信息的图像处理
  • 钟忺, 陈亮, 刘文璇, 叶舒, 江奎, 王正, 林嘉文
    计算机工程. 2025, 51(1): 1-10. https://doi.org/10.19678/j.issn.1000-3428.0069307
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在实际应用中, 单视角摄像头采集数据由于物体存在遮挡而失去对某些区域的可见性, 因此结合多个视角下的数据进行行为分析对于维护社会稳定及民生安全至关重要。针对多视角行为识别中存在的偏置问题, 即不同视角下空间语义不一致导致的视角间行为表征差异以及同一行为执行过程中的时序语义不一致导致的行为表征差异, 提出一种渐进去偏置的多视角方法。首先, 在多视角下的同一行为样本中以证据理论为引导, 结合不同视角下的行为同构性进行视角间行为去偏置, 优化不同视角下关注的行为特征权重, 以获得更全面的无偏行为表示。其次, 结合多粒度解耦策略, 分析不同粒度对行为特征无偏表达的影响, 准确分离行为相关和行为无关特征, 以避免视角内行为无关信息扰乱行为表征导致的显著差异。最后, 在时序维度上构建不同行为特征权重, 增强同一视角内行为特征一致性, 减弱同一行为的行为表征差异。在多个数据集上的实验结果验证了所提方法的有效性, 在N-UCLA和NTU-RGB+D数据集上的跨视角准确率分别达到了97.4%和96.4%, 并且所提方法在满足多视角下对行为识别进行准确分析应用需求的同时通过一种新的去偏置思路为多视角行为识别问题提供了一种有效的解决方案。

  • 罗旭东, 袁笛, 常晓军, 何震宇
    计算机工程. 2025, 51(1): 11-19. https://doi.org/10.19678/j.issn.1000-3428.0069724
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    水下视觉目标跟踪(UVOT)任务不仅需要应对常见的露天跟踪挑战, 而且还需要面对水下环境所特有的诸多挑战, 包括但不限于光学退化和散射、光照不均、能见度低、水动力学等影响。在这种情况下, 直接将大量传统的露天场景目标跟踪方法应用于水下场景, 其性能下降是难以避免的。为了解决上述问题, 首先引入一种基于不确定性启发的水下图像增强(UIE)模块, 将UIE拆分为分布估计和共识过程, 并利用一种新的概率网络来学习水下图像的增强分布, 以解决参考图像的偏差问题。然后将UIE模块应用于基于注意力的特征融合网络, 提出水下目标跟踪算法UTransT, 其中的特征融合网络结合自注意力和交叉注意力机制, 以便有效地融合模板特征和搜索区域特征。实验结果表明: 在UTB180数据集上, UTransT的成功率相比于对比算法中表现最优的MixFormer提高了0.8百分点、归一化精度提高了1.9百分点; 在VMAT数据集上, 其成功率相比对比算法中表现最优的掩盖外观转移(MAT)算法提高了1.2百分点、归一化精度提高了1.5百分点; UTransT能够以65帧/s的速度进行实时跟踪。这验证了所提算法在改善水下目标跟踪任务中的有效性和可行性。

  • 周宇, 谢威, 邝得互, 江健民
    计算机工程. 2025, 51(1): 20-30. https://doi.org/10.19678/j.issn.1000-3428.0069369
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    视频快照压缩成像(SCI)是一种基于计算的成像技术, 通过在时间域和空间域上的混合压缩来实现高效成像。在视频SCI中, 利用信号的稀疏性以及它在时间域和空间域中的相关性并采用合适的视频SCI算法, 有效地重建原始视频信号。虽然基于深度学习的重建算法在多数任务中取得了良好的效果, 但是还存在过高的模型复杂度和较慢的重建速度。为解决这些问题, 提出一个基于三元自注意力的视频快照压缩成像重建网络模型SCT-SCI, 利用多分支分组自注意力机制来利用时间域和空间域的相关性。SCT-SCI模型由一个特征提取模块、一个视频重建模块和多个三元自注意力模块SCT-Block组成。每个SCT-Block由一个窗口自注意力分支、一个通道自注意力分支和一个时序自注意力分支组成, 同时引入空间聚合模块SC-2DFusion和全局聚合模块SCT-3DFusion加强特征融合。实验结果显示, 在模拟视频数据集上, 该模型具有低复杂度的优势, 在保证接近的重建质量的前提下相比EfficientSCI模型节省了31.58%的重建时间, 提升了实时性能。

  • 胡升龙, 陈彬, 张开华, 宋慧慧
    计算机工程. 2025, 51(1): 31-41. https://doi.org/10.19678/j.issn.1000-3428.0070064
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有的协同显著性目标检测(CoSOD)方法通过挖掘组内一致性与组间差异性来学习判别性表征, 这种范式因缺乏语义标签的引导导致所学表征的判别性受限, 难以应对复杂的非协同目标的干扰。为了解决这一问题, 提出一种新的场景结构知识增强的CoSOD模型SSKNet。SSKNet利用大模型mPlug构建目标间场景结构语义关系并通过分割一切模型(SAM)将这种结构语义关系转移到最终的协同显著性结果中。具体来说: 首先, 为了学习语义知识, 引入图像场景理解大模型, 对图像组中的图像进行理解, 并得到表示结构语义的文本描述组, 这些文本描述组以文本的形式描述图像的显著内容; 接着, 为了获取协同显著信息, 设计协同提示提取(CoPE)模块, 通过在一组描述文本中使用协同注意力机制获取协同显著文本; 最后, 为了将协同显著文本转化为协同显著掩码, 引入SAM, 将协同显著文本以文本提示的方式引导SAM分割协同显著目标, 获取最终的协同显著检测掩码。在3个公开数据集CoSal2015、CoCA和CoSOD3k上的实验结果表明, SSKNet模型的综合评估指标Fβ的取值分别为0.910、0.750和0.887, 达到了先进水平。

  • 林烁彬, 蔡捷仪, 方晓城, 张正, 卢光明, 陈炳志
    计算机工程. 2025, 51(1): 42-50. https://doi.org/10.19678/j.issn.1000-3428.0069656
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对现有对抗鲁棒蒸馏(ARD)方法存在不充分和不可靠的教师网络指导及固定的攻击强度问题, 提出一种基于强度相关正则化学习(ICRL)的ARD方法。该方法包括多维度知识蒸馏和强度动态调整攻击两个关键模块。多维度知识蒸馏通过跨越师生logit的实例维度和类别维度的知识蒸馏以及学生内省自我维度的知识蒸馏, 有效地解决了因教师网络指导不充分和不可靠造成的分布差异问题。为了使对抗样本的攻击强度可以随着学生网络鲁棒性的增强而自适应更新, 设计一套精简有效的攻击强度动态调整算法, 旨在为每个实例动态选择和分配适配的攻击强度。此外, ICRL还从攻击强度角度对学生内省自我维度进行正则化规范, 自适应规范化学生内省损失并避免极端对抗扰动实例的影响。在CIFAR-10和CIFAR-100数据集上的大量实验结果表明, 该方法不仅可以作为大多数主流的ARD框架的通用插件, 而且大大增强了基准方法对多步骤攻击的抵抗力, 特别是对于当前表现最佳的基准方法AdaAD, 在学生网络为ResNet-18的条件下, AdaAD-ICRL在投影梯度下降(PGD)-10攻击下的对抗鲁棒精度分别提高了2.06和2.11百分点, 这验证了该方法在现有框架中的兼容性与有效性。

  • 人工智能与模式识别
  • 宋英华, 徐亚安, 张远进
    计算机工程. 2025, 51(1): 51-59. https://doi.org/10.19678/j.issn.1000-3428.0068372
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    空气污染是城市环境治理的主要问题之一, 而PM2.5是影响空气质量的重要因素。针对传统时间序列预测模型对PM2.5浓度预测缺少季节性因素分析, 预测精度不够高的问题, 提出一种基于机器学习的季节性差分自回归滑动平均-支持向量机(SARIMA-SVM)融合模型。该融合模型为串联型融合模型, 将数据拆分为线性部分与非线性部分。SARIMA模型在差分自回归滑动平均(ARIMA)模型的基础上增加了季节性因素提取参数, 能有效分析PM2.5浓度数据的季节性规律变化趋势, 较好地预测数据未来的线性变化趋势。结合SVM模型对预测数据的残差序列进行优化, 利用滑动步长预测法确定残差序列的最优预测步长, 通过网格搜索确定最优模型参数, 实现对PM2.5浓度数据的长期预测, 同时提高整体预测精度。通过对武汉市近5年的PM2.5浓度监测数据进行分析, 结果表明该融合模型的预测准确率相较于单一模型有很大提升, 在相同的实验环境下比单一的ARIMA、Auto ARIMA、SARIMA模型分别提升了99%、99%、98%, 稳定性也更好, 为PM2.5浓度预测研究提供了新的思路。

  • 陈浩, 陈珺, 刘飞
    计算机工程. 2025, 51(1): 60-70. https://doi.org/10.19678/j.issn.1000-3428.0068764
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    移动机器人在路径规划过程中, 当面对未知且动态变化的环境时, 会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题, 提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro, 以提高移动机器人在未知动态环境下的路径规划性能。首先, 引入长短期记忆(LSTM)神经网络并与TD3算法相结合, 通过门结构筛选历史状态信息, 并感知探测范围内障碍物的状态变化, 帮助机器人更好地理解环境的动态变化和障碍物的移动模式, 使移动机器人能够准确预测和响应动态障碍物的行为, 从而降低与障碍物的碰撞率。其次, 加入OU (Ornstein-Uhlenbeck)探索噪声, 帮助移动机器人持续探索周围环境, 增强移动机器人的探索能力和随机性。在此基础上, 将单个经验池设置为成功、失败和临时3个经验池, 以此提高有效经验样本的采样效率, 进而减少训练时间。最后, 在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明: 场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法, 模型收敛的回合数减少了100~200个, 路径长度缩短了0.5~0.8, 规划时间减少了1~4 s; 场景2中该算法相较于TD3算法, 模型收敛的回合数减少了100~300个, 路径长度缩短了1~3, 规划时间减少了4~8 s, DDPG算法失败, 移动机器人无法成功抵达终点。由此可见, 改进的算法具有更好的路径规划性能。

  • 张新波, 张雪英, 黄丽霞, 陈桂军
    计算机工程. 2025, 51(1): 71-80. https://doi.org/10.19678/j.issn.1000-3428.0068598
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在工业分类预测中, 有标签数据稀缺且标记成本高, 导致模型预测不准确, 同时大多数无标签数据中的特征未得到合理利用, 模型的泛化能力不足。为了解决这个问题, 提出半监督深度自编码网络(SSup-DDSAE-Link), 将有标签数据和无标签数据通过有监督学习和无监督学习进行结合, 提升模型预测准确率。该模型首先在深度自编码通道上, 分别添加高斯噪声和稀疏性约束, 提取与分类相关且更具代表性的特征表示; 其次在编码器与解码器之间引入横向连接, 过滤与分类任务不相关的信息, 使得网络能够更好地学习关键变量的特征表示, 并在网络顶层添加有监督学习路径来实现分类识别; 然后添加原始编码器, 与解码器中对应隐含层的输出一起训练, 从而构造无监督学习路径, 有效利用无标签数据中的信息; 最后通过有监督损失函数与无监督损失函数构造总损失函数, 实现对工业生产中关键变量的分类预测。实验结果表明, 与常用的有监督学习模型和传统的半监督学习模型相比, SSup-DDSAE-Link的分类预测准确率得到了有效提高, 并且精确率、召回率和F1值均得到提升。

  • 费涛, 艾山·吾买尔, 杜文旭, 朱翠翠
    计算机工程. 2025, 51(1): 81-87. https://doi.org/10.19678/j.issn.1000-3428.0068594
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    口语发音质量评测相对于发音错误检测和诊断(MDD)任务, 不仅需要原始的数据特征, 还需要许多流畅度、准确度、完整度等特征辅助进行实现, 所以对口语发音质量评测的研究远远少于对MDD的研究。目前对于口语发音质量评测的研究都是对语音评分某一项指标单方面进行评分。设计将Transformer替换Squeezeformer的改进模型Squeezeformer-MR对基线模型进行改进, Squeezeformer-MR使用多个残差连接增强了前后特征信息的传递。实验中, 在参数设置上保持与基线模型一致, 使用最稳定的24层嵌入层时, 音素级、词级和句子级方面的综合评分的皮尔逊相关系数(PCC)相比基线模型分别提升了1.96%、6.37%和1.08%。在初次改进的基础上, 使用WavLM和HuBERT预训练模型对训练集提取相应的特征, 将提取到的预训练特征以拼接方式添加到原GOP特征中进行特征融合, 使用融合特征以相同方式进行训练, 得到的音素级、词级和句子级方面综合评分的PCC相比基线模型分别提升了2.45%、7.10%和1.89%。

  • 张国胜, 李彩虹, 张耀玉, 周瑞红, 梁振英
    计算机工程. 2025, 51(1): 88-97. https://doi.org/10.19678/j.issn.1000-3428.0068738
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对人工势场(APF)法在机器人局部路径规划中存在的局部极小值陷阱和路径冗余等问题, 提出一种基于模糊控制(FC)和虚拟目标点改进人工势场的FC-V-APF算法。首先设计虚拟目标点避障策略, 并加入障碍物跨越机制和目标点更新阈值, 构建V-APF算法引导机器人摆脱陷阱区域; 其次提出基于累计转角和的控制策略, 帮助机器人走出多U型复杂陷阱; 然后针对路径冗余问题, 将V-APF算法与模糊控制算法相结合, 提出FC-V-APF算法, 通过激光雷达传感器的实时数据和权重函数对当前环境进行评估, 选取模糊控制器输出辅助力, 提前规避障碍物。最后在机器人操作系统(ROS)平台上搭建仿真环境对FC-V-APF算法进行路径规划性能的对比实验, 并对路径长度、运行时间和速度曲线等进行比较。实验结果表明, 所设计的FC-V-APF算法能够快速摆脱陷阱, 减少冗余路径, 提高路径平滑度并减少规划时间。

  • 王磊, 马驰骋, 齐俊艳, 袁瑞甫
    计算机工程. 2025, 51(1): 98-105. https://doi.org/10.19678/j.issn.1000-3428.0068978
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    煤矿开采安全问题尤其是采空区地表沉降现象会对人员安全及工程安全造成威胁, 研究合适的矿区地表沉降预测方法具有很大意义。矿区地表沉降影响因素复杂, 单一的深度学习模型对矿区地表沉降数据拟合效果差且现有的地表沉降预测研究多是单独进行概率预测或考虑时序特性进行点预测, 难以在考虑数据的时序特征的同时对其随机性进行定量描述。针对此问题, 在对数据本身性质进行观察分析后选择差分整合移动平均自回归(ARIMA)模型进行时序特征的概率预测, 结合长短时记忆(LSTM)网络模型来学习复杂的且具有长期依赖性的非线性时序特征。提出基于ARIMA-LSTM的地表沉降预测模型, 利用ARIMA模型对数据的时序线性部分进行预测, 并将ARIMA模型预测的残差数据辅助LSTM模型训练, 在考虑时序特征的同时对数据的随机性进行描述。研究结果表明, 相较于单独采用ARIMA或LSTM模型, 该方法具有更高的预测精度(MSE为0.262 87, MAE为0.408 15, RMSE为0.512 71)。进一步的对比结果显示, 预测结果与雷达卫星影像数据(经SBAS-INSAR处理后)趋势一致, 证实了该方法的有效性。

  • 周雪阳, 傅启明, 陈建平, 陈延明, 陆悠, 王蕴哲
    计算机工程. 2025, 51(1): 106-117. https://doi.org/10.19678/j.issn.1000-3428.0068877
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题, 提出一种证据路径增强的图推理框架(EPE-GR)。首先建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性, 结合提及级和实体级图建模学习全局交互特征和局部依赖信息; 其次使用启发式搜索聚焦证据句子, 同时构建一种基于掩膜多头注意力(MMHA)机制的路径推理结构, 强化非邻居证据句子之间的相关性并缓解细粒度证据编码带来的复杂度剧增的问题; 最后协同全局、局部和路径推理预测实体之间的语义关系。与已有方法相比, EPE-GR在药物-突变相互作用(DMI)数据集和化学物质诱导疾病(CDR)数据集上都获得了最佳的性能, 前者在二分类和多分类任务的设定下相比次优方法准确率分别提高了5.65和5.13百分点, 后者F1值提高了2.85百分点, 证明所提方法是一个有效的生物医学文档级关系抽取方法且具有较好的泛化能力。此外, 通过进一步的实验表明所提出的关系依赖建模和证据路径推理机制能够有效提升模型推理句间关系的能力。

  • 喻勇涛, 孙奥, 李昂, 朱琳琳
    计算机工程. 2025, 51(1): 118-127. https://doi.org/10.19678/j.issn.1000-3428.0068395
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在工业表面质检场景中, 深度分类神经网络常用于对产品图像进行分类, 实现对产品的合格判别或品质分级, 搭载深度分类神经网络的表面质检设备需进行量具的检验重复性与再现性(AR&R)评估。但产品载具受装配公差以及设备振动等因素的影响, 导致设备拍摄的产品图像会出现位置、角度、亮度、模糊度的相关扰动。针对扰动图像, 分类神经网络将无法输出一致的分类结果和分类概率, 使得表面质检设备无法通过AR&R评估, 将此问题总结为网络输出重复性问题。为此, 提出一种基于孪生网络的分类神经网络训练方法。孪生主网络使用原始样本进行监督学习训练, 学习输出正确的分类类别, 孪生次网络通过指数平滑拷贝主网络权重, 输出与原始样本对应的扰动样本的特征嵌入, 用于对主网络进行对比学习训练, 使主网络对原始样本与扰动样本的输入均输出一致的分类概率, 在推理过程中仅保留主网络用于产品缺陷分类。实验结果表明, 该方法的分类准确率和分类概率方差分别为99.346 2%和0.001 016, 可有效缓解使用深度分类神经网络对工业产品图像分类的输出重复性问题, 在显著降低分类概率方差的同时分类准确率也有一定提升。

  • 王翔, 魏玉锌, 毛国君
    计算机工程. 2025, 51(1): 128-137. https://doi.org/10.19678/j.issn.1000-3428.0068357
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在图神经网络中, 图池化是一类用于对图数据进行下采样以提取图表征的重要操作。由于图数据存在较为复杂的网络拓扑结构和高维度的特征信息, 因此现有图池化方法在设计过程中未能同时融合图数据的拓扑结构信息和节点的长距离依赖信息, 在图池化过程中没有考虑丢弃节点的特征, 造成图数据的重要信息损失。为此, 提出一种基于多元特征融合的图池化方法来同时捕获图数据的局部拓扑信息、全局拓扑信息以及长距离节点依赖关系, 并使用1个聚合模块聚合这些特征信息得到1个新的池化图。为了解决图池化过程中节点特征信息丢失的问题, 提出一种新的特征融合方法将丢弃节点的信息以一定比例汇聚到保留节点上。基于该池化方法, 构建基于分层池化的图分类模型。在D&D、PROTEINS、NCI1和NCI109 4个数据集上的实验结果表明, 与最佳基线模型相比, 所提模型的分类准确率分别提升了2.97、3.59、0.48和0.24个百分点, 能够更有效利用图数据的特征信息、拓扑信息和长距离节点依赖信息, 在图分类任务上取得了更好的效果。

  • 网络空间安全
  • 陈先意, 丁思哲, 王康, 闫雷鸣, 付章杰
    计算机工程. 2025, 51(1): 138-147. https://doi.org/10.19678/j.issn.1000-3428.0068349
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    联邦学习作为一种新型的深度学习范式, 允许多个参与方在客户端本地共同训练模型, 极大地保护了用户的数据隐私, 得到了广泛关注和研究。然而, 联邦学习作为一种分布式学习方式, 极易遭受非法复制、恶意分发及客户端懒惰不作为等攻击。针对上述问题, 提出一种支持安全联邦学习的主动保护模型水印框架。首先, 设计了一个基于护照层水印的个性化参数聚合方法, 在解决水印冲突问题的同时防止懒惰客户端盗窃模型; 其次, 设计了一个基于向量承诺的全局水印聚合方法, 有效抵御了恶意攻击者伪造私有水印进行歧义攻击。实验结果表明, 与当前最好的FedIPR相比, 所提方法具有更高的水印容量, 可以支持更大型的联邦学习系统; 在差分隐私、客户端选择等安全联邦学习策略下能保持近100%的水印提取率, 在遭遇微调、剪枝等攻击时也能保持98%以上的水印提取率。

  • 鲁明, 陈慈发, 董方敏
    计算机工程. 2025, 51(1): 148-155. https://doi.org/10.19678/j.issn.1000-3428.0068678
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    共识机制是区块链的核心。权益证明(PoS)作为一种共识机制, 与工作量证明(PoW)相比显著降低了资源的消耗。但PoS中积极的低权益诚实节点难以获得记账权, 除此之外, 还存在节点区块验证不积极、币龄累计攻击和出块奖励分配不合理的安全问题。为此, 提出了一种基于PoS的改进方案。首先, 通过引入积分机制来提升积极的低权益诚实节点的总权益, 提高节点获得记账权的概率; 其次, 采用非线性函数进行币龄计算, 防止恶意节点累计币龄发动攻击; 最后, 根据节点综合积分占比分配出块奖励, 在规定时间内积极参与验证或投票的节点会得到奖励, 减少“富者越富”现象, 缩短节点之间的贫富差距。实验结果表明, 相比其他PoS, 所提的改进共识机制有效控制币龄的无限增长, 积极的低权益诚实节点获得奖励和记账权的次数提升了约3.6倍和2.6倍, 降低了系统的中心化趋势, 增大了积极的低权益诚实节点的竞争记账权的机会和减小了币龄攻击的可能性, 进一步验证了所提方案的可行性和优越性, 促进了区块链网络的健康发展。

  • 肖超恩, 李子凡, 张磊, 王建新, 钱思源
    计算机工程. 2025, 51(1): 156-163. https://doi.org/10.19678/j.issn.1000-3428.0068486
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    基于差分分析的密码攻击中, 通常使用贝叶斯优化方法验证部分解密的数据是否具有差分特性。目前, 主要采用基于深度学习的方式训练1个差分区分器, 但随着加密轮数的增加, 差分特征的精确度会呈现线性降低的趋势。为此, 结合注意力机制和侧信道分析, 提出了一种新的差分特性判别方法。根据多轮密文间的差分关系, 基于Transformer训练了1个针对SPECK32/64算法的差分区分器。在密钥恢复攻击中, 借助前一轮的密文对待区分密文影响最大特性, 设计了新的密钥恢复攻击方案。在SPECK32/64算法的密钥恢复攻击中, 采用26个选择明密文对, 并借助第20轮密文对将第22轮65 536个候选密钥范围缩小至17个以内, 完成对最后两轮子密钥的恢复攻击。实验结果表明, 该方法的攻击成功率达90%, 可以有效应对加密轮数增多造成的密文差分特征难以识别的问题。

  • 王圆圆, 王世谦, 王涵, 郭正宾, 胡显承
    计算机工程. 2025, 51(1): 164-173. https://doi.org/10.19678/j.issn.1000-3428.0068452
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在企业生产过程中的能源排放预测一直是企业管理和政府监督重点关注的问题, 随着信息采集能力增强, 在能源排放预测过程中会涉及越来越多的跨界数据, 使得预测模型面临着数据量庞大和数据关联性较低的挑战, 从而增大模型的训练难度, 降低预测的准确性。为此, 提出基于纵向联邦学习的能源排放智能预测模型。针对跨领域联合建模过程中数据源分散、信息密度小的问题, 设计基于纵向联邦学习的异步网络更新方法, 保证本地数据的安全和多方建模的质量。异步网络更新方法还能降低多方建模的时间和空间开销。针对模型间通信数据的安全高效传递问题, 设计基于同态加密的数据跨平台通信算法, 利用数据加密在保障通信网络安全的同时使用数据压缩技术减小加密数据的体积, 进一步提高模型间的通信效率。实验结果表明, 该模型具有良好的性能, 相比于基准模型, 所提的能源排放预测模型的R2值最多提升了16%, 能够降低约40%的联合建模时间, 充分证明能源排放跨界智能分析模型解决了跨界数据难以共享共用的问题, 并且提高了跨界联合建模的速度和准确率。

  • 图形图像处理
  • 张会影, 圣文顺
    计算机工程. 2025, 51(1): 174-181. https://doi.org/10.19678/j.issn.1000-3428.0068561
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    缺乏完整和足够的人脸年龄标记数据集是当前人脸年龄识别问题中最突出的挑战之一。由于相近年龄的面部具有相似性, 因此在年龄识别中可以学习并利用相邻年龄的面部信息, 将每张人脸图像看作相关年龄的标记分布(LD), 从而有效缓解了训练和测试数据集不足的问题。但是在不同年龄阶段, 人的面部衰老变化速度显著不同, 如儿童和老年时期面部变化较快, 而中年时期面部变化较平缓, 当前常用的LD方法存在模式单一的缺点, 难以适应不同年龄阶段人脸特征的变化规律。为提高人脸年龄识别算法的通用性, 提出一种深度学习框架下基于标记适应的人脸年龄识别优化算法IFAR-LA。引入标记适应机制, 能够更好地学习特征表示, 挖掘人脸图像数据中丰富的语义信息, 从而有效提取不同年龄阶段面部变化的特征, 大幅提升表示学习能力和泛化能力。改进后的标记适应算法能够适应不同年龄阶段人脸变化规律, 使每幅人脸图像在学习其真实年龄和相关年龄的时候都能发挥作用, 缓解训练数据不足的问题, 同时, 提升了算法普适性, 能够适应不同年龄阶段人的面部衰老变化速度。在公开的人脸数据集MORPH和FG-NET上的实验结果表明, IFAR-LA算法相比改进前的人脸年龄识别算法平均绝对误差分别降低了6.5%和11.5%。

  • 张倡倡, 吕卫东, 蔡子杰, 刘炎奎
    计算机工程. 2025, 51(1): 182-189. https://doi.org/10.19678/j.issn.1000-3428.0068403
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有睡岗数据集较少, 且现阶段分类算法存在泛化性差、推理速度慢等问题, 为此, 构建一个包含4 708张图像的睡岗数据集, 用于验证模型的识别精度和泛化能力, 并提出一种基于域泛化的轻量化图像分类算法Stable_MobileNet。首先, 对输入的图片填充短边, 使其保持图像中的人物比例; 其次, 进行图像增强和随机擦除, 用于扩充数据集; 接着, 引入高效的ECA注意力模块改进MobileNetv3_large网络; 最后, 使用稳定学习StableNet方法提高模型的泛化性, 通过学习训练样本的权重来消除特征之间的依赖关系, 这有助于模型摆脱环境的变化, 更专注于人物特征。在睡岗数据集上的实验结果表明, Stable_MobileNet平均推理速度相较MobileNetv3_large更快, 识别精度可达93.56%, 比MobileNetv3_large提高了2.23%。在与训练样本具有不同分布的测试集中, Stable_MobileNet的识别精度相较MobileNetv3_large提高了2.23%。

  • 杨红菊, 吉昌
    计算机工程. 2025, 51(1): 190-197. https://doi.org/10.19678/j.issn.1000-3428.0068782
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目前, 基于卷积神经网络(CNN)深度学习的图像压缩已经取得了优异的成果, 但是CNN的感受野通常受限, 不能学习到图像非局部区域内像素之间的上下文关系, 缺少了长距离建模和感知能力, 容易造成结果失真、伪影和压缩率较高等问题。针对以上问题, 提出2种解决办法: 设计一种由CNN、多尺度注意力(MSA)机制和残差单元构成的对称编解码器架构, 该架构在对图片进行通道变换和空间变换的同时引入多尺度注意力机制, 能够对特征进行重新校准, 减少潜在表示的冗余像素; 设计一种基于U型框架的超先验网络, 可以在不同层级上获取多尺度的上下文信息, 在帮助提取高级语义特征的同时, 保留详细的低级特征信息, 能够更好地进行边界细化和细节恢复。在Kodak、Tecnick和CLIC这3种数据集上将所提方法与其他先进的图像压缩方法进行对比实验, 结果表明, 在相同比特率下, 该方法相较对比方法在峰值信噪比(PSNR)指标上分别提高了约0.3 dB、0.6 dB、0.5 dB。所提方法在保证压缩率的同时, 能够有效提高对非重复纹理特征和图像细节特征的重建效果。

  • 赵南南, 高翡晨
    计算机工程. 2025, 51(1): 198-207. https://doi.org/10.19678/j.issn.1000-3428.0068677
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    提出一种基于改进型YOLOv8的实例分割算法(DE-YOLO)。为减少图像中复杂背景的干扰, 引入高效多尺度注意力机制, 跨维交互使各特征组内空间语义特征平均分布。在主干网络部分, 使用可变形卷积DCNv2结合C2f卷积层, 突破原始卷积限制, 提升可变性。为减小有害梯度并提升检测器精度, 采用动态非单调聚焦机制Wise-交并比(WIoU)替代联合完全交并(CIoU)损失函数进行质量评估, 优化检测框定位, 提升分割精度。同时, 通过开启Mixup数据增强处理, 充实数据集, 丰富训练特征, 提升模型学习能力。实验结果表明, DE-YOLO在城市景观数据集Cityscapes中的掩模平均精度均值(mAPmask)较基准模型YOLOv8n-seg提高了2.0百分点, IoU阈值为0.5时的平均精度提升了3.2百分点, 所提算法在提升精度的同时, 保持了优良的检测速度和较少的参数量, 模型参数量较同类模型低2.2~31.3百分点。

  • 阳丽莎, 李茂军, 胡建文, 王鼎湘
    计算机工程. 2025, 51(1): 208-215. https://doi.org/10.19678/j.issn.1000-3428.0068397
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对带钢表面缺陷检测任务存在的小目标检测效率低、缺陷定位不准确、检测算法参数量大、难以部署在终端设备上等问题, 提出一种改进的YOLOv7-tiny检测算法。首先, 使用GSConv替换颈部网络中的标准卷积, 基于GSConv设计一种改进的高效聚合网络(ELAN-G), 保证带钢表面缺陷特征信息被充分融合同时降低算法的参数量; 其次, 在预测头和颈部网络之间增加针对低分辨率和小缺陷的SPDConv模块, 模块生成一个中间特征图, 通过对中间特征图中的小缺陷特征信息进行过滤学习得到最终特征图, 以此提高预测头对小缺陷的检测精度; 最后, 引入MPDIoU损失函数, 合理利用边界回归框的几何性质, 简化损失函数计算过程并提高缺陷定位精度。实验结果表明, 在NEU-DET数据集上, 改进算法比其他6种先进目标检测算法效果更好, 性能更均衡, 其平均精度均值(mAP)可达74.1%, 且参数量和计算量低于所有对比算法, 可应用于工业环境中的带钢表面缺陷检测系统。

  • 王晓路, 汶建荣
    计算机工程. 2025, 51(1): 216-224. https://doi.org/10.19678/j.issn.1000-3428.0068398
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对动作视频中存在冗余信息及动作信息的特征通道分布稀疏问题, 提出一种基于运动-时间感知的3D残差网络。利用运动感知模块(AM)计算特征级别的时间差来激励运动敏感通道, 以此获取运动特征; 通过时间注意力模块(TM)沿着时间维度计算注意力权重矩阵, 以获取局部时间特征。将AM模块和TM模块的计算结果相加, 得到动作信息的融合特征, 再加入到3D残差网络中, 以此构造基于运动-时间感知模块(ATM)的3D残差网络。实验结果表明, 在公共数据集UCF101和HMDB51上, 相对于3DResNeXt-101网络, 基于ATM模块的3DResNeXt-101网络的动作识别准确率分别提升1.6%和2.8%, 说明所提方法具有可行性和有效性。

  • 胡涌涛, 黄洪琼
    计算机工程. 2025, 51(1): 225-234. https://doi.org/10.19678/j.issn.1000-3428.0068392
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    换装行人重识别(CC Re-ID)是行人重识别中的一个新兴研究课题, 旨在找出被换衣的行人。当前方法主要集中在使用多模态数据辅助解耦表征学习, 如通过脸、步态、身体轮廓等辅助数据解耦行人自身属性以减少服装影响, 但这些方法泛化能力较差, 需要大量额外工作。此外, 仅使用原始数据的方法对于相关信息的提取不够充分, 性能较弱。针对CC Re-ID存在的上述问题, 提出一种结合特征融合和通道注意力的多分支换装行人重识别方法(MBFC)。通过在主干网络中融入通道注意力机制, 在特征通道层面学习关键信息, 设计局部与全局特征融合方法以提高网络对行人细粒度特征的提取能力。此外, MBFC模型采用多分支结构, 使用服装对抗损失、交叉熵标签平滑损失等多种损失函数引导模型学习与服装无关的信息, 减少服装对模型的影响, 从而提取到更有效的行人信息。在PRCC和VC-Clothes数据集上进行广泛实验, 结果表明, 所提模型在RANK-1和平均精度均值(mAP)指标上优于对比的CC Re-ID方法。

  • 刘雨欣, 栗风永
    计算机工程. 2025, 51(1): 235-245. https://doi.org/10.19678/j.issn.1000-3428.0068608
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    图像加密是保护图像安全的重要方法, 现有的图像加密方案安全性不高且加解密效率较低, 无法抵御多种类型的攻击。针对上述问题, 提出一种基于全置乱超混沌序列和多进制脱氧核糖核酸(DNA)编码的图像加密算法, 以提高加密效率同时保证密文图像的安全性。首先, 结合灰度图像的内容, 使用图像哈希算法和外部密钥生成五维超混沌系统和逻辑映射的初始值; 其次, 将原始图像转换为四值图像, 使用五维超混沌系统和逻辑映射生成的混沌序列对图像进行DNA加密, 包括DNA编码、DNA置乱、DNA扩散和DNA解码4个阶段; 最后, 对图像进行位平面分解, 利用五维超混沌系统和逻辑映射生成的随机矩阵分别与高四位平面和低四位平面做异或运算, 得到最终的密文图像。实验结果表明, 该图像加密算法具有密钥空间大、密钥敏感性强、加密效果良好、加密效率高等优点, 能够抵抗统计分析、差分攻击、裁剪攻击、噪声攻击等多种常规攻击方式。

  • 火久元, 苏泓瑞, 武泽宇, 王婷娟
    计算机工程. 2025, 51(1): 246-257. https://doi.org/10.19678/j.issn.1000-3428.0069825
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对交通道路中小目标车辆存在的识别困难、检测精度低以及误检和漏检等问题, 提出一种基于YOLOv8算法的大内核、多尺度梯度组合的道路交通小目标车辆检测模型RGGE-YOLOv8。首先, 使用RepLayer模型替换YOLOv8网络的主干部分, 引入大内核深度可分离卷积结构, 拓展上下文信息, 以增强模型对小目标的信息捕获能力; 其次, 使用GIoU代替原损失函数, 解决IoU在预测框与真实框没有重叠时存在的无法优化问题; 然后, 引入全局注意力机制(GAM), 通过减少信息丢失并增强全局交互信息来提高网络的特征表达能力; 最后, 引入CSPNet并重参化梯度组合特征金字塔, 使得模型具有较大感受野和高形状偏差。实验结果表明, RGGE-YOLOv8在Visdrone数据集和自有数据集上mAP@0.5指标分别达到34.8%和94.7%, 相较于原始YOLOv8n算法精度分别提高了2.2和5.51百分点, 证明了RGGE-YOLOv8模型对道路小目标车辆检测的有效性。

  • 郑雅洲, 刘万平, 黄东
    计算机工程. 2025, 51(1): 258-268. https://doi.org/10.19678/j.issn.1000-3428.0068479
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对现有检测方法对短域名检测性能普遍较差的问题, 提出一种BERT-CNN-GRU结合注意力机制的检测方法。通过BERT提取域名的有效特征和字符间组成逻辑, 根据并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环单元(GRU)提取域名深度特征。CNN使用n-gram排布的方式提取不同层次的域名信息, 并采用批标准化(BN)对卷积结果进行优化。GRU能够更好地获取前后域名的组成差异, 多头注意力机制在捕获域名内部的组成关系方面表现出色。将并行检测网络输出的结果进行拼接, 最大限度地发挥两种网络的优势, 并采用局部损失函数聚焦域名分类问题, 提高分类性能。实验结果表明, 该方法在二分类上达到了最优效果, 在短域名多分类数据集上15分类的加权F1值达到了86.21%, 比BiLSTM-Seq-Attention模型提高了0.88百分点, 在UMUDGA数据集上50分类的加权F1值达到了85.51%, 比BiLSTM-Seq-Attention模型提高了0.45百分点。此外, 该模型对变体域名和单词域名生成算法(DGA)检测性能较好, 具有处理域名数据分布不平衡的能力和更广泛的检测能力。

  • 开发研究与工程应用
  • 张雯欣, 刘玉杰, 王兆勇, 孙浩淼, 李宗民
    计算机工程. 2025, 51(1): 269-276. https://doi.org/10.19678/j.issn.1000-3428.0068462
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    行人搜索旨在全景图像中对目标行人进行定位和识别, 可以看作目标检测和行人重识别任务的结合。然而, 不同行人的着装相似性和同一行人在多变环境条件下的外观差异, 增加了行人身份辨别的难度。为了解决这一问题, 提出了一个原型分散网络, 通过调整原型的分布情况, 增强网络的辨别能力。首先, 设计了一个原型增强模块, 通过原型特征指导注意力网络的学习并利用K最大池化方法保留更多重要的行人特征, 借助原型的指导使网络关注更重要的区域, 学习细粒度的行人特征, 进而提高网络对相似行人的辨别能力。其次, 提出一种自适应更新的原型学习策略, 以在原型特征更新时保留更多检测精准的候选框信息。最后, 通过分布稀疏损失保证所存储的原型尽可能分散, 从而确保网络能识别到行人的可区分性特征。最终在公共的行人搜索数据集CUHK-SYSU和PRW上进行了实验, 该方法在平均精度均值(mAP)上分别达到了95.1%和49.8%, 在Top-1准确率上分别达到了95.9%和88.5%, 有效地提高了行人搜索的准确率。

  • 王骞, 张俊华, 王泽彤, 李博
    计算机工程. 2025, 51(1): 277-286. https://doi.org/10.19678/j.issn.1000-3428.0068706
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    脊柱的三维模型在治疗脊柱侧弯等脊柱疾病时发挥着重要的作用, 但传统的脊椎三维重建方法存在耗时长、主观性强、辐射大等问题。为应对这些挑战, 提出一种基于双平面X线片的脊柱三维重建网络X2S-Net。利用患者的正位和左侧位X线片作为输入, 通过双视角平行编码器、三维重建模块以及分割监督模块后重建出对应位置的脊柱体素模型, 实现了从X线片到可视化三维模型的端到端生成。X2S-Net在特征提取阶段, 使用了针对双平面X线片特点而设计的平行特征编码器, 用于提取脊柱的空间信息, 并设计多尺度通道注意力机制用于提取特征。在三维模型阶段, X2S-Net结合传统图像分割任务设计了分割监督模块以提高三维重建效果。实验结果表明, X2S-Net能够充分利用双平面X线片的输入信息对脊柱进行三维重建, 各数据集的平均Hausdorff距离达到了6.95 mm, Dice系数达到了92.01%。

  • 李猛坤, 袁晨, 王琪, 赵冲, 陈景轩, 刘立峰
    计算机工程. 2025, 51(1): 287-294. https://doi.org/10.19678/j.issn.1000-3428.0068656
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目前目标检测技术日趋成熟, 但是针对在线听课行为的识别仍存在挑战。针对在线课堂人为监管力度不足、目标检测模型复杂度较高所导致的在线课堂行为识别不精准、模型计算量较高等问题, 提出一种基于改进的YOLOv8在线听课行为检测与识别方法。首先在YOLOv8n的基础上添加BiFPN双向特征金字塔网络来进行特征融合, 以增加特征提取的能力, 提高模型识别准确度; 其次在Head端采用C3Ghost模块替代C2f模块, 以大幅减少模型计算量。实验结果表明, 提出的YOLOv8n-BiFPN-C3Ghost模型在线上听课行为数据集上的mAP@0.5和mAP@0.5∶0.95指标分别为98.6%和92.6%, 相比其他课堂行为识别模型在精度上最高提升了4.2%和5.7%, 计算量为6.6 GFLOPS, 比原模型降低了19.5%。YOLOv8n-BiFPN-C3Ghost模型能以更低的运算成本精确地实现在线听课行为的检测和识别, 可以实现对学生在线课堂学习情况的动态、科学识别。

  • 严洁, 张烨菲, 张显飞
    计算机工程. 2025, 51(1): 295-303. https://doi.org/10.19678/j.issn.1000-3428.0068320
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着物联网技术和人工智能技术的不断发展, 生物识别技术面临着信息泄露的风险。心电图(ECG)信号因其活体识别的高防伪性在生物识别领域具有一定的优势。针对传统ECG识别算法不能适应多变的采集环境、识别稳定性不高以及基于深度神经网络的ECG识别算法模型参数量较大与难以实现快速响应等问题, 提出一种基于卷积自动编码器(CAE) 和改进式VGGNet的ECG身份识别算法。首先设计了结合小波阈值去噪和单心拍分割的预处理方法, 得到干净的单周期ECG信号作为模型输入。其次构建了基于CAE的信号模态特征提取与降维处理模块, 学习得到输入数据更小维度的潜在表示。最后基于VGGNet优化模型设计, 进一步深入学习特征表示, 得到个体识别的结果。实验结果表明, 该算法在MIT-BIH Arrhythmia Database、European ST-T Database和ECG-ID等数据库的189位测试者中实现了96%以上的识别精度, 其中European ST-T Database的识别精度高达99.82%, 可实现准确率较高、泛化能力较强的个体身份识别。

  • 易鹏, 杨晔, 严仕嘉
    计算机工程. 2025, 51(1): 304-311. https://doi.org/10.19678/j.issn.1000-3428.0068879
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为解决个体间差异性的问题并提高手势识别技术的普适性, 提出基于多并行卷积神经网络(MPCNN)的迁移学习策略, 旨在实现基于表面肌电信号的高效手势识别。MPCNN通过并行架构和优化的迁移学习机制, 对比以往的卷积神经网络(CNN)迁移框架以更有效地处理不同个体间的生理差异, 从而提高模型对新用户的适应性和识别准确率。此外, MPCNN通过减少模型训练时间和提高泛化能力, 增强系统的实用性。通过多组实验, 包括倍数交叉验证、消融实验和健壮性测试来证实所提策略在多个方面的有效性。实验结果表明, 与传统CNN模型相比, 提出的MPCNN迁移学习策略显著提升手势识别准确率, 在Ninapro DB7数据集上的识别率达到了94.95%, 对比CNN迁移学习框架提高了4.38百分点, 同时训练时间减少了超过50%, 验证了MPCNN迁移模型在减轻训练负担、增强泛化能力和提高抗干扰性方面的优点。基于实验模型对人机交互能力进行了验证, 验证了其在肌电控制应用前景。

  • 刘钟, 唐宏, 王宁喆, 朱传润
    计算机工程. 2025, 51(1): 312-320. https://doi.org/10.19678/j.issn.1000-3428.0068177
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着深度学习的高速发展, 基于序列到序列(Seq2Seq)架构的文本摘要方法成为研究焦点, 但现有大多数文本摘要模型受限于长期依赖, 忽略了注意力机制复杂度以及词序信息对文本摘要生成的影响, 生成的摘要丢失关键信息, 偏离原文内容与意图, 影响用户体验。为了解决上述问题, 提出一种基于Transformer改进的融合递归神经网络(RNN)与稀疏自注意力的文本摘要方法。首先采用窗口RNN模块, 将输入文本按窗口划分, 每个RNN对窗口内词序信息进行压缩, 并通过窗口级别的表示整合为整个文本的表示, 进而增强模型捕获局部依赖的能力; 其次采用基于递归循环机制的缓存模块, 循环缓存上一文本片段的信息到当前片段, 允许模型更好地捕获长期依赖和全局信息; 最后采用稀疏自注意力模块, 通过块稀疏矩阵对注意力矩阵按块划分, 关注并筛选出重要令牌对, 而不是在所有令牌对上平均分配注意力, 从而降低注意力的时间复杂度, 提高长文本摘要任务的效率。实验结果表明, 该方法在数据集text8、enwik8上的BPC分数相比于LoBART模型降低了0.02, 在数据集wikitext-103以及ptb上的PPL分数相比于LoBART模型分别降低了1.0以上, 验证了该方法的可行性与有效性。

  • 韩文策, 康潇, 李红宇, 贺维, 周国辉, 卜祥峰
    计算机工程. 2025, 51(1): 321-331. https://doi.org/10.19678/j.issn.1000-3428.0068838
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在医疗实践中, 收集病人的生理指标往往是诊断疾病的关键。然而, 现实中病人的生理数据往往是不确定和模糊的。置信规则库(BRB)是一种专家系统方法, 它通过结合专家知识将数据转化为置信分布, 从而有效地处理各种不确定性和模糊性信息。然而, 目前基于BRB的疾病诊断模型仍依赖于离线训练方法, 这不足以满足疾病诊断环境中的动态实时要求。此外, 其他领域现有的在线模型也存在训练数据样本数量爆炸式增长和样本不平衡的问题。因此, 提出一种基于人在回路策略的在线置信规则库疾病诊断方法。首先, 将传统的离线训练BRB疾病诊断模型改进为在线训练模型, 使模型能够根据不同患者的生理指标实现动态增长。其次, 在在线学习的BRB模型中, 提出了一种人在回路算法, 以增强专家的决策能力, 有效解决传统在线模型中训练样本爆炸式增长、模型输出过拟合和样本不平衡等问题。最后, 通过对慢性肾病分级、丙型肝炎预测、乳腺癌诊断和糖尿病诊断的实验结果验证了该方法的有效性和优越性。

  • 刘兆伟, 方艳红, 郑明宇, 锁斌
    计算机工程. 2025, 51(1): 332-342. https://doi.org/10.19678/j.issn.1000-3428.0068786
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    肺部疾病存在种类多、病灶区域小的特点, 现有数据集也存在数据量小的问题, 导致模型效果不理想。为提高诊断效果, 提出一种基于多任务联合注意力机制的肺部诊断网络(ASNet)。基于U-Net构建多任务诊断网络, 在原有病灶分割任务基础上加入病理分类任务, 加强任务之间的联系, 以分割任务为辅, 提升分类任务准确率; 提出多尺度挤压激励模块, 加强空间和通道之间的信息融合; 引入一种轴向注意力机制, 强调全局上下文信息和位置信息缓解由于医疗数据匮乏引起的欠拟合问题; 设计自适应多任务混合损失函数, 实现分割和分类任务损失权重的均衡。在自建数据集上的实验结果表明, 提出网络在病灶分割任务上的Dice系数、特异性(SP)、灵敏度(SE)、HD距离和准确率的平均结果分别为81.1%、99.0%、84.1%、24.6 mm和97.5%, 优于SAUNet++、SwinUnet等其他先进分割网络; 在病理分类任务上比MobileNetV2网络在精确率、召回率和准确率指标上分别提升了2.0、1.8和1.7百分点, 明显提升了在分类和分割上的精度, 对小目标病灶分割效果更佳, 其在合理的参数量下更适用于协助肺部疾病诊断。