计算机工程

Select

图形图像处理

改进特征匹配的ORB-SLAM稠密建图算法

刘洋, 陈俊, 胡诗佳, 赖佳华

计算机工程. 2023, 49(10): 247-254. https://doi.org/10.19678/j.issn.1000-3428.0065825

摘要 (1193) PDF全文 (809) HTML (55)

可视化

对于同步定位与建图（SLAM）中主流的特征点法，特征匹配是估计相机运动的关键，然而在特征匹配过程中存在图像特征的局部特性、误匹配等问题，成为视觉SLAM的瓶颈。此外，特征点法生成的稀疏地图只能用于定位，无法满足更高层次的需求。针对ORB-SLAM3中ORB特征点匹配效率低且未能生成稠密地图的问题，提出一种改进的ORB-GMS匹配策略并在ORB-SLAM3系统中加入稠密点云构建线程来实现稠密建图。将运动平滑性约束作为特征点运动统计的方法，通过比较特征点邻域内的匹配数量和阈值快速判断当前匹配是否正确，将图片网格化并快速计算网格内特征点的匹配数量，进行相机的位姿估计。根据关键帧与相应位姿构建稠密点云地图，采用外点去除滤波和体素网格滤波减小点云规模。在TUM的RGB-D数据集上的实验结果表明，与ORB-SLAM3相比，该算法可以减少约50%的匹配耗时，同时在匹配数量上平均提升60%，定位平均误差降低32%。此外，与稀疏地图相比，该方法生成易于2次加工的稠密点云地图，扩大算法的应用场景。

Select

图形图像处理

基于改进YOLOv5的遥感小目标检测网络

李嘉新, 侯进, 盛博莹, 周宇航

计算机工程. 2023, 49(9): 256-264. https://doi.org/10.19678/j.issn.1000-3428.0065935

摘要 (875) PDF全文 (788) HTML (75)

可视化

受遥感图像背景复杂、分辨率高、有效信息量少等因素影响，现有目标检测算法在检测小目标过程中存在错检、漏检等问题。提出基于YOLOv5的遥感小目标检测算法YOLOv5-RS。为有效减少图像中复杂背景和负样本的干扰，构建并行混合注意力模块，采用卷积替换全连接层和移除池化层的操作来优化注意力模块生成权重特征图的过程。为获取和传递更丰富且更具判别性的小目标特征，调整下采样倍数并在模型训练过程中增加小目标信息丰富的浅层特征，同时设计卷积与多头自注意力相结合的特征提取模块，通过对局部和全局信息进行联合表征以突破普通卷积提取的局限性，从而获得更大的感受野。采用EIoU损失函数优化预测框与检测框的回归过程，增强小目标的定位能力。在遥感小目标数据集上进行实验以验证该算法的有效性。实验结果表明，与YOLOv5s相比，该算法在参数量减少20%的情况下平均检测精度提升1.5个百分点，其中，小车类目标的平均检测精度提升3.2个百分点；与EfficientDet、YOLOx、YOLOv7相比，该算法能有效兼顾检测精度和实时性。

Select

热点与综述

基于深度学习的目标检测算法综述

李柯泉, 陈燕, 刘佳晨, 牟向伟

计算机工程. 2022, 48(7): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0062725

摘要 (847) PDF全文 (592) HTML (354)

可视化

CSCD(4)

传统目标检测算法大多基于滑动窗口和人工特征提取，存在计算复杂度高和在复杂场景下鲁棒性差的缺点。近年来，研究人员将深度学习技术应用于目标检测领域，显著提高了算法性能。相比传统算法，基于深度学习的目标检测算法具有速度快、准确性高和在复杂条件下鲁棒性强的优点。从评价指标、公开数据集、传统算法框架等方面对目标检测任务进行阐述，按照是否存在显式的区域建议和是否定义先验锚框两种分类标准，对现有基于深度学习的目标检测算法进行分类，分别介绍算法的演进路线并总结算法机制、优势、局限性及适用场景。在此基础上，分析对比代表性算法在公开数据集中的表现，并对基于深度学习的目标检测的未来研究方向进行展望。

Select

热点与综述

基于舆情新闻的中文关键词抽取综述

杨文忠, 丁甜甜, 康鹏, 卜文秀

计算机工程. 2023, 49(3): 1-17. https://doi.org/10.19678/j.issn.1000-3428.0064374

摘要 (753) PDF全文 (591) HTML (97)

可视化

基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一，其目的是在不同的舆情事件中抽取出人们关注的核心词汇，从而快速了解新闻内容。随着深度学习的发展，传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度学习的序列标注模型所替代。梳理无监督关键词抽取的限制性、分类模型在关键词抽取中的优势与不足、以及现有的深度学习对关键词抽取技术发展的帮助，重点分析整体关键词抽取技术的发展中卷积神经网络、循环神经网络等深度学习的关键词抽取方法，并归纳现有方法的优缺点与发展趋势。此外，深度学习虽然在关键词抽取领域发挥了重要的作用，但其自身也存在着依赖大规模带标签样本、训练时间长与复杂度高等缺陷，需要在未来发展中进行解决。为确保分析过程的真实性，利用6个舆情新闻数据集和2个小型数据集进行实验复现，实验结果与文中理论分析一致。在此基础上，对关键词抽取技术及其所面临的困难和挑战进行梳理和分析，并针对现存问题对该领域的发展前景加以展望。

Select

人工智能与模式识别

基于多模态融合的图神经网络推荐算法

吴志强, 解庆, 李琳, 刘永坚

计算机工程. 2024, 50(1): 91-100. https://doi.org/10.19678/j.issn.1000-3428.0066929

摘要 (746) PDF全文 (825) HTML (64)

可视化

已有的图神经网络(GNN)推荐算法大多利用用户-项目交互图的节点编号信息进行训练，学习用户-项目节点的高阶联系去丰富节点表示，但忽略了用户对不同模态信息的偏好，没有利用项目的图片、文本等模态信息，或对于不同模态特征的融合简单相加，不能区分用户对不同模态信息的偏好。针对上述问题，提出多模态融合的GNN推荐模型。首先针对单个模态，结合用户-项目交互二部图构建单模态图网络，在单模态图中学习用户对此模态信息的偏好；然后利用GAT聚合邻居信息，丰富本节点表示，同时根据门控循环单元决定是否聚合邻居信息，达到去噪效果；最后将各个模态图学习到的用户、项目表示通过注意力机制融合得到最终表示并送入预测模块。在MovieLens-20M、H&M两个数据集上的实验结果表明：多模态信息、注意力融合机制能有效提升推荐的准确度，算法模型在Precision@K、Recall@K和NDCG@K 3个指标上相较于基线最优算法均有显著提升；当评估指标K值选取10时，Precision@10、Recall@10和NDCG@10在两个数据集上分别提升了4.67%、2.42%、2.03%和2.49%、5.24%、2.05%。

Select

人工智能与模式识别

基于改进DQN算法的机器人路径规划

李奇儒, 耿霞

计算机工程. 2023, 49(12): 111-120. https://doi.org/10.19678/j.issn.1000-3428.0066348

摘要 (620) PDF全文 (696) HTML (44)

可视化

传统深度Q网络（DQN）算法通过融合深度神经网络和强化学习方法，解决了Q-learning算法在应对复杂环境时出现的维数灾难问题，被广泛应用于移动机器人的路径规划，但传统DQN算法的网络收敛速度较慢，路径规划效果较差，难以在较少的训练回合内获取最优路径。为了解决上述问题，提出一种改进的ERDQN算法。通过记录重复状态出现的频率，利用该频率重新计算Q值，使得在网络训练的过程中一种状态重复出现的次数越多，下一次出现该状态的概率越低，从而提高机器人对环境的探索能力，在一定程度上降低了网络收敛于局部最优的风险，减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离，重新设计奖励函数。机器人在靠近目标点时能够获得正奖励，远离目标点时能够获得负奖励，并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值，从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明，与DQN算法相比，ERDQN算法的平均得分提高了18.9%，规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。

Select

开发研究与工程应用

基于知识蒸馏的多模态融合行为识别方法

詹健浩, 甘利鹏, 毕永辉, 曾鹏, 李晓潮

计算机工程. 2023, 49(10): 280-288, 297. https://doi.org/10.19678/j.issn.1000-3428.0065152

摘要 (609) PDF全文 (762) HTML (63)

可视化

有效利用多模态数据的不同特征能够提高行为识别性能, 其核心问题在于多模态融合, 主要包括在数据层面、特征层面和预测分数层面融合不同模态数据的特征信息。研究在特征和预测分数2个层面通过多教师知识蒸馏的多模态融合方法, 将多模态数据的互补特征迁移到RGB网络, 以及采用不同知识蒸馏损失函数和模态组合的行为识别效果。提出一种基于知识蒸馏的多模态行为识别方法, 通过在特征上采用MSE损失函数、在预测分数上采用KL散度进行知识蒸馏, 并采用原始的骨骼模态和光流模态的教师网络的组合进行多模态融合, 使RGB学生网络同时学习到光流和骨骼教师网络的特征语义信息和预测分布信息, 从而提高识别准确率。实验结果表明, 该方法在常用的多模态数据集NTU RGB+D 60、UTD-MHAD和N-UCLA以及单模态数据集HMDB51上分别达到90.09%、95.12%、97.82%和81.26%的准确率, 在UTD-MHAD数据集上的识别准确率相比于单模态RGB数据分别提升3.49、2.54、3.21和7.34个百分点。

Select

图形图像处理

基于感知增强Swin Transformer的遥感图像检测

祝冰艳, 陈志华, 盛斌

计算机工程. 2024, 50(1): 216-223. https://doi.org/10.19678/j.issn.1000-3428.0066941

摘要 (584) PDF全文 (723) HTML (47)

可视化

随着遥感技术的快速发展，遥感图像检测被广泛应用于农业、军事、国防安全等众多领域。遥感图像相较于传统图像检测存在诸多难点，如何实现高效精准的遥感图像检测成为该领域的研究热点。针对遥感图像检测中存在的计算复杂度高、正负样本不平衡、目标尺度小等问题，提出一种基于感知增强Swin Transformer的遥感图像检测网络，以提升遥感图像检测性能。在主干网络设计过程中，利用Swin Transformer分层设计和移动窗口的优点有效减小计算复杂度，同时插入空间局部感知块，加强网络对局部相关性和结构信息的提取能力。设计区域分布回归损失为小目标分配更大的权重，解决了正负样本不平衡的问题，同时结合改进的IoU-aware分类损失消除不同分支之间的差距，降低分类和回归损失。在公共遥感数据集DOTA上的多组实验结果表明，该网络获得了78.47%的平均精度均值和10.8帧/s的检测速度，检测性能优于经典的目标检测网络Faster R-CNN、Mask R-CNN以及现有优秀的遥感图像检测网络，并且在各类不同尺度的目标上均具有较好的性能表现。

Select

图形图像处理

基于目标检测和语义分割的视觉SLAM算法

徐春波, 闫娟, 杨慧斌, 王博, 吴晗

计算机工程. 2023, 49(8): 199-206, 214. https://doi.org/10.19678/j.issn.1000-3428.0065522

摘要 (544) PDF全文 (636) HTML (70)

可视化

目前多数视觉同步定位与建图（VSLAM）算法基于静态场景设计且未考虑场景中的动态物体，然而现实场景中存在的动态物体会造成视觉里程计的特征点误匹配，影响VSLAM系统定位与建图精度，降低其在实际应用中鲁棒性。针对室内动态环境，提出一种基于ORB-SLAM3主体框架的VSLAM算法(RDTS-SLAM)。利用改进的YOLOv5目标检测与语义分割网络对环境中的物体进行精准快速分割，同时将目标检测结果与局部光流法相结合准确识别动态物体，并对动态物体区域内的特征点进行剔除，仅使用静态特征点进行特征点匹配以及后续的定位与建图。在TUM RGB数据集和真实环境数据上的实验结果表明，相较于ORB-SLAM3和RDS-SLAM算法，RDTS-SLAM算法对于walking_rpy序列的轨迹估计均方根误差分别降低了95.38%和86.20%，可以显著提高VSLAM系统在动态环境中的鲁棒性和准确性。

Select

热点与综述

一种高效的跨平台工作流优化方法

杜清华, 张凯

计算机工程. 2022, 48(7): 13-21,28. https://doi.org/10.19678/j.issn.1000-3428.0064163

摘要 (516) PDF全文 (391) HTML (64)

可视化

为了应对复杂的数据分析任务，研究人员设计开发出结合多个平台的跨平台数据处理系统。系统跨平台工作流中算子的平台选择对于系统性能至关重要，因为算子在不同平台上的实现会产生性能间的显著差异。目前多使用基于成本的优化方法来实现跨平台工作流的平台选择，但现有的成本模型由于无法挖掘跨平台工作流的潜在信息而导致成本估计不准确。提出一种高效的跨平台工作流优化方法，采用GGFN模型作为成本模型，以算子特征和工作流特征作为模型输入，利用图注意力机制捕捉有向无环图型跨平台工作流的结构信息和算子邻居节点信息，同时结合门控循环单元记忆算子的运行时序信息，从而实现准确的成本估计。在此基础上，根据跨平台工作流的特点设计算子实现平台的枚举算法，利用基于GGFN的成本模型和延迟贪婪剪枝方法进行枚举操作，为每个算子选择合适的实现平台。实验结果表明，该方法可以将跨平台工作流的执行性能提升3倍，运行时间缩短60%以上。

Select

网络空间安全

基于Transformer和GAN的对抗样本生成算法

刘帅威, 李智, 王国美, 张丽

计算机工程. 2024, 50(2): 180-187. https://doi.org/10.19678/j.issn.1000-3428.0067077

摘要 (501) PDF全文 (437) HTML (22)

可视化

对抗攻击与防御是计算机安全领域的一个热门研究方向。针对现有基于梯度的对抗样本生成方法可视质量差、基于优化的方法生成效率低的问题，提出基于Transformer和生成对抗网络（GAN）的对抗样本生成算法Trans-GAN。首先利用Transformer强大的视觉表征能力，将其作为重构网络，用于接收干净图像并生成攻击噪声；其次将Transformer重构网络作为生成器，与基于深度卷积网络的鉴别器相结合组成GAN网络架构，提高生成图像的真实性并保证训练的稳定性，同时提出改进的注意力机制Targeted Self-Attention，在训练网络时引入目标标签作为先验知识，指导网络模型学习生成具有特定攻击目标的对抗扰动；最后利用跳转连接将对抗噪声施加在干净样本上，形成对抗样本，攻击目标分类网络。实验结果表明：Trans-GAN算法针对MNIST数据集中2种模型的攻击成功率都达到99.9%以上，针对CIFAR10数据集中2种模型的攻击成功率分别达到96.36%和98.47%，优于目前先进的基于生成式的对抗样本生成方法；相比快速梯度符号法和投影梯度下降法，Trans-GAN算法生成的对抗噪声扰动量更小，形成的对抗样本更加自然，满足人类视觉不易分辨的要求。

Select

热点与综述

基于面部多特征融合的疲劳驾驶检测综述

王畅, 李雷孝, 杨艳艳

计算机工程. 2023, 49(11): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0066661

摘要 (483) PDF全文 (867) HTML (95)

可视化

基于计算机视觉的疲劳驾驶检测方法具有非侵入性等优点，不会对驾驶行为产生影响，在实际场景中便于应用。随着计算机技术的发展，越来越多的学者研究基于计算机视觉的疲劳驾驶检测方法。疲劳驾驶行为主要体现在面部和肢体上，在计算机视觉领域，面部行为较肢体行为更易获取，因此，基于面部特征的疲劳驾驶检测方法成为疲劳驾驶检测领域的重要研究方向。综合分析多种基于驾驶员面部多特征的疲劳驾驶检测方法，对国内外最新研究成果进行总结。介绍驾驶员面部不同特征在疲劳状态下的具体行为体现，阐述基于面部多特征的疲劳驾驶检测流程。根据面部不同特征对国内外的研究成果进行分类，并整理不同的特征提取方法和状态判别方法。通过不同特征在疲劳状态下产生的各种行为归纳不同方法判别驾驶员疲劳状态时使用的参数。同时，总结当前研究成果中使用面部多特征综合判别疲劳驾驶的方法，分析不同方法间的相同点和差异性。在此基础上，讨论当前基于面部多特征融合的疲劳驾驶检测领域存在的不足，并对该领域的未来研究方向进行展望。

Select

图形图像处理

基于多分辨率特征融合的任意尺度图像超分辨率重建

范文卓, 吴涛, 许俊平, 李庆庆, 张建林, 李美惠, 魏宇星

计算机工程. 2023, 49(9): 217-225. https://doi.org/10.19678/j.issn.1000-3428.0065689

摘要 (465) PDF全文 (788) HTML (43)

可视化

传统深度学习的图像超分辨率重建网络仅在固定分辨率上提取特征，存在无法综合高级语义信息、只能以特定尺度因子重建图像、泛化能力较弱、网络参数量较大等问题。提出一种基于多分辨率特征融合的任意尺度图像超分辨率重建算法MFSR。在多分辨率特征融合编码阶段设计多分辨率特征提取模块以提取不同分辨率特征, 通过构建双重注意力模块增强网络特征提取能力，使不同分辨率特征之间进行充分交互, 以获取信息丰富的融合特征图。在图像重建阶段利用多层感知机对融合特征图进行解码，实现任意尺度的图像超分辨率重建。实验结果表明，在Set5数据集上分别以尺度因子2、3、4、6、8进行测试，所提算法的峰值信噪比分别为38.62、34.70、32.41、28.96、26.62 dB，模型参数量为0.72×10⁶，在大幅减少参数量的同时能保持重建质量，可以实现任意尺度的图像超分辨率重建，性能优于SRCNN、VDSR、EDSR等主流算法。

Select

网络空间安全

基于CNN-BiLSTM模型的日志异常检测方法

孙嘉, 张建辉, 卜佑军, 陈博, 胡楠, 王方玉

计算机工程. 2022, 48(7): 151-158,167. https://doi.org/10.19678/j.issn.1000-3428.0061750

摘要 (456) PDF全文 (181) HTML (24)

可视化

目前日志异常检测领域存在数据量大、故障和攻击威胁隐蔽性高、传统方法特征工程复杂等困难，研究卷积神经网络（CNN）、循环神经网络等迅速发展的深度学习技术，能够为解决这些问题提供新的思路。提出结合CNN和双向长短时记忆循环神经网络（Bi-LSTM）优势的CNN-BiLSTM深度学习模型，在考虑日志键显著时间序列特征基础上，兼顾日志参数的空间位置特征，通过拼接映射方法进行最大程度避免特征淹没的融合处理。在此基础上，分析模型复杂度，同时在Hadoop日志HDFS数据集上进行实验，对比支持向量机（SVM）、CNN和Bi-LSTM验证CNN-BiLSTM模型的分类效果。分析和实验结果表明，CNN-BiLSTM达到平均91%的日志异常检测准确度，并在WC98_day网络日志数据集上达到94%检测准确度，验证了模型良好的泛化能力，与SVM CNN和Bi-LSTM相比具有更优的检测性能。此外，通过消融实验表明，词嵌入和全连接层结构对于提升模型准确率具有重要作用。

Select

人工智能与模式识别

基于Transformer编码器的中文命名实体识别模型

司逸晨, 管有庆

计算机工程. 2022, 48(7): 66-72. https://doi.org/10.19678/j.issn.1000-3428.0061432

摘要 (391) PDF全文 (226) HTML (35)

可视化

CSCD(2)

命名实体识别是自然语言处理中的重要任务，且中文命名实体识别相比于英文命名实体识别任务更具难度。传统中文实体识别模型通常基于深度神经网络对文本中的所有字符打上标签，再根据标签序列识别命名实体，但此类基于字符的序列标注方式难以获取词语信息。提出一种基于Transformer编码器的中文命名实体识别模型，在字嵌入过程中使用结合词典的字向量编码方法使字向量包含词语信息，同时针对Transformer编码器在注意力运算时丢失字符相对位置信息的问题，改进Transformer编码器的注意力运算并引入相对位置编码方法，最终通过条件随机场模型获取最优标签序列。实验结果表明，该模型在Resume和Weibo中文命名实体识别数据集上的F1值分别达到94.7%和58.2%，相比于基于双向长短期记忆网络和ID-CNN的命名实体识别模型均有所提升，具有更优的识别效果和更快的收敛速度。

Select

开发研究与工程应用

基于深度学习的学生课堂行为识别方法

闫兴亚, 匡娅茜, 白光睿, 李月

计算机工程. 2023, 49(7): 251-258. https://doi.org/10.19678/j.issn.1000-3428.0065369

摘要 (376) PDF全文 (278) HTML (54)

可视化

学生课堂行为动作能够直接反映课堂质量，通过人工智能和大数据对课堂行为进行分析和评估，有助于提高教学质量。传统的学生课堂行为识别方法通过老师直接观察学生状态，或者是课后通过监控视频进行分析，该课堂行为识别方法耗时耗力且识别率较低，难以实时反映课堂以及考试中存在的问题。提出基于深度学习的姿态识别方法BetaPose。采用数据增强技术提高后续检测模型的鲁棒性，通过改进的YOLOv5目标检测算法得到人体检测框，并基于MobileNetV3模型设计轻量级姿态识别模型，提高在拥挤场景下的姿态识别准确率，将得到的人体关键点图输入到线性分类器中，获得最终行为结果，有效提高模型的建模和表达能力。实验结果表明，所提轻量级姿态识别方法BetaPose对人体各个部位的平均识别准确率最高可达82.6%，在简易和拥挤场景下对各种行为的识别率分别达到91%和85%以上，能够有效识别课堂的多种行为。

Select

热点与综述

基于改进Informer的云计算资源负载预测

李浩阳, 贺小伟, 王宾, 吴昊, 尤琪

计算机工程. 2024, 50(2): 43-50. https://doi.org/10.19678/j.issn.1000-3428.0066399

摘要 (363) PDF全文 (341) HTML (17)

可视化

负载预测是云计算资源管理中的重要组成部分，准确预测云资源的使用情况可提高云平台性能及防止资源浪费，然而云计算资源使用的动态性和不确定性使得负载预测较为困难，尽管Informer在时序预测领域取得了较好的效果，但未对时间的因果依赖关系加以限制造成未来信息泄露，也未考虑网络深度的增加导致模型性能下降的问题。为解决上述问题，提出一种基于改进Informer的多步负载预测模型(Informer-DCR)。将编码器中各注意力块之间的正则卷积替换为扩张因果卷积，使深层网络中的高层能够接收更大范围的输入信息来提高模型预测精度，并保证时序预测过程的因果性。在编码器中添加残差连接，使网络中低层的输入信息直接传到后续的高层，解决了深层网络退化问题。实验结果表明，Informer-DCR模型在不同预测步长下的平均绝对误差比Informer、时间卷积网络等主流预测模型降低了8.4%~40.0%，并且在训练过程中表现出比Informer更好的收敛性。

Select

图形图像处理

大田环境下的农业害虫图像小目标检测算法

蒋心璐, 陈天恩, 王聪, 赵春江

计算机工程. 2024, 50(1): 232-241. https://doi.org/10.19678/j.issn.1000-3428.0067030

摘要 (352) PDF全文 (582) HTML (25)

可视化

智能化害虫检测是目标检测技术在农业领域的重要应用，可以有效提高害虫测报工作效率和可靠性，保障农作物产量和质量。在诱虫灯、粘虫板等固定式诱捕装置下，图像背景简单、光照条件稳定、害虫特征显著易于提取，害虫检测可以达到较高的准确率，但其应用场景固定，检测范围局限于设备周围，无法适应复杂的田间环境。针对田间环境下图像背景复杂和害虫尺寸小带来的难检和漏检问题，提出一种改进YOLOv5的小目标害虫检测算法Pest-YOLOv5，以提高害虫测报的灵活性。在特征提取网络中增加坐标注意力机制，通过结合空间和通道信息，增强对小目标害虫特征的提取能力，在颈部连接部分使用双向特征金字塔网络结构，通过融合多尺度特征，缓解多次卷积带来的小目标信息丢失问题。在此基础上，使用SIoU和变焦损失函数计算损失值，同时通过实验得到最优分类损失权重系数，使模型更关注分类困难的目标样本。在公开数据集AgriPest上的实验结果表明，Pest-YOLOv5模型mAP_0.5和召回率分别为70.4%和67.8%，优于原YOLOv5s模型、SSD和Faster R-CNN等经典目标检测模型。与YOLOv5s模型相比，Pest-YOLOv5模型将mAP_0.5、mAP_0.50:0.95和召回率分别提高8.1%、7.9%和12.8%，改善了难检和漏检情况。

Select

热点与综述

基于深度学习的道路小目标检测综述

曹健, 陈怡梅, 李海生, 蔡强

计算机工程. 2023, 49(10): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0065984

摘要 (351) PDF全文 (649) HTML (71)

可视化

复杂道路场景下的小目标检测能够提高车辆对于周边环境的感知能力，是计算机视觉和智慧交通领域的重要研究方向。随着深度学习技术的发展，将深度学习方法与道路小目标检测相结合能够有效提高检测精度，使车辆快速对周边环境做出反应。从经典及最新的道路小目标检测的研究成果出发，给出小目标的两种定义方式，分析造成道路小目标检测困难的原因，阐述数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等5类基于深度学习的提高道路小目标检测精度的优化方法，总结归纳各类方法的核心思想及目前国内外最新的研究进展。介绍常用于道路小目标检测的大型和公共数据集，提供相应的用于评估小目标检测性能的指标，对比分析各类方法在不同数据集上的性能检测结果，指出道路小目标检测研究目前仍存在的问题，并结合这些问题从多个角度对其未来研究方向进行展望。

Select

开发研究与工程应用

基于改进Deeplab v3+的服装图像分割网络

胡新荣, 龚闯, 张自力, 朱强, 彭涛, 何儒汉

计算机工程. 2022, 48(7): 284-291. https://doi.org/10.19678/j.issn.1000-3428.0062392

摘要 (346) PDF全文 (1567) HTML (31)

可视化

在服装图像分割领域，现有算法存在服装边缘分割粗糙、分割精度差和服装深层语义特征提取不够充分等问题。将Coordinate Attention机制和语义特征增强模块（SFEM）嵌入到语义分割性能较好的Deeplab v3+网络，设计一种用于服装图像分割领域的CA_SFEM_Deeplab v3+网络。为了加强服装图像有效特征的学习，在Deeplab v3+网络的主干网络resnet101中嵌入Coordinate Attention机制，并将经过带空洞卷积池化金字塔网络的特征图输入到语义特征增强模块中进行特征增强处理，从而提高分割的准确率。实验结果表明，CA_SFEM_Deeplab v3+网络在DeepFashion2数据集上的平均交并比与平均像素准确率分别为0.557、0.671，相较于Deeplab v3+网络分别提高2.1%、2.3%，其所得分割服装轮廓更为精细，具有较好的分割性能。

Select

开发研究与工程应用

监控视角下密集人群口罩佩戴检测算法

孙龙, 张荣芬, 刘宇红, 饶庭漓

计算机工程. 2023, 49(9): 313-320. https://doi.org/10.19678/j.issn.1000-3428.0065697

摘要 (338) PDF全文 (432) HTML (17)

可视化

针对密集人群场景的口罩佩戴检测面临着监控视角下目标密集、互相遮挡、目标小、人脸透视畸变等难题, 同时，涵盖不规范佩戴口罩场景的公开数据集也较为缺乏。提出一种基于YOLO-v5改进的监控视角下密集人群口罩佩戴检测算法MDDC-YOLO。利用空洞卷积构造多分支感受野模块MRF-C3替换YOLO-v5中常规C3模块，解决密集人群中小目标占比大的问题。使用Repulsion Loss基于样本边界框排斥吸引的原则提高模型抗遮挡能力，并充分利用训练过程中的遮挡正样本。在此基础上, 引入ECA注意力机制进行特征通道最优化选择，并提出基于透视变换的离线数据增强方法, 结合使用更适用于生成更多小目标样本的Mosaic-9数据增强方法，解决监控视角下密集人群口罩佩戴数据集缺乏的问题。实验结果表明，MDDC-YOLO算法相较于YOLO-v5算法mAP提升6.5个百分点，并达到32帧/s的检测速度，满足密集人群口罩佩戴检测的应用需求。

Select

热点与综述

基于深度学习的自然场景文本检测综述

连哲, 殷雁君, 云飞, 智敏

计算机工程. 2024, 50(3): 16-27. https://doi.org/10.19678/j.issn.1000-3428.0067427

摘要 (337) PDF全文 (459) HTML (44)

可视化

基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向，不仅具有广泛的应用前景，而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先，介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着，分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类，阐述4类经典和主流方法的基本思路和主要算法流程，归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置，明确不同方法之间的关联关系。然后，介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后，指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。

Select

图形图像处理

点线特征融合的激光雷达单目惯导SLAM系统

崔云轩, 刘桂华, 余东应, 郭中远, 张文凯

计算机工程. 2022, 48(7): 254-263. https://doi.org/10.19678/j.issn.1000-3428.0062245

摘要 (336) PDF全文 (441) HTML (47)

可视化

多传感器融合的SLAM系统定位精度相比单一传感器的SLAM系统更高，但在低纹理场景或退化场景下的定位精度有待提高。提出一种点线特征融合的激光雷达视觉单目惯导紧耦合SLAM系统（PL2VI-SLAM），其由点线特征融合的视觉惯导系统（PLVIS）和激光雷达惯导系统（LIS）两个子系统组成。通过PLVIS系统实现点线特征的提取与匹配，使用滑动窗口选择性地引入关键帧，并将惯性导航器件与相机紧耦合以解算位姿。LIS系统将多个约束集成到因子图中进行联合优化，其初始化状态可以作为PLVIS的初始猜测，通过扫描匹配实现激光雷达里程计，并将点云深度分别与PLVIS系统的特征点以及特征线进行关联，为视觉特征提供精确的深度值，提升定位精度。此外，两个子系统将联合进行回环检测，并对位姿进行矫正。在jackal、handled以及自制的长走廊数据集上的实验结果表明，与LVI-SAM、VINS-MDNO及LIO-SAM系统相比，该系统的定位精度更高，适用于低纹理场景及退化场景，并能满足实时性要求。

Select

开发研究与工程应用

基于改进YOLOv5的口罩佩戴检测算法

张欣怡, 张飞, 郝斌, 高鹭, 任晓颖

计算机工程. 2023, 49(8): 265-274. https://doi.org/10.19678/j.issn.1000-3428.0065701

摘要 (325) PDF全文 (444) HTML (18)

可视化

在公共场合密集人群场景下，由于目标遮挡导致的信息缺失及检测目标较小、分辨率低问题，使得人脸佩戴口罩检测算法的检测效果较差。为提高模型的检测精度和速度，减少硬件占用资源，提出一种基于改进YOLOv5s的口罩佩戴检测算法。将标准卷积和深度可分离卷积相结合替换传统卷积，并进行通道混洗的鬼影混洗卷积，以在保证精度的前提下提升网络速度。将最近邻法上采样替换为轻量级通用上采样算子，充分利用特征语义信息，在改进的YOLOv5s模型Neck层末端添加自适应空间特征融合，可以对不同尺度的特征进行更好的融合，提高网络检测精度，并通过自适应图片采样，缓解数据不均衡的问题，运用马赛克数据增强对小目标进行充分利用。实验结果表明，该算法在AIZOO数据集上的mAP值达到了93%，比YOLOv5原始模型提升了2个百分点，对于佩戴口罩的人脸检测精度达到了97.7%，优于同等情况下YOLO系列、SSD、RetinaFace的检测效果，同时在GPU上的运行推理速度提升了16.7个百分点，且模型权重文件的内存仅为23.5 MB，适用于实时口罩佩戴检测。

Select

人工智能与模式识别

基于多模态知识图谱的中文跨模态实体对齐方法

王欢, 宋丽娟, 杜方

计算机工程. 2023, 49(12): 88-95. https://doi.org/10.19678/j.issn.1000-3428.0066938

摘要 (318) PDF全文 (242) HTML (20)

可视化

多模态数据间交互式任务的出现对综合利用不同模态的知识提出了较高的要求，因此多模态知识图谱应运而生。在多模态知识图谱的构建过程中图像与文本实体是否指代同一对象尤为重要，这要求对中文跨模态实体进行实体对齐。针对该问题，提出一种基于多模态知识图谱的中文跨模态实体对齐方法。将图像信息引入实体对齐任务，面向领域细粒度图像和中文文本，设计单双流交互预训练语言模型(CCMEA)。基于自监督学习方法，利用视觉和文本编码器提取视觉和文本特征，并通过交叉编码器进行精细建模，最终采用对比学习方法计算图像和文本实体的匹配度。实验结果表明，在MUGE和Flickr30k-CN数据集上，CCMEA模型的平均召回率(MR)相比于Wukong_ViT-B基线模型分别提升了3.20和11.96个百分点，并在自建的TEXTILE数据集上MR达到94.3%。上述实验结果证明了该方法可以有效对齐中文跨模态实体，并且具有较高的准确性和实用性。

Select

计算机系统前沿技术

面向E级超算系统的众核片上存储层次研究

方燕飞, 刘齐, 董恩铭, 李雁冰, 过锋, 王谛, 何王全, 漆锋滨

计算机工程. 2023, 49(12): 10-24. https://doi.org/10.19678/j.issn.1000-3428.0066548

摘要 (305) PDF全文 (564) HTML (49)

可视化

当前众核已成为构建高性能计算（HPC）超级计算机的主流微处理器架构，为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加，众多核心对存储资源竞争愈加激烈，“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响，是众核结构设计中的重要环节，也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同，以及所面向的应用领域需求不同等原因，目前的HPC主流众核片上存储层次结构并不单一，但从横向比较和各处理器自身纵向发展趋势，以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看，SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面，开展针对众核存储层次特点的设计与优化，可以帮助HPC应用更好地发挥众核处理器的计算优势，从而有效提升实际应用性能，因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构，并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上，从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。

Select

网络空间安全

非独立同分布场景下的联邦学习优化方法

宋华伟, 李升起, 万方杰, 卫玉萍

计算机工程. 2024, 50(3): 166-172. https://doi.org/10.19678/j.issn.1000-3428.0067791

摘要 (301) PDF全文 (304) HTML (20)

可视化

联邦学习能够在不泄露数据隐私的情况下合作训练全局模型，但这种协作式的训练方式在现实环境下面临参与方数据非独立同分布（Non-IID）的挑战：模型收敛慢、精度降低的问题。许多现有的联邦学习方法仅从全局模型聚合和本地客户端更新中的一个角度进行改进，难免会引发另一角度带来的影响，降低全局模型的质量。提出一种分层持续学习的联邦学习优化方法（FedMas）。FedMas基于分层融合的思想，首先，采用客户端分层策略，利用DBSCAN算法将相似数据分布的客户端划分到不同的层中，每次仅挑选某个层的部分客户端进行训练，避免服务器端全局模型聚合时因数据分布不同产生的权重分歧现象；进一步，由于每个层的数据分布不同，客户端在局部更新时结合持续学习灾难性遗忘的解决方案，有效地融合不同层客户端数据间的差异性，从而保证全局模型的性能。在MNIST和CIFAR-10标准数据集上的实验结果表明，FedMas与FedProx、Scaffold和FedCurv联邦学习算法相比，全局模型测试准确率平均提高0.3~2.2个百分点。

Select

图形图像处理

基于抗混叠残差注意力网络的人脸表情识别

丰芳宇, 罗晓曙, 蒙志明, 王广宇

计算机工程. 2023, 49(8): 190-198. https://doi.org/10.19678/j.issn.1000-3428.0065224

摘要 (297) PDF全文 (564) HTML (70)

可视化

针对人脸表情识别中难以提取有效特征，以及类别之间相似性高、易混淆导致人脸表情识别准确率下降的问题，提出一种基于抗混叠残差注意力网络的人脸表情识别方法。针对传统降采样方法易造成表情判别性特征丢失的不足，构建抗混叠残差网络来改善对表情图像的特征提取能力，加强表情特征的表征，从而提取更加有效的人脸表情全局信息。同时，利用改进的通道注意力机制和标签平滑的正则化策略来加强对人脸局部关键表情区域的关注，其中改进的通道注意力专注于区分性较高的表情特征，抑制非表情区域的权重，从而在网络提取的全局信息中定位更加细节的局部表情区域，标签平滑技术则通过增加决策表情类别的信息量对预测概率进行修正，避免过于绝对的预测结果，从而减少相似表情之间的误判。实验结果表明，该方法在人脸表情数据集RAF-DB和FERPlus上的识别准确率分别达到88.14%和89.31%，与DACL、VTFF等其他先进方法相比识别性能更优，相较于原始残差网络有效提升了人脸表情识别准确率和鲁棒性。

Select

人工智能与模式识别

基于关系学习网络的小样本知识图谱补全模型

冉丈杰, 孙林夫, 邹益胜, 马玉麟

计算机工程. 2023, 49(9): 52-59. https://doi.org/10.19678/j.issn.1000-3428.0065745

摘要 (287) PDF全文 (300) HTML (22)

可视化

现实世界中的知识图谱由大量事实三元组构成，其中通常包含许多出现次数很少的小样本关系，面向这些小样本关系补全知识图谱中缺失的三元组是一项具有挑战性的工作。针对现有小样本知识图谱补全模型中普遍存在的小样本关系表示无法有效提取问题，提出一种基于关系学习网络的小样本知识图谱补全模型。考虑关系的相关性，对参考和查询三元组进行邻域聚合编码，获得增强的实体嵌入表示。基于融合Transformer编码器与长短期记忆神经网络的结构，将三元组的关系表示进行编码输出。利用注意力机制得出查询关系与动态参考关系的语义相似性，并结合平移模型的假设对查询三元组成立的可能性进行综合打分。实验结果表明，该模型通过融合路径发现与上下文语义有效提取了小样本关系的细粒度语义，在小样本链接预测任务中，相较于基线模型中评价指标的最优值平均提升了9.5个百分点。

Select

图形图像处理

基于改进ConvNeXt的皮肤镜图像分类方法

李建威, 吕晓琪, 谷宇

计算机工程. 2023, 49(10): 239-246, 254. https://doi.org/10.19678/j.issn.1000-3428.0066050

摘要 (285) PDF全文 (244) HTML (16)

可视化

皮肤癌是最致命的癌症之一，对皮肤镜图像进行精确分类尤为关键，然而现有的皮肤镜图像存在形态复杂、样本数量较少的问题，导致现有的自动分类方法难以提取图像特征信息，误判率较高。提出一种改进ConvNeXt的方法，并构建SE-SimAM-ConvNeXt模型。以ConvNeXt为基础网络，加入SimAM无参注意力模块，提升网络的特征提取能力，并在基础网络中引入通道注意力机制，增强ConvNeXt对潜在关键特征的挖掘能力。在训练初始时加入预热机制Cosine Warmup，在该过程中使用余弦函数值进行学习率的衰减，进一步加速ConvNeXt的收敛，提高ConvNeXt模型的分类能力。在HAM10000皮肤数据集上的实验结果表明，该模型的分类准确率、精确度、召回率、特异性分别为92.9%、85.3%、78.0%、97.5%，具有较好的皮肤镜图像分类能力，对皮肤癌病变的辅助诊断有一定程度的应用价值，可帮助皮肤科医生对皮肤癌做进一步的诊断。

Select

热点与综述

空间方向关系表达与推理模型研究综述

董星星, 高继勋, 王晓桐, 李松

计算机工程. 2023, 49(9): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0064822

摘要 (280) PDF全文 (510) HTML (66)

可视化

空间方向关系作为空间关系不可缺少的组成部分，广泛应用于城市智能交通管控、环境资源检测、防灾减灾等诸多任务，日益成为地理信息系统、空间数据库、人工智能、模式识别等领域研究的热点。综合分析和梳理现有空间方向关系表达与推理模型，针对二维空间对象，从单目标对象、群组目标对象等方面详细介绍目前二维空间方向关系表达与推理模型的研究进展，依据描述对象的不同进行分类，对每类模型的特性及适用范围进行定性分析比较。针对三维空间对象，从点到区域依次分析当前三维空间方向关系表达与推理模型的特点、优势和不足。针对不确定性对象，从确定性空间方向关系模型的扩展模型、基于不确定性集合理论模型2个方面阐述不确定性方向关系模型的研究现状，并对每类模型的优缺点、适用范围等进行分析总结。最后阐明当前工作存在的不足，并从自动推理技术、空间关系的联合表达以及群组目标对象等方面对空间方向关系的未来研究方向进行展望。

Select

热点与综述

基于地基气辉图像的大气重力波目标识别

陈锦生, 马文臻, 方少峰, 邹自明

计算机工程. 2023, 49(11): 13-23. https://doi.org/10.19678/j.issn.1000-3428.0066521

摘要 (275) PDF全文 (626) HTML (53)

可视化

子午工程全天空气辉成像仪观测网的逐步完善，积累了海量的气辉图像原始观测数据，但是基于地基气辉观测的大气重力波研究极度依赖人工识别，十分耗时且识别质量难以得到保证，亟需发展一种快速有效的自动识别方法。针对大气重力波标注样本稀缺的问题，在改进Cycle GAN模型的基础上提出一种大气重力波气辉观测数据集扩充算法，仅需标注少量样本即可大幅提升检测算法对大气重力波的识别精度；进一步，利用地基气辉图像识别目标与背景低信噪比的特点，通过对深度学习模型YOLOv5s骨干网络以及边界框预测加以改进，提出一种新的大气重力波智能识别算法。实验结果表明，使用扩增的数据集以及改进的YOLOv5s目标检测算法，在交并比阈值为0.5的情况下平均识别精度达到75.8%，较原始模型提升9.7个百分点，检测速度和平均识别精度均优于对比的主流目标检测算法。

Select

热点与综述

基于槽位语义增强提示学习的篇章级事件抽取方法

李鸿鹏, 马博, 杨雅婷, 王磊, 王震, 李晓

计算机工程. 2023, 49(9): 23-31. https://doi.org/10.19678/j.issn.1000-3428.0066170

摘要 (270) PDF全文 (228) HTML (21)

可视化

事件抽取旨在将非结构化自然语言文本中的事件信息以结构化形式进行识别提取。传统事件抽取方法抽取范围局限于单个句子，且依赖较大规模的标注数据，在篇章级抽取任务与低资源目标领域中表现不佳。现有研究利用提示学习方法，以模板槽位填空方式实现篇章级事件抽取，其缺点在于传统提示模板槽位对论元角色分类准确度不高，容易造成论元角色抽取错误。针对上述问题，提出一种基于槽位语义增强提示学习的篇章级事件抽取方法，在提示学习方法的基础上，将传统事件抽取范式中的论元角色语义信息融入提示模板槽位中，为模型的槽位预测生成环节提供论元类型约束，提高篇章级事件抽取的准确率。通过使预训练语言模型上下游任务保持一致，提高模型的泛化能力，同时以较低成本实现知识迁移，在低资源事件抽取场景下提升模型性能。实验结果表明，相较于表现次优的传统基线方法，在包含59种论元类型的英文事件抽取数据集、包含92种论元类型的中文数据集以及低资源数据规模下，该方法的F1值分别取得了2.6、2.9和4.0个百分点的提升。

Select

开发研究与工程应用

基于深度强化学习的智能兵棋推演决策方法

胡水

计算机工程. 2023, 49(9): 303-312. https://doi.org/10.19678/j.issn.1000-3428.0067067

摘要 (265) PDF全文 (149) HTML (17)

可视化

兵棋推演是培养现代军事指挥员的重要方法，将人工智能技术引入到兵棋推演中可简化组织流程，提升推演效益。基于机器学习的智能兵棋常因态势信息过于复杂以及推演本身信息不完整，导致自主决策模型的样本决策效率降低。提出一种基于深度强化学习的智能兵棋推演决策方法。针对智能兵棋推演作战决策的效率问题，在策略网络中引入基准线，并加快策略网络训练，随后进行推导证明，提出加入基准线后策略网络参数的更新方法，分析将兵棋推演环境中的状态-价值函数引入到模型的过程。构建低优势策略-价值网络模型及其训练框架，在传统策略-价值网络下用于兵棋推演，结合战场态势感知方法对模型进行构建。实验结果表明，在近似符合军事作战规则的兵棋作战实验环境中，将传统策略-价值网络和低优势策略-价值网络进行对比训练，在400次的自博弈训练中，低优势策略-价值网络模型的损失值从5.3下降到2.3，且收敛速度优于传统策略-价值网络，低优势策略-价值网络模型的KL散度在训练过程中趋近于0。

Select

图形图像处理

基于深度学习的双流程短视频分类方法

张瑷涵, 刘翔, 石蕴玉, 刘思齐

计算机工程. 2022, 48(7): 277-283. https://doi.org/10.19678/j.issn.1000-3428.0061913

摘要 (261) PDF全文 (138) HTML (29)

可视化

随着智能手机和5G网络的普及，短视频已经成为人们碎片时间获取知识的主要途径。针对现实生活场景短视频数据集不足及分类精度较低等问题，提出融合深度学习技术的双流程短视频分类方法。在主流程中，构建A-VGG-3D网络模型，利用带有注意力机制的VGG网络提取特征，采用优化的3D卷积神经网络进行短视频分类，提升短视频在时间维度上的连续性、平衡性和鲁棒性。在辅助流程中，使用帧差法判断镜头切换抽取出短视频中的若干帧，通过滑动窗口机制与级联分类器融合的方式对其进行多尺度人脸检测，进一步提高短视频分类准确性。实验结果表明，该方法在UCF101数据集和自建的生活场景短视频数据集上对于非剧情类与非访谈类短视频的查准率和查全率最高达到98.9%和98.6%，并且相比基于C3D网络的短视频分类方法，在UCF101数据集上的分类准确率提升了9.7个百分点，具有更强的普适性。

Select

开发研究与工程应用

基于改进YOLOv5的火焰检测方法

陈露萌, 曹彦彦, 黄民, 谢鑫钢

计算机工程. 2023, 49(8): 291-301, 309. https://doi.org/10.19678/j.issn.1000-3428.0065025

摘要 (258) PDF全文 (217) HTML (37)

可视化

现有基于图像的火焰检测方法难以兼顾实时性和准确性，且缺乏对小火焰目标精准识别的能力，无法有效应对小火点灭火等应用场景。YOLOv5算法与传统主流算法相比在检测的实时性上有很大优势，为提升火焰检测精度，提出一种基于改进YOLOv5的火焰实时检测方法。针对YOLOv5模型进行改进：在特征提取部分嵌入协同注意力机制模块，在不损失特征信息的情况下减少特征冗余，以帮助模型更精确地定位火焰特征；在特征融合部分增加一个专门针对小火焰目标的检测层，并添加对应的特征提取及特征融合模块，以帮助模型有效获取感受野小于8×8像素的火焰特征；在损失函数的计算部分使用α-CIoU作为新的边界框损失函数，以提升模型的收敛速度和对小数据集的鲁棒性。此外，通过模型预训练和迁移学习的方法对火焰检测模型各层结构的权重参数进行初始化，防止梯度消失，提升训练效果。实验结果表明，改进后的火焰检测模型检测精度为96.6%，较YOLOv5原始模型提升7.4个百分点，并且检测速度达到68帧/s，模型大小仅15.4 MB，在大幅提升精度的基础上能够同时满足消防灭火机器人对火焰检测实时性和轻量化的要求。

Select

热点与综述

基于局部域的影响力最大化算法

沈记全, 林帅, 李志莹

计算机工程. 2022, 48(7): 22-28. https://doi.org/10.19678/j.issn.1000-3428.0062160

摘要 (251) PDF全文 (132) HTML (23)

可视化

用户影响力度量是影响力最大化问题的核心，与网络拓扑结构相关的影响力度量指标主要分为全局性指标和局部性指标，其中全局性指标需要依靠网络完整拓扑结构计算节点影响力且时间复杂度较高，局部性指标通常忽略或弱化了网络中的自环和多边现象，导致对节点影响力的度量不全面，限制信息最终传播范围。结合三度分隔原理，提出基于局部域的影响力最大化算法。考虑网络中的自环和多边现象，根据网络拓扑结构构建生成图。依据生成图划分每个节点对应的局部域，使用节点在局部域内的影响力近似其在全局范围内的影响力，并据此选择候选种子节点。计算候选种子加入种子集合后的重叠比因子，根据重叠比因子决定是否将此候选种子节点选作种子节点，控制种子集合的影响力重叠程度。在真实数据集上的实验结果表明，与MaxDegree、PageRank等算法相比，该算法能有效识别高影响力节点群体，扩大信息传播范围，且具有较低的时间复杂度。

Select

人工智能与模式识别

基于多尺度特征融合与双注意力机制的多元时间序列预测

韩璐, 霍纬纲, 张永会, 刘涛

计算机工程. 2023, 49(9): 99-108. https://doi.org/10.19678/j.issn.1000-3428.0065846

摘要 (244) PDF全文 (172) HTML (23)

可视化

多元时间序列的各子序列包含不同时间跨度的多尺度特征，现有时间序列预测模型不能有效地捕获多尺度特征以及评估其重要程度。提出一种基于多尺度时序特征融合与双注意力机制的多元时间序列预测网络FFANet，有效融合多尺度特征并关注其中重要部分。通过多尺度时序特征融合模块中并行的时序膨胀卷积层，使模型具有多种感受域，从而提取时序数据在不同尺度上的特征，并根据重要性对其进行自适应融合。利用双注意力模块对融合的时序特征进行重新标定，通过分配时序和通道注意力权重并加权至对应的时序特征，使FFANet聚焦对预测有重要贡献的特征。实验结果表明，相比AR、VARMLP、RNN-GRU、LSTNet-skip、TPA-LSTM、MTGNN和AttnAR时间序列预测模型，FFANet在Traffic、Solar Energy和Electricity数据集上的RRSE预测误差分别平均降低0.152 3、0.120 0、0.074 3、0.035 4、0.021 5、0.012 1、0.020 0。

Select

图形图像处理

基于CGS-Ghost YOLO的交通标志检测研究

赵宏, 冯宇博

计算机工程. 2023, 49(12): 194-204. https://doi.org/10.19678/j.issn.1000-3428.0066520

摘要 (243) PDF全文 (384) HTML (19)

可视化

在交通标志检测任务中，YOLOv5检测算法在复杂的环境和路况下存在漏检、错检及模型参数量过大等问题。为此，提出一种改进的CGS-Ghost YOLO检测模型。YOLOv5在图片输入后使用Focus模块进行下采样，增加较多参数，CGS-Ghost YOLO模型使用StemBlock模块替换Focus模块进行采样，能够在维持精度的同时减少参数，并通过引入坐标注意力机制，强化特征中的语义信息和位置信息，提高模型的特征提取能力。设计SMU激活函数与组归一化相结合的CGS卷积模块，避免训练过程中Batch Size大小对模型所造成的影响，在使用GhostConv减少模型参数的同时，提升模型的检测精度。在此基础上，通过$ \alpha $-CIoU Loss+VFocal Loss损失函数，改善交通标志检测任务中正负样本不平衡的问题，提升模型整体性能，Neck部分使用Bi-FPN双向特征金字塔网络，实现检测目标多尺度特征的有效融合。实验结果表明，改进的CGS-Ghost YOLO模型在交通标志检测数据集TT100K中的平均精度均值达到93.1%，相较于原始模型提高了11.3个百分点，模型参数量相较于原始模型降低了21.2个百分点。此外，该网络模型优化了卷积层及下采样部分，在大幅减少模型参数的同时提高了模型检测精度。

Select

开发研究与工程应用

基于注意力引导数据增强的车型识别

孙伟, 常鹏帅, 戴亮, 张小瑞, 陈旋, 代广昭

计算机工程. 2022, 48(7): 300-306. https://doi.org/10.19678/j.issn.1000-3428.0062096

摘要 (242) PDF全文 (230) HTML (32)

可视化

车型识别在智能交通系统中发挥着重要作用。受车辆数据不足、车辆类间差异小等因素的影响，传统车型识别方法未充分利用车辆鉴别性区域的特征，导致识别准确率降低。提出一种基于注意力模块引导数据增强的车型识别方法。将ResNet-50作为骨干网络提取车辆特征，同时在网络的每个残差块后均嵌入坐标注意力模块，编码成一对方向感知和位置敏感的注意力图，以增强车辆鉴别性区域的特征表达。在此基础上，利用双线性注意力汇集操作生成增强特征图，通过对增强特征图进行注意力裁剪和注意力擦除，获取具有强鉴别性的增强数据。在Stanford Cars车辆数据集上的实验结果验证了该方法的有效性，结果表明，该方法的车型识别准确率达到94.86%，与RA-CNN、MA-CNN、WS-DAN+Inception-v3等方法相比，能够有效提高车型识别准确率和数据增强效率。

Select

网络空间安全

共形预测框架下的高可靠入侵检测算法

金海波, 赵欣越

计算机工程. 2022, 48(7): 130-140. https://doi.org/10.19678/j.issn.1000-3428.0063144

摘要 (237) PDF全文 (90) HTML (15)

可视化

入侵检测算法广泛应用于网络安全领域，然而现有基于机器学习的入侵检测算法仅输出数据的预测结果标签，缺少对预测结果置信值的评价机制，难以确保预测结果的可靠性。提出一种基于共形预测的高可靠入侵检测算法。将共形预测融入到传统机器学习算法中，得到数据分类标签和对应的置信值、可信度，提高网络数据分类的可靠性。通过对网络数据进行数字化、标准化和降维预处理，根据传统机器学习算法的特点，设计在共形预测框架下与各算法相对应的不一致得分计算公式，并引入平滑因子改进p-value的计算公式，使其能够以更平滑的方式计算预测结果p-value，提高算法的稳定性。实验结果表明，与单独采用SVM、DT和DT-SVM算法相比，该算法在KDD CUP99数据集上分类准确率分别提高11.1、4.6和3.7个百分点，在AWID数据集上分类准确率分别提高4.0、2.5和1.3个百分点，可保证入侵检测结果的高可靠性。

Select

热点与综述

基于长尾分类算法的网络不良信息分类

刘金硕, 王代辰, 邓娟, 王丽娜

计算机工程. 2023, 49(8): 13-19, 28. https://doi.org/10.19678/j.issn.1000-3428.0067003

摘要 (236) PDF全文 (154) HTML (37)

可视化

目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况，使得模型在分类时偏向于数据量多的样本，无法很好地识别数据量少的样本，从而导致整体识别精度下降。针对该问题，提出一种用于长尾不良信息数据集的分类方法LTIC。将小样本学习与知识转移策略相结合，使用BERT模型学习头部类的权重，通过专门为小样本学习而提出的Prototyper网络得到头部类的原型，将头尾数据分开处理，从而避免一起训练而导致的数据不平衡问题。学习从原型到权重的映射关系，利用学到的知识将尾部类的原型转换为权重，然后连接头部类权重和尾部类权重得到最终的分类结果。实验结果表明：LTIC方法在Twitter和THUCNews数据集上分别达到82.7%和83.5%的分类准确率，且F1值相较非长尾模型有显著提升，有效提高了模型分类精度；与目前较新的长尾数据集分类方法BNN、OLTR等相比，该方法具有更好的分类效果，平均准确率提升了3%；当新的不良信息类别出现时，LTIC方法只需少量计算就可对其进行预测，准确率达到70%，具有良好的扩展性。

Select

图形图像处理

水下图像增强复原对深度学习目标检测精度的影响研究

杨谢柳, 门国文, 梁文峰, 王丹, 谢正义, 范慧杰

计算机工程. 2023, 49(11): 247-256. https://doi.org/10.19678/j.issn.1000-3428.0066610

摘要 (233) PDF全文 (97) HTML (9)

可视化

因水下环境的特殊性，水下光学图像往往存在色偏、模糊、对比度低等退化现象。为恢复颜色正常、清晰的水下图像，大量的水下图像增强复原方法已被提出，但是现有的水下图像增强复原方法主要以提高水下图像的视觉效果为直接目标，对基于深度学习的水下目标检测精度的影响尚不明确。因此，使用14种典型的水下图像增强复原方法和3种典型的基于深度学习的目标检测模型，在URPC2018和URPC2019数据集上从训练集与测试集的域差异、训练集的域数量、训练集的图像数量等方面，详细深入地探讨图像增强复原方法对基于深度学习的目标检测模型精度的影响，并自建数据集进行跨数据集测试。实验结果表明，在训练集和测试集均属同一数据集时，水下图像增强复原方法无论作为图像预处理方法还是数据增强方法，对深度学习目标检测精度的提升都无明显效果，但是在跨数据集检测时，借助水下图像增强复原方法能够大幅提升深度学习目标检测精度，mAP最高可提高13.6个百分点。

Select

热点与综述

多尺度特征融合的轻量化口罩佩戴检测算法

叶茂, 马杰, 王倩, 武麟

计算机工程. 2022, 48(7): 42-50. https://doi.org/10.19678/j.issn.1000-3428.0062231

摘要 (231) PDF全文 (185) HTML (25)

可视化

科学规范地佩戴口罩是预防新冠、流感等呼吸道传染病的有效方法，在当前疫情形势下，正确佩戴口罩显得尤为重要。已有的口罩佩戴检测算法多数存在结构复杂、训练难度较高和特征提取不足等问题，为此，提出一种多尺度特征融合的轻量化口罩佩戴检测算法L-MFFN-YOLO。以YOLOv4-Tiny网络为基础，L-MFFN-YOLO改进原始残差结构，使用轻量化残差模块促进模型快速收敛，在有效降低模型计算量的同时保证检测精度。在原网络、这2个尺度的基础上增加特征分支，以增强低特征层的信息表达能力并降低小目标的漏检率。通过多层级交叉融合结构最大程度地提取有用信息，从而提高特征利用率。除佩戴和未佩戴口罩2种情况外，在数据集中新增口罩佩戴不正确的类别并进行手工标注，实验结果表明，L-MFFN-YOLO算法的模型大小仅为5.8 MB，较原始网络YOLOv4-Tiny，其模型规模减小76%，mAP提高5.25个百分点，CPU下的处理时间快14 ms，能在资源受限的设备中满足口罩佩戴检测任务对准确率和实时性的要求。

Select

图形图像处理

基于Transformer和多尺度CNN的图像去模糊

李现国, 李滨

计算机工程. 2023, 49(9): 226-233, 245. https://doi.org/10.19678/j.issn.1000-3428.0065513

摘要 (230) PDF全文 (368) HTML (35)

可视化

卷积神经网络(CNN)单独应用于图像去模糊时感受野受限，Transformer能有效缓解这一问题但计算复杂度随输入图像空间分辨率的增加呈2次方增长。为此，提出一种基于Transformer和多尺度CNN的图像去模糊网络(T-MIMO-UNet)。利用多尺度CNN提取空间特征，并嵌入Transformer全局特性捕获远程像素信息。设计局部增强Transformer模块、局部多头自注意力计算网络和增强前馈网络，采用窗口的方式进行局部逐块多头自注意力计算，通过增加深度可分离卷积层，加强不同窗口之间的信息交互。在GoPro测试数据集上的实验结果表明，T-MIMO-UNet的峰值信噪比相比于MIMO-UNet、DeepDeblur、DeblurGAN、SRN网络分别提升了0.39 dB、2.89 dB、3.42 dB、1.86 dB，参数量相比于MPRNet减少了1/2，能有效解决动态场景下的图像模糊问题。

Select

封面和目录

2022年第5期《计算机工程》中英文目录

计算机工程. 2022, 48(5): 0-0.

摘要 (228) PDF全文 (254)

可视化

Select

进化和群体智能算法与应用

基于轨迹预测与冲突检测的自动驾驶碰撞检测模型

费蓉, 马梦阳, 张晓, 黑新宏, 徐庆征, 邱原

计算机工程. 2023, 49(7): 10-20. https://doi.org/10.19678/j.issn.1000-3428.0066975

摘要 (228) PDF全文 (149) HTML (37)

可视化

轨迹预测和碰撞检测是自动驾驶的关键技术，可以提高自动驾驶系统对周围环境的感知能力，保障自动驾驶系统的安全性。Conv-LSTM模型能够有效处理具有时空相关性的轨迹数据，具有良好的轨迹预测能力，但该模型在交通拥堵、复杂道路等复杂情形下预测性能较差。提出一种基于行驶意图识别的轨迹预测模型。通过基于长短期记忆（LSTM）网络的行驶意图识别模块对车辆的行驶意图进行预测，基于Conv-LSTM构建轨迹预测模块，结合识别的行驶意图信息预测未来轨迹，从而提高轨迹预测的精度和可解释性。引入2种注意力机制对目标对象及其周围车辆的历史轨迹信息进行重要性分析，使模型关注最具有代表性的邻居车辆，并且更好地捕捉不同时间步之间的关系，从而提高模型的预测准确度和稳定性。针对有向包围盒碰撞检测算法执行效率低的问题，提出一种基于混合包围盒的碰撞检测算法，通过最小安全距离和最大冲突距离进行碰撞预判断，避免非冲突情况下有向包围盒的创建和基于分离轴定理的碰撞检测过程，从而提高碰撞检测的效率。在NGSIM数据集上进行实验，结果表明：该模型的均方根误差优于Conv-LSTM、sys-Conv等对比模型，轨迹预测的精度更高；与有向包围盒(OBB)算法、轴对齐包围盒(AABB)算法和AABB-OBB算法相比，基于混合包围盒的碰撞检测算法平均碰撞检测时间分别缩短了64.47%、53.88%和55.47%。

Select

热点与综述

基于超邻接图的异质信息网络表征学习

杨彬, 王轶彤

计算机工程. 2023, 49(10): 13-21. https://doi.org/10.19678/j.issn.1000-3428.0065807

摘要 (226) PDF全文 (361) HTML (34)

可视化

异质信息网络往往包含不同类型的节点和关系，丰富的语义信息和复杂的关系对目前异质信息网络的表征学习提出了巨大的挑战。现有多数方法通常使用预定义的元路径来捕获异质的语义信息和结构信息，但成本高、覆盖率低，且不能准确有效地捕获和学习有影响力的高阶邻居节点。提出HIN-HG模型来解决以上问题。HIN-HG通过生成异质信息网络的超邻接图来准确有效地捕获对目标节点有影响力的邻居节点，并使用带有多通道机制的卷积神经网络聚合在不同关系下的不同类型的邻居节点。HIN-HG可以自动地学习不同邻居节点和元路径的权重而无须进行手动指定，同时可以捕获全图范围内和目标节点相似的节点作为高阶邻居，并通过信息传播有效地更新目标节点的表征。在DBLP、ACM和IMDB真实数据集上的实验结果表明，在节点分类任务中，HIN-HG较HAN、GTN、HGSL等前沿的异质信息网络表征学习方法性能更优，Macro-F1和Micro-F1多分类评估指标平均提高5.6和5.7个百分点，提高了节点分类的准确性和有效性。

Select

图形图像处理

基于稀疏神经网络的图像超分辨率重建算法

黎浩民, 李光平

计算机工程. 2022, 48(7): 247-253. https://doi.org/10.19678/j.issn.1000-3428.0062364

摘要 (223) PDF全文 (74) HTML (30)

可视化

部分基于深度学习的图像超分辨率重建算法通过扩展网络层的深度来提高网络模型的整体特征表达能力。然而，一味过度地扩展网络的深度会造成网络模型过参数化和复杂化，并且冗余的网络参数会增加特征表达的不稳定性。在LTH剪枝算法基础上改变权重参数并使用均衡学习策略，提出一种适用于图像超分辨率重建任务的神经网络非结构化剪枝算法RLTH。在不改变网络结构和不增加计算复杂度的前提下，通过搜索原始网络模型的最优稀疏子网络排除冗余参数带来的影响，在有限的参数资源中捕获更细粒度和丰富的图像特征，进而提高网络模型的整体特征表达能力。基于Set5、Set14和BSD100测试集的实验结果表明，与原始网络模型和应用LTH剪枝算法相比，应用RLTH算法获得的重建图像PSNR和SSIM均得到提升，且具有更丰富的细节特征，整体和局部轮廓更清晰。

Select

图形图像处理

融合注意力与特征金字塔的小尺度目标检测算法

圣文顺, 余熊峰, 林佳燕, 陈欣

计算机工程. 2024, 50(1): 242-250. https://doi.org/10.19678/j.issn.1000-3428.0066724

摘要 (218) PDF全文 (145) HTML (11)

可视化

针对Faster R-CNN算法对于小尺寸目标以及遮挡或截断物体检测能力不足的问题，提出一种融合CBAM注意力机制和特征金字塔结构的改进Faster R-CNN算法。为重点聚焦特征图像局部高效信息，在特征提取网络中融入CBAM机制，减少无效目标的干扰，提升面对遮挡或截断物体的检测能力。引入特征金字塔网络结构，联结高层与底层特征数据，获得高分辨率、强语义数据，从而增强小目标物体的检测效果。为缓解梯度消失现象以及减少超参数规模，使用表达能力较强的倒残差VS-ResNet网络替换VGG16网络，VS-ResNet网络在原有ResNet 50基础上修改了部分层次结构，加入辅助分类器，设计倒残差和组卷积方式，使激活函数信息在高维环境中完整保留，提高检测准确率。采用重置候选框分值计算方法弥补非极大值抑制算法误消除重叠检测框的缺陷。实验结果表明，相比VGG16，VS-ResNet在CIFAR-10数据集上的正确率提高2.97个百分点，该算法在Pascal VOC 2012数据集上的目标检测mAP值为76.2%，比原始Faster R-CNN算法的mAP值提高了13.9个百分点。

阅读排行

选择文件类型/文献管理软件名称

选择包含的内容

模态框（Modal）标题

阅读排行

选择文件类型/文献管理软件名称

选择包含的内容