作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

阅读排行

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 热点与综述
    熊世强, 何道敬, 王振东, 杜润萌
    计算机工程. 2024, 50(5): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0067782
    摘要 (839) PDF全文 (1222) HTML (88)   可视化   收藏
    联邦学习(FL)是一种新兴的分布式机器学习技术,只需将数据留在本地即可通过各方协作训练一个共有模型,解决了传统机器学习中数据难以采集和隐私安全的问题。随着联邦学习技术的应用和发展,相关研究发现联邦学习仍可能受到各类攻击。为了确保联邦学习的安全性,研究联邦学习中的攻击方式及相应的隐私保护技术显得尤为重要。首先介绍了联邦学习的背景知识及相关定义,总结概括了联邦学习的发展历程及分类;接着阐述了联邦学习的安全三要素,从基于安全来源和基于安全三要素2个角度分类概述了联邦学习中的安全问题及研究进展;然后对隐私保护技术进行分类,结合相关研究应用综述了联邦学习中安全多方计算(SMC)、同态加密(HE)、差分隐私(DP)、可信执行环境(TEE)4种常用隐私保护技术;最后对联邦学习的未来研究方向进行展望。
  • 网络空间安全
    宋华伟, 李升起, 万方杰, 卫玉萍
    计算机工程. 2024, 50(3): 166-172. https://doi.org/10.19678/j.issn.1000-3428.0067791
    摘要 (769) PDF全文 (1035) HTML (55)   可视化   收藏

    联邦学习能够在不泄露数据隐私的情况下合作训练全局模型,但这种协作式的训练方式在现实环境下面临参与方数据非独立同分布(Non-IID)的挑战:模型收敛慢、精度降低的问题。许多现有的联邦学习方法仅从全局模型聚合和本地客户端更新中的一个角度进行改进,难免会引发另一角度带来的影响,降低全局模型的质量。提出一种分层持续学习的联邦学习优化方法(FedMas)。FedMas基于分层融合的思想,首先,采用客户端分层策略,利用DBSCAN算法将相似数据分布的客户端划分到不同的层中,每次仅挑选某个层的部分客户端进行训练,避免服务器端全局模型聚合时因数据分布不同产生的权重分歧现象;进一步,由于每个层的数据分布不同,客户端在局部更新时结合持续学习灾难性遗忘的解决方案,有效地融合不同层客户端数据间的差异性,从而保证全局模型的性能。在MNIST和CIFAR-10标准数据集上的实验结果表明,FedMas与FedProx、Scaffold和FedCurv联邦学习算法相比,全局模型测试准确率平均提高0.3~2.2个百分点。

  • 热点与综述
    魏嵬, 丁香香, 郭梦星, 杨钊, 刘辉
    计算机工程. 2024, 50(9): 18-32. https://doi.org/10.19678/j.issn.1000-3428.0068086
    摘要 (687) PDF全文 (768) HTML (38)   可视化   收藏

    文本相似度计算是自然语言处理的一部分, 用来计算两个词、句子及文本之间的相似程度, 具有多种应用场景, 文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面, 随着词向量的提出, 文本相似度计算可进行基于统计以及深度学习的建模与计算, 也可与预训练模型相结合。首先, 将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类, 并对这些方法进行简要介绍。然后, 根据不同文本相似度计算方法的原理, 具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后, 对文本相似度计算常用的数据集以及评价标准进行整理和分析, 并对文本相似度计算的未来发展进行展望。

  • 热点与综述
    连哲, 殷雁君, 云飞, 智敏
    计算机工程. 2024, 50(3): 16-27. https://doi.org/10.19678/j.issn.1000-3428.0067427
    摘要 (636) PDF全文 (1632) HTML (88)   可视化   收藏

    基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。

  • 热点与综述
    任书玉, 汪晓丁, 林晖
    计算机工程. 2024, 50(12): 16-32. https://doi.org/10.19678/j.issn.1000-3428.0068553
    摘要 (555) PDF全文 (370) HTML (49)   可视化   收藏

    Transformer在自然语言处理中表现出优越的性能激励了研究人员开始探索其在计算机视觉任务中的应用。基于Transformer的目标检测模型DETR将目标检测视为一个集合预测问题, 引入Transformer模型来解决目标检测任务, 从而避免了传统方法中的提案生成和后处理步骤。最初的DETR在训练收敛和小物体检测方面存在速度慢、效率低的问题。为了解决这些问题, 研究人员进行了多方面改进, 提升了DETR的性能。对DETR的基本模块和增强模块进行深入研究, 包括对主干结构的修改、查询设计策略和注意力机制的改进, 同时对各种检测器进行比较分析, 评估它们的性能和网络架构, 探讨了DETR在计算机视觉任务中的潜力和应用前景以及目前存在的局限性和面临的挑战, 并对相关模型进行分析与总结。根据目标检测发展的现状, 分析注意力模型的优势与局限性, 并对注意力模型在目标检测领域的研究方向加以展望。

  • 人工智能与模式识别
    王志特, 罗丽平, 廖义奎
    计算机工程. 2024, 50(8): 86-101. https://doi.org/10.19678/j.issn.1000-3428.0068483
    摘要 (516) PDF全文 (1559) HTML (26)   可视化   收藏

    针对机器人路径规划对于路径最短、搜索效率以及平滑度的性能要求, 提出一种改进A*算法与改进动态窗口法(DWA)相融合的算法。针对传统A*算法在复杂场景下输出非最优路径、寻路效率低等问题, 结合曼哈顿距离和对角线距离设计新的启发函数, 并对其动态分配权重, 实现全局路径最短, 减少寻路时间。针对传统8邻域8方向搜索方式搜索效率低、耗时长等问题, 提出一种基于8邻域改进的搜索策略, 对当前节点实时动态分配最优的搜索方向。针对路径存在多余无用节点的问题, 使用Floyd算法去除冗余节点, 减少转向次数, 缩短路径长度。针对传统动态窗口法规划的路径非全局最优、目标点附近存在障碍物时规划的路径长度增加或者规划失败的问题, 加入全局关键节点信息和引入目标点距离评估子函数。针对关键节点距离较长导致融合算法规划的路径偏离全局最优路径的问题, 提出关键点密集化策略。最后, 将提出的改进A*算法、融合算法和已有的其他改进算法进行比较, 仿真结果表明: 改进的A*算法能够在复杂环境中生成最短全局路径, 平均转向次数减少16.3%, 平均寻路时间缩短55.66%;融合算法在临时障碍物环境下, 平均路径长度和平均运行时间分别缩短6.1%和14.7%, 在移动障碍物环境下, 平均路径长度和平均运行时间分别缩短1.6%和39.8%。

  • 人工智能与模式识别
    钱来, 赵卫伟
    计算机工程. 2024, 50(7): 104-111. https://doi.org/10.19678/j.issn.1000-3428.0068132
    摘要 (479) PDF全文 (597) HTML (37)   可视化   收藏

    文本分类作为自然语言处理领域的基本任务, 在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息, 导致学到的文本特征不够全面。为了充分利用训练实例信息, 提出一种基于对比学习和注意力机制的文本分类方法。首先, 设计一种有监督对比学习训练策略, 旨在优化模型对文本向量表征的检索, 提高模型在推理过程中检索到的训练实例的质量; 然后, 构建注意力机制, 对获取的训练文本特征进行注意力分布学习, 聚焦关联性更强的相邻实例信息, 获得更多隐含的相似特征; 最后, 将注意力机制与模型网络相结合, 融合相邻的训练实例信息, 增强模型提取多样性特征的能力, 实现全局特征和局部特征的提取。实验结果表明, 所提方法在卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)、图卷积网络(GCN)、BERT和RoBERTa等多个模型上都取得了显著的性能提升。以CNN模型为例, 其在THUCNews数据集、今日头条数据集和搜狗数据集上宏F1值分别提高了4.15、6.2和1.92个百分点。因此, 该方法也为文本分类任务提供了一种有效的解决方案。

  • 热点与综述
    姜百浩, 刘静, 仇大伟, 姜良
    计算机工程. 2024, 50(3): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0067502
    摘要 (471) PDF全文 (794) HTML (45)   可视化   收藏

    深度学习算法在脊柱图像分割中具有学习和自适应能力强、对图像有非线性映射能力等优点,相较于传统分割方法,能更好地提取脊柱图像中的关键信息,并且抑制不相关信息,辅助医生准确定位病灶区域,实现精准、高效分割。从深度学习算法、脊柱疾病类型、图像类型、实验分割结果、性能评估指标等方面,对深度学习在脊柱图像分割中的应用现状进行归纳、总结并加以分析。介绍深度学习模型和脊柱图像分割的背景,从而引出深度学习在脊柱图像分割中的应用;介绍常见的几种脊柱疾病类型,阐述其在图像分割中的难点,并介绍脊柱图像分割中常用的公开数据集、图像分割的方法流程以及图像分割评价指标等要素;结合具体实验总结分析基于卷积神经网络模型、U型网络模型及其改进的模型在椎骨、椎间盘以及脊柱肿瘤图像分割中的应用进展;结合以往的实验结果和当前深度学习模型的研究进展,总结目前临床研究的局限性以及分割效果不足的原因,针对所存在的问题提出相应的解决方法,并对未来的研究和发展进行展望。

  • 开发研究与工程应用
    贵向泉, 刘世清, 李立, 秦庆松, 李唐艳
    计算机工程. 2024, 50(7): 342-351. https://doi.org/10.19678/j.issn.1000-3428.0068125
    摘要 (437) PDF全文 (317) HTML (33)   可视化   收藏

    针对当前景区行人检测具有检测精度低、算法参数量大和现有公开数据集在小目标检测上存在限制等问题, 创建TAPDataset行人检测数据集, 弥补现有数据集在小目标检测方面的不足, 并基于YOLOv8算法, 构建一种检测精度高、硬件要求低的新模型YOLOv8-L。首先引入DepthSepConv轻量化卷积模块, 降低模型的参数量和计算量。其次采用BiFormer注意力机制和上采样算子CARAFE, 加强模型对图像的语义理解和信息融合能力, 提升模型的检测精度。最后增加一层小目标检测层来提取更多的浅层特征, 从而有效地改善模型对小目标的检测性能。在TAPDataset、VOC 2007及TAP+VOC数据集上的实验结果表明, 与YOLOv8相比, 在FPS基本不变的情况下, 在TAPDataset数据集上, 模型的参数量减少了18.06%, mAP@0.5提高了5.51%, mAP@0.5∶0.95提高了6.03%;在VOC 2007数据集上, 模型的参数量减少了13.6%, mAP@0.5提高了3.96%, mAP@0.5∶0.95提高了6.39%;在TAP+VOC数据集上, 模型的参数量减少了14.02%, mAP@0.5提高了4.49%, mAP@0.5∶0.95提高了5.68%。改进算法具有更强的泛化性能, 能够更好地适用于景区行人检测任务。

  • 热点与综述
    黄开基, 杨华
    计算机工程. 2024, 50(10): 16-34. https://doi.org/10.19678/j.issn.1000-3428.0068580
    摘要 (424) PDF全文 (1782) HTML (36)   可视化   收藏

    图像匹配的目标是从两个或多个图像中找到相似结构之间的对应关系, 是计算机视觉技术的重要基础, 在机器人、遥感、自动驾驶等领域具有广泛应用。近年来随着深度学习技术的发展, 基于深度学习的二维(2D)图像匹配算法在特征提取、特征描述、特征匹配3个方面不断进行改进, 其性能在匹配精度、鲁棒性等方面远超传统算法, 取得了重大突破。首先, 总结近10年基于深度学习特征的2D图像匹配算法, 将其分为基于局部特征的双阶段图像匹配、联合特征检测和描述的图像匹配、无特征检测的图像匹配3类算法, 阐述这3类算法的发展过程、分类方法、性能评价指标并归纳其优点及局限性。然后, 介绍2D图像匹配算法的典型应用场景, 分析2D图像匹配算法的研究进展对其应用领域的影响。最后, 总结并展望2D图像匹配算法的发展趋势。

  • 智慧交通
    陈伟, 王晓龙, 张晏玮, 安国成, 江波
    计算机工程. 2024, 50(4): 11-19. https://doi.org/10.19678/j.issn.1000-3428.0068901
    摘要 (418) PDF全文 (526) HTML (52)   可视化   收藏

    在高速公路服务区违停检测过程中光照、天气变化等复杂环境会使车辆检测精度急剧下降, 同时摄像机拍摄角度、车体高度等因素会增加车辆违停检测的误报率和漏报率。为此, 提出一种基于改进YOLOv8的高速公路服务区违停检测算法。在YOLOv8网络模型的特征金字塔池化层中, 构建膨胀空间金字塔池化(DSPP)模块和基于分支注意力机制的膨胀空间金字塔池化(DSPPA)模块, 减少特征提取网络中深层语义信息的丢失, 同时利用DSPPA中的分支注意力(BA)机制为不同感受野分支特征赋予不同的权重, 使模型更关注与目标尺寸相适应的特征。设计基于全局匹配的停车位分配策略, 有效降低了视角倾斜、车辆重叠遮挡等情况下违规占用停车位的误报率与漏报率。实验结果表明, 改进算法的违停检测误报率从15%下降至8%, 违停检测漏报率从7.5%下降至6.1%, 具有较好的车辆违停检测效果。

  • 智慧教育
    李惠乾, 钟柏昌
    计算机工程. 2024, 50(7): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0069539
    摘要 (416) PDF全文 (313) HTML (46)   可视化   收藏

    知识图谱与教育教学的深度融合推动了智慧教育的发展。目前有关教育知识图谱的文献综述较为缺乏, 有必要从研究规范性及内容视角方面进行补充完善。利用系统性文献综述法对近10年发表的55篇中文核心期刊文献进行统计分析后发现: 在关键技术方面, 教育知识图谱构建主要包含本体构建、知识抽取、知识表示、知识融合和知识推理5项技术, 深度学习方法逐渐成为研究热点; 在应用场景方面, 教育知识图谱覆盖个性化学习推荐、智能问答(Q&A)、教学资源管理、智能搜索、智能学情诊断和课堂教学分析6类场景, 应用的广度和深度不断拓展; 在应用效果方面, 教育知识图谱促进了学习者个性化学习和碎片化泛在学习, 提升了学习者的学习绩效和教师的专业素养; 在问题与挑战方面, 教育知识图谱存在数据模态单一与缺乏优质数据集、自动化程度低与技术存在边界性、知识建模难度高与能力关照不足、缺乏互操作标准与教育应用率低等问题。后续研究将从完善理论与建立标准、优化技术与精准建模、强化应用与提升效果等方面进行深化。

  • 人工智能与模式识别
    孙文洁, 李宗民, 孙浩淼
    计算机工程. 2024, 50(5): 62-70. https://doi.org/10.19678/j.issn.1000-3428.0067919
    摘要 (401) PDF全文 (757) HTML (30)   可视化   收藏
    如何在部分可观测的情况下实现智能体之间的协同配合是多智能体强化学习(MARL)中的一个重要问题。值函数分解方法解决了信用分配问题,是一种实现多智能体之间协同配合的有效方法,然而在现有的值函数分解方法中,智能体个体动作值函数仅取决于局部信息,不允许智能体之间进行显式的信息交换,阻碍了这一系列算法的性能,使其无法适用于复杂场景。为了解决这一问题,在值函数分解方法中引入智能体间的通信,为智能体提供有效的非局部信息以帮助其理解复杂环境。在此基础上,提出一个基于图神经网络的分层通信模型,通过图神经网络提取相邻智能体之间需要交换的有用信息,同时模型能够实现从非通信向充分通信过渡,在通信范围有限的情况下实现全局合作,适用于现实世界中通信范围受约束的情况。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境和捕食者-猎物(PP)环境下进行实验,结果表明,在SMAC的4个不同场景下,该方法与QMIX、VBC等基线算法相比平均胜率提升2~40个百分点,并且能够有效解决非单调环境下的捕食者-猎物问题。
  • 图形图像处理
    徐芳芯, 樊嵘, 马小陆
    计算机工程. 2024, 50(3): 250-258. https://doi.org/10.19678/j.issn.1000-3428.0067741
    摘要 (385) PDF全文 (635) HTML (48)   可视化   收藏

    针对拥挤行人检测场景下检测算法容易产生漏检与误检的问题,提出一种改进的YOLOv7拥挤行人检测算法。在骨干网络中引入BiFormer视觉变换器和改进的高效层聚合网络(RC-ELAN)模块,通过自注意力机制与注意力模块使骨干网络更多聚焦于被遮挡行人的重要特征,有效缓解了目标特征缺失对检测造成的负面影响。采用基于双向特征金字塔网络思想的改进颈部网络,通过转置卷积和改进的Rep-ELAN-W模块使模型可以高效利用中低维特征图中的小目标特征信息,有效提升了模型的小目标行人检测性能。引入高效的完全交并比损失函数,使模型可以进一步收敛至更高精度。在含有大量小目标遮挡行人的WiderPerson数据集上的实验结果表明,与YOLOv7、YOLOv5、YOLOX算法相比,改进的YOLOv7算法的交并比阈值分别取0.5和0.5~0.95时的平均精准度提升了2.5和2.8、9.9和7.1、12.3和10.7个百分点,可较好地应用于拥挤行人检测场景。

  • 人工智能与模式识别
    杨冬菊, 黄俊涛
    计算机工程. 2024, 50(9): 113-120. https://doi.org/10.19678/j.issn.1000-3428.0068400
    摘要 (382) PDF全文 (708) HTML (26)   可视化   收藏

    高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题, 提出一种基于大语言模型的中文科技文献标注方法。首先, 制定适用于多领域中文科技文献的细粒度标注规范, 明确标注实体类型以及标注粒度; 其次, 设计结构化文本标注提示模板和生成解析器, 将中文科技文献标注任务设置成单阶段单轮问答过程, 将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词; 然后, 将提示词注入到大语言模型中生成包含标注信息的输出文本, 经由解析器解析得到结构化的标注数据; 最后, 利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL, 其中包含分布在48个学科的10 000篇标注文档以及72 536个标注实体, 并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明, BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳, F1值为0.335。上述结果可作为后续研究的测试基准。

  • 人工智能与模式识别
    李华昱, 张智康, 闫阳, 岳阳
    计算机工程. 2024, 50(8): 31-39. https://doi.org/10.19678/j.issn.1000-3428.0068225
    摘要 (379) PDF全文 (555) HTML (32)   可视化   收藏

    针对特定领域中文命名实体识别存在的局限性, 提出一种利用学科图谱和图像提高实体识别准确率的模型, 旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTM-Attention的模型提取文本特征, 使用ResNet152提取图像特征, 并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入, 利用余弦相似度查找句子中的分词在学科图谱中最相似的节点, 保留到该节点距离为1的邻居节点, 生成最佳匹配子图, 作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间, 并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后, 通过交叉注意力机制将多模态特征与子图特征进行融合, 输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较, 结果显示, 所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%, 与最优基线模型相比, F1值提高了1.36个百分点, 表明利用领域知识图谱能有效提升实体识别效果。

  • 热点与综述
    李硕, 赵朝阳, 屈音璇, 罗亚平
    计算机工程. 2024, 50(12): 33-47. https://doi.org/10.19678/j.issn.1000-3428.0068276
    摘要 (372) PDF全文 (381) HTML (35)   可视化   收藏

    指纹识别是应用最早、使用最成熟的一项生物特征识别技术, 在民用领域的门禁考勤、移动支付以及刑侦领域检视嫌疑人线索等方面均有着广泛的应用。近年来, 深度学习技术给计算机视觉以及生物特征领域带来了深刻变革, 也给指纹研究人员提供了一种自动处理以及应用融合特征有效表示指纹的新方法, 在指纹识别的各个阶段均有着优异的效果。概述指纹识别的发展历史与应用背景, 阐述指纹识别图像预处理、特征提取以及指纹匹配3个阶段的主要处理流程, 分别对深度学习技术在不同阶段的应用现状进行归纳和总结, 比较不同深度神经网络在图像分割、图像增强、方向场估计、细节特征提取以及指纹匹配等具体环节的应用效果。最后, 分析当前指纹识别领域存在的一些问题与挑战, 并对构建公开指纹数据集、进行多尺度指纹特征提取以及训练端到端指纹识别模型等未来的发展方向进行展望。

  • 热点与综述
    孙仁科, 许靖昊, 皇甫志宇, 李仲年, 许新征
    计算机工程. 2024, 50(10): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0070036
    摘要 (332) PDF全文 (460) HTML (22)   可视化   收藏

    近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能, 多模态学习的重要性和必要性逐渐展现出来, 其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能, 使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率, 而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述, 首先介绍了零样本学习(FSL)的传统方法, 并对其主要形式加以总结; 然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务; 其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况; 最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。

  • 热点与综述
    庞文豪, 王嘉伦, 翁楚良
    计算机工程. 2024, 50(12): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0068694
    摘要 (330) PDF全文 (314) HTML (29)   可视化   收藏

    在大数据背景下, 随着科学计算、人工智能等领域的快速发展, 各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构, 使其适合进行高并行度的计算, 并且近年来GPU与人工智能、科学计算等领域互相发展促进, 使GPU功能细化, 逐渐发展出了成熟的通用图形处理器(GPGPU), 目前GPGPU已成为中央处理器(CPU)最重要的协处理器之一。然而, GPU硬件配置在出厂后不容易更改且显存容量有限, 在处理大数据集时显存容量不足的缺点对计算性能造成较大的影响。统一计算设备架构(CUDA)6.0推出了统一内存, 使GPGPU和CPU可以共享虚拟内存空间, 以此来简化异构编程和扩展GPGPU可访问的内存空间。统一内存为GPGPU处理大数据集提供了一项可行的解决方案, 在一定程度上缓解了GPU显存容量较小的问题, 但是统一内存的使用也带来了一些性能问题, 如何在统一内存中做好内存管理成为性能提升的关键。本研究对CUDA统一内存的发展和应用进行综述, 包括CUDA统一内存的特性、发展、优势和局限性以及在人工智能、大数据处理系统等领域的应用和未来的发展前景, 为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。

  • 体系结构与软件技术
    高秋辰, 胡勇华
    计算机工程. 2024, 50(9): 189-196. https://doi.org/10.19678/j.issn.1000-3428.0068240
    摘要 (305) PDF全文 (543) HTML (11)   可视化   收藏

    系统级芯片(SoC)集成多种外设接口, 其外设接口的验证工作已经成为芯片开发最耗时的环节之一。PCIe协议为系统内部提供了高速的点对点串行互联服务, 同时还支持热插拔和热交换, 逐渐成为一种通用的总线协议。使用传统硬件描述语言(HDL)对PCIe接口设计进行验证时, 存在短时间内难以覆盖多种设计场景和边界条件, 以及验证不完备等问题。为了解决上述问题, 利用统一验证方法学(UVM)搭建1个PCIe接口的验证平台。该平台采用UVM定义的框架和测试类, 实现了顶层环境集成和测试约束的设计, 具有可重用性强和验证全面的特点。实现的内容包括SoC系统级环境集成、待测模块设计与连接、验证平台中sequencer类和monitor类的实现, 以及部分接口设计。为了确保测试用例覆盖尽可能多地设计状态和路径, 针对性地划分不同功能点, 并设计约束条件。通过多种覆盖率指标对测试用例的有效性和覆盖程度进行评估。实验结果表明, 该验证平台能缩短验证周期, 使综合覆盖率提高30%以上。

  • 人工智能与模式识别
    傅明建, 郭福强
    计算机工程. 2024, 50(5): 91-99. https://doi.org/10.19678/j.issn.1000-3428.0068112
    摘要 (295) PDF全文 (364) HTML (19)   可视化   收藏
    无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAM-BC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。
  • 智能态势感知与计算
    郭尚伟, 刘树峰, 李子铭, 欧阳德强, 王宁, 向涛
    计算机工程. 2024, 50(11): 1-9. https://doi.org/10.19678/j.issn.1000-3428.0069758
    摘要 (295) PDF全文 (286) HTML (41)   可视化   收藏

    伴随着网络技术的飞速发展, 网络安全面临的风险也日益增加, 网络攻击呈现复杂化、多样化的特征, 给现有网络攻击应对措施带来了巨大挑战。态势感知技术作为一种新兴概念, 为网络安全领域带来了新的思路。针对现有网络安全态势感知方法存在数据特征提取及较长时间序列数据处理能力不足的问题, 提出一种融合堆栈稀疏自编码器(SSAE)、卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(AM)的模型。通过SSAE和CNN提取数据特征, 利用AM强化BiGRU对关键信息的关注度, 实现对异常流量的攻击类别判定, 并结合网络安全态势量化指标, 对网络安全态势进行量化评分并划分等级。实验结果表明, 融合模型在各项指标上均优于传统深度学习模型, 能够准确感知网络态势。

  • 人工智能与模式识别
    谭郁松, 李恬, 张钰森
    计算机工程. 2024, 50(8): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0068554
    摘要 (293) PDF全文 (479) HTML (28)   可视化   收藏

    随着移动计算、第五代移动通信技术(5G)以及物联网(IoT)技术的不断演进, 各类终端设备的数量呈现指数级增长。这种激增的终端设备连接到网络产生了巨大的数据流, 对于需要实时处理和快速响应用户任务的需求提出了新的挑战。尤其是在这些海量数据中, 半结构化和非结构化数据所占比例较大, 这使得神经网络因其独特的优势而得到了广泛应用。为了提高数据处理能力和推理精度, 神经网络模型会被设计得非常复杂, 其存储和运行均需要消耗大量的计算资源。然而, 边缘设备通常只配置有限的计算资源, 无法满足存储和运行复杂神经网络模型的需求, 需要借助云计算中心来完成这些任务。这种云协同会引发响应延时和增加网络带宽消耗, 并带来用户隐私数据泄露等潜在风险。为了解决这些问题, 提出一种面向边缘智能的神经网络模型快速生成与自动化部署(NGD)方法, 根据边缘设备的硬件配置和承载的具体计算任务需求, 生成与其匹配的神经网络模型, 并将其快速部署在目标设备上, 实现设备本地推理。在3种典型的硬件平台上的神经网络模型生成与部署实验结果表明, NGD方法能够高效地为资源受限的边缘设备生成匹配的神经网络模型, 并快速地将其部署在设备上进行推理任务。

  • 开发研究与工程应用
    谢竞, 邓月明, 王润民
    计算机工程. 2024, 50(11): 338-349. https://doi.org/10.19678/j.issn.1000-3428.0068742
    摘要 (290) PDF全文 (750) HTML (18)   可视化   收藏

    针对当前主流的交通标志目标检测算法在复杂环境中对小目标检测精度低、存在误检和漏检的问题, 提出一种改进的基于YOLOv8s的交通标志检测算法。该算法在主干网络中使用Pconv卷积并设计C2faster模块, 以实现轻量化网络结构同时维持网络精度。为更好地利用底层和高层特征之间的信息, 并增强区域上下文关联能力, 根据SPPF的思想设计SPPFCSPC模块作为空间金字塔池化模块。通过添加GAM注意力机制进一步增强网络的特征提取能力, 有效提高检测精度。为改善对微小目标的检测能力, 在网络颈部添加四倍下采样分支, 优化目标定位。此外, 使用Focal-EIoU损失函数替换原CIoU损失函数, 对预测框的宽高比进行准确定义, 缓解正负样本不平衡的问题。实验结果表明, 在CCTSDB-2021交通标志数据集上, 改进算法的精确率、召回率和mAP@0.5分别达到86.1%、73.0%和81.2%, 相比原始的YOLOv8s算法分别提高了0.8%、6.3%和6.9%。此外, 该算法在复杂天气和恶劣环境下的误检和漏检问题得到明显改善, 综合检测性能明显优于对比算法, 具有较大的实用价值。

  • 图形图像处理
    张旭, 陈慈发, 董方敏
    计算机工程. 2024, 50(12): 318-328. https://doi.org/10.19678/j.issn.1000-3428.0068588
    摘要 (289) PDF全文 (134) HTML (12)   可视化   收藏

    在PCB缺陷检测领域中检测精度的提高一直是1个具有挑战性的任务。为了解决这个问题, 提出一系列基于PCB缺陷检测的改进方法。首先, 引入一种新的注意力机制, 即BiFormer注意力机制, 这种机制利用双层路由实现动态的稀疏注意力, 从而减少计算量; 其次, 采用一种创新的上采样算子CARAFE, 能够结合语义信息与内容信息进行上采样, 使得上采样过程更加全面且高效; 最后, 基于MPDIoU度量采用一种新的损失函数, 即LMPDIoU损失函数, 能够有效地处理不平衡类别、小目标和密集性问题, 从而进一步提高图像检测的性能。实验结果表明, 所提改进后的模型在平均精度均值(mAP)方面取得了显著提高, 达到了93.91%, 与原YOLOv5模型相比提高了13.12个百分点, 同时, 在识别精度方面, 所提改进后的模型表现也非常出色, 达到了90.55%, 与原YOLOv5模型相比提高了8.74个百分点。引入BiFormer注意力机制、CARAFE上采样算子以及LMPDIoU损失函数, 对于提高PCB缺陷检测的精度和效率具有非常积极的作用, 为工业检测领域的研究提供了有价值的参考。

  • 网络空间安全
    李永飞, 李铭洋, 常鑫, 曹可欣
    计算机工程. 2024, 50(6): 179-187. https://doi.org/10.19678/j.issn.1000-3428.0067570
    摘要 (279) PDF全文 (325) HTML (13)   可视化   收藏
    随着物联网技术的发展和应用范围的扩大,物联网设备和传感器的数量和种类也在不断增加。物联网水质传感器在生态监测与保护领域起着至关重要的作用,针对物联网水质传感器采集的监测数据中数据量大、维度高、无标注等问题,提出一种基于可解释性深度学习的无监督异常数据检测算法。使用自动编码器(AE)和SHAP算法对多维水质数据集进行异常检测。通过训练自动编码器模型,标记重建误差较大的数据,使用SHAP解释自动编码器并计算被标记数据中各数据特征的重要性。基于这些特征的重要性,确定最终的异常值,从而实现对水质监测数据的异常检测。在物联网水质监测数据集上的实验结果表明,该算法能有效检测出异常数据,F1值为0.875,性能优于当前无监督异常检测领域常用算法。该算法对于处理物联网水质监测数据具有实际应用价值,此外,还可以应用于其他领域的海量物联网监测数据的异常检测,例如气象、环境等领域。
  • 热点与综述
    王志浩, 钱沄涛
    计算机工程. 2024, 50(9): 33-45. https://doi.org/10.19678/j.issn.1000-3428.0068296
    摘要 (273) PDF全文 (818) HTML (26)   可视化   收藏

    遥感图像时空融合超分辨重建从高时序密度的低分辨率图像和低时序密度的高分辨率图像中提取信息, 生成同时具有高时序密度的高分辨率遥感图像, 它直接关系到后续的解译、检测、跟踪等任务的实施。随着卷积神经网络(CNN)的快速发展, 研究者们提出了一系列基于CNN的时空融合方法, 然而由于卷积的局限性, 这些方法在全局信息提取方面仍然存在不足。受Swin Transformer全局能力的启发, 提出一种基于Swin Transformer的超分辨重建模型。在特征提取阶段, 引入双流结构, 将特征提取网络分为两个部分, 分别提取时间信息与空间信息, 并通过Swin Transformer的全局能力提升模型性能。在特征融合阶段, 引入结合通道注意力与空间注意力的卷积块注意力模块(CBAM), 用于增强重要特征, 提升图像重建精度。在Coleambally灌溉区(CIA)与Gwydir下游流域(LGC)数据集上将该模型与多种时空融合超分辨率重建模型进行对比实验, 结果表明该模型在各项评价指标上均取得了最优的结果, 具有更出色的性能和更强的泛化能力。

  • 热点与综述
    徐明亮, 李芳媛, 马浩然, 何飞
    计算机工程. 2024, 50(6): 1-34. https://doi.org/10.19678/j.issn.1000-3428.0069014
    摘要 (271) PDF全文 (373) HTML (35)   可视化   收藏
    峰电位聚类是指在进行细胞外神经记录时,从神经电极记录中检测、聚类并确认出不同峰电位信号,并以一定的可靠度与假定的不同神经元对应。它是对细胞外神经记录进行预处理分析的基本步骤,也是神经科学中神经解码的首要步骤,更是当前高带宽脑机接口(BCI)的重要研究方向之一。传统峰电位聚类包括峰电位检测、峰电位对齐、特征提取、特征聚类等步骤。当前,随着神经电极数量和密度不断增加,神经记录的规模呈爆炸式增长,这对峰电位聚类算法的效率和精度提出重大挑战。此外,针对现有峰电位聚类算法特征提取和表征能力不强、信噪比低、信息混叠等问题,各种算法增强方案乃至人工智能和大数据峰电位聚类方案应运而生,极大促进了对大脑复杂原理和工作机制的理解。研究首先概述侵入式BCI、神经编解码与峰电位聚类的相关性,接着阐述了各类峰电位聚类算法的原理和一般过程,并探讨了大脑神经信号与具体行为的映射关系与应用,最后展望了未来神经编解码所面临的挑战和发展趋势。
  • 人工智能与模式识别
    刘建敏, 林晖, 汪晓丁
    计算机工程. 2024, 50(7): 144-153. https://doi.org/10.19678/j.issn.1000-3428.0068163
    摘要 (266) PDF全文 (265) HTML (16)   可视化   收藏

    现有的轨迹预测工作大多依赖于高精地图, 但高精地图的采集耗时长、成本高、处理复杂, 难以快速适应智能交通的大面积普及。为解决无地图场景下车辆轨迹预测问题, 提出一种基于多模态数据时空特征的轨迹预测方法。构建多个历史轨迹时空交互图, 交叉使用时间和空间注意力并进行深度融合, 以建模道路上车辆之间的时空关联性。在此基础上, 利用残差网络进行多目标多模态轨迹生成。在真实数据集Argoverse 2上进行模型的训练和测试, 实验结果表明, 相较于CRAT-Pred方法, 该模型在单模态预测方面最小平均位移误差、最小最终位移误差和未命中率指标分别提升了3.86%、3.89%、0.48%, 在多模态预测方面各项指标分别提升了0.78%、0.96%、0.42%。该方法能够有效地捕捉车辆移动轨迹的时间和空间特征, 并可在自动驾驶等相关领域得到有效应用。

  • 图形图像处理
    袁文涛, 卫文韬, 高德民
    计算机工程. 2024, 50(3): 208-215. https://doi.org/10.19678/j.issn.1000-3428.0067439
    摘要 (263) PDF全文 (185) HTML (26)   可视化   收藏

    基于表面肌电信号(sEMG)的手势识别在人机交互中发挥着重要作用,然而,由于sEMG具有非线性和随机性,因此提升基于稀疏多通道sEMG的手势识别准确率难度较高。提出一种融合注意力机制的多视图卷积手势识别模型。首先使用200 ms滑动窗口提取经典的sEMG特征集构建多视图输入,其次利用高效通道注意力对多视图特征在通道维度进行加权,以强化有效特征同时弱化无效特征,最后通过多视图卷积从带有注意力权重的肌电特征中提取高层特征,利用高层特征融合模块对其进行融合以降低数据维度并提高模型鲁棒性。在NinaPro DB1、NinaPro DB5、NinaPro DB7 3个肌电公共数据集上进行训练和评估,结果表明,该模型在200 ms滑动采样窗口上的平均识别准确率分别为87.98%、94.97%和89.67%,整段手势动作的平均投票准确率分别为97.38%、98.41%和97.09%,平均信息传输率为1 308.71 bit/min。与传统机器学习方法和近年来前沿的深度学习手势识别方法相比,所提模型在单模态肌电和多模态手势识别上均具有更高的识别准确率,验证了其有效性和通用性。

  • 图形图像处理
    谢帅康, 熊风光, 朱新杰, 宋宁栋, 李文清, 王廷凤
    计算机工程. 2024, 50(3): 224-232. https://doi.org/10.19678/j.issn.1000-3428.0067566
    摘要 (257) PDF全文 (169) HTML (14)   可视化   收藏

    针对低重叠场景下点云配准方法鲁棒性差、配准精度低的问题,提出一种基于空间可变形Transformer(SDT)的三维点云配准方法。设计多级分辨率特征的提取与融合方法,显式计算点云的局部空间关系。利用SDT模块增强点云空间特征的表达能力,聚合局部与全局的特征得到特征矩阵。计算两个特征矩阵的相似度矩阵并额外地为其添加边缘松弛块,有效降低了不可行匹配对配准鲁棒性的影响,同时对相似度矩阵进行归一化等计算得到软对应置信度矩阵,根据预测的对应点空间特征是否一致来寻找点云在低重叠场景下更精确的对应关系,使用直接定义在对应关系上的损失来训练网络,将软对应关系转换为一对一的硬匹配关系,最终通过随机抽样一致性刚性变换求解器执行配准。实验结果表明,在重叠率低于30%的3DLoMatch场景中,该方法的特征匹配召回率和配准召回率相比于高度关注重叠区域的成对点云配准等方法至少提高了3.7和3.9个百分点,并且具有较强的鲁棒性。

  • 图形图像处理
    史艳琼, 查昭, 张文亮, 戴尔愉, 陈中
    计算机工程. 2024, 50(3): 233-241. https://doi.org/10.19678/j.issn.1000-3428.0067143
    摘要 (255) PDF全文 (580) HTML (16)   可视化   收藏

    聚焦形貌恢复是非接触式三维重建领域中的重要技术手段。由于环境的影响和相机本身的限制,图像采集过程中会不可避免地产生噪声信息,影响重建精度。针对该问题,提出一种高精度、抗噪声的聚焦形貌恢复算法。使用聚焦评价函数对离焦序列图像进行评价,得到聚焦评价序列图像,并使用高斯拟合峰值法定位像素聚焦位置获得初始深度图。在此基础上,通过像素的聚焦评价曲线与灰度曲线之间的相似度衡量深度估计置信度,生成初始深度图的置信图,并将置信图作为引导图对初始深度图进行引导滤波,得到优化后的深度图。使用多组仿真离焦序列图像与真实显微离焦序列图像对所提方法进行性能验证, 实验结果表明:所提方法在仿真与真实离焦序列中均能表现出优良的三维重建效果,在真实数据实验中,所提方法的所有指标均优于基于深度图优化的方法,与传统方法相比均方根误差分别降低64.8%和47.3%以上,相关系数分别提高2.18%和6.35%以上,具有更高的精度和更强的抗噪性,能有效提高聚焦形貌恢复精度。

  • 开发研究与工程应用
    火久元, 王虹阳, 巨涛, 胡军
    计算机工程. 2024, 50(7): 372-380. https://doi.org/10.19678/j.issn.1000-3428.0068282
    摘要 (252) PDF全文 (73) HTML (3)   可视化   收藏

    为解决人体健康评估方法个性化监测不足的问题以及在满足不同场景下健康状态精细化评估的需求, 需要一种基于多场景的人体健康状态评估方法来实现长期自动化监测。提出一种基于层次分析法(AHP)和熵权法(EWM)组合的多场景人体健康状态评估模型。首先采集人体在运动、休息、工作/学习和娱乐等4种不同场景下的健康监测指标数据, 构建相应的评估指标体系。然后分别根据评估指标计算出AHP和EWM权重, 再采用量子粒子群优化(QPSO)算法对AHP和EWM中的主客观权重进行分配, 以确保评价指标占比的客观性。最后通过模糊综合评价法对人体健康状态进行评估和量化, 并利用实际监测数据对方法的可靠性和稳定性进行验证。实验结果表明, 在4种场景下所提方法的综合得分分别为63.78、59.83、58.71和59.21, 表明在不同场景下该模型都具有较好的准确性和稳定性。根据评估结果, 对测试者的身体状态评价结果进行分析, 并给出一些健康建议。所提模型可全面了解人体在不同场景下的健康状况, 并为人们提供科学的健康指导, 从而为健康管理和疾病预防提供科学依据。

  • 人工智能与模式识别
    张亚洲, 和玉, 戎璐, 王祥凯
    计算机工程. 2024, 50(8): 75-85. https://doi.org/10.19678/j.issn.1000-3428.0067936
    摘要 (245) PDF全文 (441) HTML (14)   可视化   收藏

    抑郁症作为一种常见的心理健康问题,严重影响人们的日常生活甚至是生命安全。鉴于目前的抑郁症检测存在主观性和人工干预等缺点,基于深度学习的自动检测方式成为热门研究方向。对于最易获取的文本模态而言,主要的挑战在于如何建模抑郁文本中的长距离依赖与序列依赖。为解决该问题,提出一种基于上下文知识的增强型Transformer网络模型RoBERTa-BiLSTM,旨在从抑郁文本序列中充分提取和利用上下文特征。结合序列模型与Transformer模型优点,建模单词间上下文交互,为抑郁类别揭示与信息表征提供参考。首先,利用RoBERTa方法将词汇嵌入到语义向量空间;其次,利用双向长短期记忆网络(BiLSTM)模型有效捕获长距离上下文语义;最后,在DAIC-WOZ和EATD-Corpus 2个大规模数据集上进行实证研究。实验结果显示,RoBERTa-BiLSTM模型的准确率分别达到0.74和0.93以上,召回率分别达到0.66和0.56以上,能够准确地检测抑郁症。

  • 智慧教育
    杨兴睿, 马斌, 李森垚, 钟忺
    计算机工程. 2024, 50(7): 32-41. https://doi.org/10.19678/j.issn.1000-3428.0068625
    摘要 (244) PDF全文 (312) HTML (22)   可视化   收藏

    大语言模型在自然语言处理领域蓬勃发展, 但在教育数字化领域应用过程中仍面临一系列重要挑战。针对教育数字化领域垂域数据稀缺、摘要长度不稳定导致信息缺失或冗余的问题, 提出一种用于教育领域文本摘要的轻量化幂等模型框架IGLM。该模型首先采用多源训练进行自适应扩增以提升数据多样性, 然后对下游的文本摘要任务进行多种微调。同时, 为降低文本长度的影响, 设计幂等摘要生成策略拉近初次摘要与幂等摘要来约束模型, 减少语料分布不均导致的偏见, 结合量化技术在低资源条件下生成更为精确和流畅的摘要文本。实验以ROUGE分数为评估指标, 在公开中文文本摘要数据集LCSTS、EDUCATION、NLPCC上进行验证。实验结果表明, 该框架在生成摘要的准确率和流畅性上有明显提升, 其中ROUGE-1/2/L相较基线模型在LCSTS数据集上分别提升7.9、7.4、8.7个百分点, 在EDUCATION数据集上分别提升12.9、15.4、15.7个百分点, 在NLPCC数据集上分别提升12.2、11.7、12.7个百分点, 验证了模型有效性。

  • 人工智能与模式识别
    匡鑫, 阳波, 马华, 唐文胜, 肖宏峰, 陈灵
    计算机工程. 2024, 50(10): 119-136. https://doi.org/10.19678/j.issn.1000-3428.0068502
    摘要 (239) PDF全文 (274) HTML (8)   可视化   收藏

    针对蜣螂优化算法(DBO)搜索精度较差、全局搜索能力不足、容易陷入局部最优等问题, 提出一种多策略改进的蜣螂优化算法。选用混沌反向学习策略初始化蜣螂种群, 使得蜣螂个体在解空间内分布均匀, 提升种群多样性; 引入带非线性权重的黄金正弦策略改进滚球行为, 协调算法的全局搜索与局部挖掘能力; 借鉴麻雀搜索算法的加入者位置更新策略改进觅食行为, 促使种群向最优位置靠近, 提高算法收敛速度与收敛精度; 以分段函数形式改进偷窃行为, 利于种群在迭代前期对全局充分探索, 避免算法过早收敛; 采用非线性权重的柯西-高斯变异策略对当前最优位置进行随机扰动, 引导算法跳出局部最优位置。将所提算法与5种优化算法在23个基准函数、12个CEC2022测试函数及2个工程优化问题上进行实验对比, 结果表明, 所提算法至少在21个基准函数、10个CEC2022测试函数及2个工程优化问题上的性能指标优于其他算法, 且排名第1, 相比于原始蜣螂优化算法, 在收敛精度、收敛速度、全局搜索能力以及稳定性上都有较大提升。

  • 图形图像处理
    张天鹏, 韩晶, 吕学强
    计算机工程. 2024, 50(9): 304-312. https://doi.org/10.19678/j.issn.1000-3428.0069039
    摘要 (239) PDF全文 (309) HTML (23)   可视化   收藏

    小目标通常具有低分辨率和模糊不清的特点, 并容易受到遮挡和背景的影响, 导致难以实现准确且实时的小目标检测。为提升检测效果, 提出一种基于多任务学习的超分辨率辅助小目标检测算法Multi-YOLO。首先, 引入一个超分辨率辅助分支引导主干网络提取有效特征, 减少小目标信息丢失; 其次, 采用Anchor based协同监督Anchor free的双检测头训练方法来辅助提升检测准确性, 另外, 在骨干网络尾部使用CTR3模块加强目标信息与位置感知的关联性; 最后, 在推理阶段仅使用检测分支进行推理以保证推理速度。实验结果表明, Multi-YOLO相对于基准网络在VEDAI、COCO MiniTrain和SPCD数据集上均取得了一定的性能提升, 其中在VEDAI数据集上, Multi-YOLO实现了10.9%的平均精度均值(mAP)提升, 且与基准模型大小相近。同时, 与主流的单阶段目标检测网络相比, Multi-YOLO在小目标检测方面表现出色, 并在精度和速度之间取得了平衡。

  • 图形图像处理
    王昱婷, 刘志明, 万亚平, 朱涛
    计算机工程. 2024, 50(8): 270-281. https://doi.org/10.19678/j.issn.1000-3428.0068186
    摘要 (234) PDF全文 (603) HTML (16)   可视化   收藏

    图像融合是将多个输入图像合并成一个单一图像的技术。可见光红外图像融合能提高目标检测的准确性, 但在低光照场景下往往效果不佳。基于此, 提出一种新的融合模型DAPR-Net。该模型具有跨层残差连接的编解码结构, 将编码器的输出与解码器的对应层的输入相连接, 加强各层卷积层间的信息传递。在编码器中设计了双注意力特征提取模块AFEM, 使得网络能够更好地区分融合图像与输入的可见光和红外图像之间的差异, 同时保留两者的关键信息。在多个公开数据集上与6种先进方法进行对比, 实验结果表明, 与基准PIAFusion模型相比, 该模型在LLVIP和MSRS数据集上的信息熵、空间频率、平均梯度、标准差、视觉保真度指标分别提高了0.849、3.252、7.634、10.38、0.293和2.105、2.23、4.099、27.938、0.343;在YOLOV5目标检测网络上, LLVIP和MSRS数据集的平均精度均值、召回率、精确率、F1值指标分别提高了8.8、1.4、1.9、1.5个百分点和7.5、1.4、8.8、1.2个百分点, 相较于其他融合方法表现出更显著的优势。

  • 人工智能与模式识别
    李子杰, 周菊香, 韩晓瑜, 甘健侯, 鹿泽光, 王俊
    计算机工程. 2024, 50(6): 77-85. https://doi.org/10.19678/j.issn.1000-3428.0067528
    摘要 (230) PDF全文 (660) HTML (12)   可视化   收藏
    知识追踪是人工智能技术与教育相结合的新兴领域,旨在通过学生过去完成习题的交互序列对学生的知识状态进行评估,是实现大规模个性化学习服务的关键核心技术。随着深度学习在计算机视觉、自然语言处理、推荐系统等领域的广泛应用,知识追踪领域也出现了大量基于神经网络的方法,简称深度知识追踪(DKT)模型。针对目前已有DKT模型在可解释性和准确性方面的不足,提出一种序列特征与学习过程融合的知识追踪模型SLKT,模型包括知识状态模块、序列特征模块、预测模块。知识状态模块用以模拟学生学习过程,序列特征模块捕捉学习者近期学习状况。通过序列特征和学习过程的融合,有效解决了基于知识状态建模方法无法考虑学习者近期学习状况的问题,同时提出一种带约束的动态Q矩阵表示练习和知识点之间的关系,从而更好地进行学习者学习过程建模,在确保较好可解释性的同时有效提升模型的准确性。在3个知识追踪领域公共数据集上的实验结果表明,相比DKT、动态键值记忆网络(DKVMN)、自注意力的知识追踪(SAKT)、卷积知识追踪(CKT)等深度追踪模型,SLKT模型在曲线下面积(AUC)、准确率指标评估中表现较优。
  • 图形图像处理
    王非凡, 陈希爱, 任卫红, 管宇, 韩志, 唐延东
    计算机工程. 2024, 50(10): 352-361. https://doi.org/10.19678/j.issn.1000-3428.0068407
    摘要 (228) PDF全文 (302) HTML (8)   可视化   收藏

    在低光环境下的检测任务中, 由于低亮度、低对比度以及噪声等不利因素影响, 会存在对目标的漏检、错检等现象。针对此问题, 提出基于图像自适应增强的低照度目标检测算法。将传统图像处理方法与深度学习相结合, 设计图像自适应增强网络, 使用多个可调滤波器通过级联的方式进行结合, 对输入的低光图像进行逐步增强, 各滤波器的调节参数由卷积神经网络根据输入图像的全局信息进行预测。将图像自适应增强网络与YOLOv5目标检测网络相结合进行端到端的联合训练, 使图像增强效果更有利于目标检测。由于在低光目标检测过程中易出现漏检现象, 对通道注意力机制SE-Net进行改进, 设计特征增强网络, 并嵌入到YOLOv5网络中Neck部分的末端, 以减少网络特征融合过程中造成潜在目标特征的信息损失。实验结果表明, 所提算法在真实低光数据集ExDark上的检测精度达到了77.3%, 相较于原始YOLOv5目标检测网络提高了2.1个百分点, 检测速度达到79帧/s, 能够实现实时检测的效果。

  • 人工智能与模式识别
    陈佳玉, 王元龙, 张虎
    计算机工程. 2024, 50(6): 86-93. https://doi.org/10.19678/j.issn.1000-3428.0068081
    摘要 (227) PDF全文 (307) HTML (10)   可视化   收藏
    预训练语言模型在大规模训练数据和超大规模算力的基础上,能够从非结构化的文本数据中学到大量的知识。针对三元组包含信息有限的问题,提出利用预训练语言模型丰富知识的问题生成方法。首先,利用预训练语言模型中丰富的知识增强三元组信息,设计文本知识生成器,将三元组中的信息转化为子图描述,丰富三元组的语义;然后,使用问题类型预测器预测疑问词,准确定位答案所在的领域,从而生成语义正确的问题,更好地控制问题生成的效果;最后,设计一种受控生成框架对关键实体和疑问词进行约束,保证关键实体和疑问词同时出现在问题中,使生成的问题更加准确。在公开数据集WebQuestion和PathQuestion中验证所提模型的性能。实验结果表明,与现有模型LFKQG相比,所提模型的BLUE-4、METEOR、ROUGE-L指标在WebQuestion数据集上分别提升0.28、0.16、0.22个百分点,在PathQuestion数据集上分别提升0.8、0.39、0.46个百分点。
  • 图形图像处理
    赵南南, 高翡晨
    计算机工程. 2025, 51(1): 198-207. https://doi.org/10.19678/j.issn.1000-3428.0068677
    摘要 (227) PDF全文 (83) HTML (1)   可视化   收藏

    提出一种基于改进型YOLOv8的实例分割算法(DE-YOLO)。为减少图像中复杂背景的干扰, 引入高效多尺度注意力机制, 跨维交互使各特征组内空间语义特征平均分布。在主干网络部分, 使用可变形卷积DCNv2结合C2f卷积层, 突破原始卷积限制, 提升可变性。为减小有害梯度并提升检测器精度, 采用动态非单调聚焦机制Wise-交并比(WIoU)替代联合完全交并(CIoU)损失函数进行质量评估, 优化检测框定位, 提升分割精度。同时, 通过开启Mixup数据增强处理, 充实数据集, 丰富训练特征, 提升模型学习能力。实验结果表明, DE-YOLO在城市景观数据集Cityscapes中的掩模平均精度均值(mAPmask)较基准模型YOLOv8n-seg提高了2.0百分点, IoU阈值为0.5时的平均精度提升了3.2百分点, 所提算法在提升精度的同时, 保持了优良的检测速度和较少的参数量, 模型参数量较同类模型低2.2~31.3百分点。

  • 图形图像处理
    杜晓英, 袁庆霓, 齐建友, 王晨, 杜飞龙, 任澳
    计算机工程. 2024, 50(3): 242-249. https://doi.org/10.19678/j.issn.1000-3428.0067370
    摘要 (225) PDF全文 (201) HTML (14)   可视化   收藏

    针对在动态场景下视觉同步定位与建图(SLAM)鲁棒性差、定位与建图精度易受动态物体干扰的问题,设计一种基于改进DeepLabv3plus与多视图几何的语义视觉SLAM算法。以语义分割网络DeepLabv3plus为基础,采用轻量级卷积网络MobileNetV2进行特征提取,并使用深度可分离卷积代替空洞空间金字塔池化模块中的标准卷积,同时引入注意力机制,提出改进的语义分割网络DeepLabv3plus。将改进后的语义分割网络DeepLabv3plus与多视图几何结合,提出动态点检测方法,以提高视觉SLAM在动态场景下的鲁棒性。在此基础上,构建包含语义信息和几何信息的三维语义静态地图。在TUM数据集上的实验结果表明,与ORB-SLAM2相比,该算法在高动态序列下的绝对轨迹误差的均方根误差值和标准差(SD)值最高分别提升98%和97%。

  • 人工智能与模式识别
    刘娟, 段友祥, 陆誉翕, 张鲁
    计算机工程. 2024, 50(7): 112-122. https://doi.org/10.19678/j.issn.1000-3428.0068020
    摘要 (225) PDF全文 (463) HTML (9)   可视化   收藏

    知识图谱补全是提高知识图谱质量的重要手段, 主要分为基于结构和基于描述的方法。基于结构的补全方法对图谱中常见的长尾实体推理性能表现不佳, 基于描述的补全方法在描述信息利用和负样本信息学习方面存在不足。针对上述问题, 提出基于知识增强的知识图谱补全方法KEKGC。设计一种特定模板, 将三元组及其描述信息通过人工定义的模板转换为连贯的自然语言描述语句输入预训练语言模型, 增强语言模型对三元组结构知识与描述知识的理解能力。在此基础上, 提出一种对比学习框架来提高链接预测任务的效率与准确率, 通过建立记忆库存储实体嵌入向量, 从中选择正负样本并结合InfoNCE损失进行训练。实验结果显示, 相较于MEM-KGC, KEKGC在WN18RR数据集上链接预测任务的平均倒数秩(MRR)提升了5.5, Hits@1、Hits@3、Hits@10指标分别提升了2.8、0.7、4.2个百分点, 三元组分类任务准确率达到94.1%, 表明所提方法具有更高的预测准确率与更好的泛化能力, 尤其对于长尾实体, 能够有效提升图谱补全的效果与效率。

  • 网络空间安全
    王俊, 赖会霞, 万玥, 张仕
    计算机工程. 2024, 50(3): 156-165. https://doi.org/10.19678/j.issn.1000-3428.0067948
    摘要 (222) PDF全文 (137) HTML (18)   可视化   收藏

    在高维数据空间中,数据大都处于高维空间边缘且分布十分稀疏,由此引起的“维度灾难”问题导致现有异常检测方法无法保证异常检测精度。为解决该问题,提出一种基于角度的图神经网络高维数据异常检测方法A-GNN。首先通过数据空间的均匀采样和初始训练数据的扰动来扩充用于训练的数据;然后利用k近邻关系构造训练数据的k近邻关系图,并以k近邻元素距离加权角度的方差作为近邻关系图节点的初始异常因子;最后通过训练图神经网络模型,实现节点间的信息交互,使得相邻节点能够互相学习,从而进行有效的异常评估。在6个自然数据集上将A-GNN方法与9种典型异常检测方法进行实验对比,结果表明:A-GNN在5个数据集中取得了最高的AUC值,其能够大幅提升各种维度数据的异常检测精度,在一些“真高维数据”上异常检测的AUC值提升达40%以上;在不同k值下与3种基于k近邻的异常检测方法相比,A-GNN利用图神经网络节点间的信息交互能有效避免k值对检测结果的影响,方法具有更强的鲁棒性

  • 人工智能与模式识别
    更藏措毛, 黄鹤鸣, 杨毅杰
    计算机工程. 2024, 50(6): 138-147. https://doi.org/10.19678/j.issn.1000-3428.0067970
    摘要 (222) PDF全文 (287) HTML (12)   可视化   收藏
    在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,利用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力,从而提高模型的泛化性。实验结果表明,MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNet、U-Net等同类的单通道语音增强模型。在信噪比为0 dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,MSF-CI模型不仅可以提升语音的质量与可理解度,而且具有较优的泛化性。
  • 开发研究与工程应用
    侯颖, 杨林, 胡鑫, 贺顺, 宋婉莹, 赵谦
    计算机工程. 2024, 50(3): 277-289. https://doi.org/10.19678/j.issn.1000-3428.0067416
    摘要 (221) PDF全文 (331) HTML (15)   可视化   收藏

    自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不佳且检测速度减慢。融合Swin Transformer和YOLOX目标检测算法的优秀策略,提出一种基于SwinT-YOLOX网络模型的自动扶梯行人摔倒检测算法。采用Swin Transformer模型作为骨干网络,颈部网络使用添加注意力机制的YOLOX模型,进一步提升特征图的多样性和表达能力。此外,利用漏斗修正线性单元视觉激活函数构建CBF模块,改进颈部网络和Head网络结构,从而获得更优的特征检测性能。实验结果表明,针对自建扶梯行人摔倒数据库和网络采集实际扶梯行人摔倒事故,与AlphaPose、OpenPose、YOLOv5等算法相比,该算法检测性能明显提高,行人摔倒平均检测精度可以达到95.92%,检测帧率为24.08帧/s,能够快速、精准地检测到乘客摔倒事故发生,监控管理平台立刻采取安全急停措施以保证乘客安全。

  • 封面和目录
    计算机工程. 2024, 50(3): 0-0.
  • 热点与综述
    吴冠荣, 李元祥, 王艺霖, 陆雨寒, 陈秀华
    计算机工程. 2024, 50(3): 36-43. https://doi.org/10.19678/j.issn.1000-3428.0067599
    摘要 (220) PDF全文 (398) HTML (24)   可视化   收藏

    现有小样本分类方法局限于从每轮支持信息中归纳出类内共性,忽略了在迭代过程中类间关联性以及样本本身携带的类别信息。由于金属损伤纹理细微、多变,因此所形成的特征分布类间距离小、类内距离大。因特征分布聚合性差导致小样本分类性能降低且新类泛化性变差,提出一种基于内外双层训练模型架构的小样本金属表面损伤分类方法。内模型在利用度量手段完成元分类任务的同时,引入双模态特征作为外模型特征空间的信号,即在新映射空间下利用类别标签信息有监督地对比不同类别的图像特征、优化特征分布,使类间区分度更大、类内聚合度更高。在训练阶段中外模型反传对比损失,间接加强原有特征空间的表征能力,从而提高内模型的度量水平,提升分类精度。同时,利用类别嵌入作为动态类别中心,可以有效减少小样本问题中的噪声干扰,加强模型泛化性能。在GC10、NEU及APSD 3个常用的金属损伤数据集上的实验结果表明,相比ProtoNet、MatchingNet、RelationNet等主流方法,该方法具有较优的分类精度, 特别是新类别的泛化能力得到大幅提升, 5-way 5-shot设定下分类精度至少提高了5.24、1.39和6.37个百分点,分类错误下降率分别为36.00%、17.94%和66.15%;此外,新类分类精度分别从36.53%、82.43%、31.89%提升至69.12%、91.57%、48.23%。5-way 1-shot设定下分类精度分别至少提高8.34、3.01和4.61个百分点,分类错误下降率分别为28.32%、23.37%和46.57%。

  • 网络空间安全
    卢晓天, 朴春慧, 杨兴雨, 白英杰
    计算机工程. 2024, 50(5): 167-181. https://doi.org/10.19678/j.issn.1000-3428.0067967
    摘要 (220) PDF全文 (255) HTML (27)   可视化   收藏
    在实现隐私保护的同时提高数据可用性是高维结构化数据发布研究中的挑战性问题,经典算法PrivBayes针对该问题提供了一种解决方案。为进一步减少计算开销、提高数据可用性,提出基于贝叶斯网络的差分隐私数据发布算法ELPrivBayes。分析贝叶斯网络结构学习阶段的理论计算开销,构建存储属性之间互信息的相关矩阵,避免结构学习算法迭代过程中互信息的冗余计算,降低了时间复杂度。基于平均互信息优化了节点进入贝叶斯网络的顺序,提高结构学习迭代过程中指数机制贡献的互信息期望值,进而提高生成数据集与原始数据集的统计近似度,并实证分析网络结构质量对首节点选择的低敏感性。在4个典型数据集上的实验结果表明,与经典算法PrivBayes及其改进方案相比较,结构学习阶段的计算开销降低了97%~99%,基于指数机制捕获的互信息提高了14%~67%,生成数据集与原始数据集的平均变差距离降低了32%~40%,构建的支持向量机(SVM)分类器的准确率提高了4%~5%,并且当ε≤0.8时,采用ELPrivBayes算法生成数据的可用性提升更为显著。