作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

阅读排行

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 人工智能与模式识别
    赵继达, 甄国涌, 储成群
    计算机工程. 2024, 50(4): 113-120. https://doi.org/10.19678/j.issn.1000-3428.0068268
    摘要 (1180) PDF全文 (1204) HTML (125)   可视化   收藏
    在无人机(UAV)目标检测任务中,存在因检测目标尺度小、检测图像背景复杂等原因导致的漏检、误检问题。针对上述问题,提出改进YOLOv8s的无人机图像目标检测算法。首先,针对无人机拍摄目标普遍为小目标的应用场景,减少算法骨干网络(Backbone)层数,增大待检测特征图尺寸,使得网络模型更专注于微小目标;其次,针对数据集普遍存在一定数量低质量示例影响训练效果的问题,引入Wise-IoU损失函数,增强数据集训练效果;再次,通过引入上下文增强模块,获得小目标在不同感受野下的特征信息,改善算法在复杂环境下对小目标的定位和分类效果;最后,设计空间-通道滤波模块,增强卷积过程中目标的特征信息,滤除无用的干扰信息,改善卷积过程中部分微小目标特征信息被淹没、丢失的现象。在VisDrone2019数据集上的实验结果表明,该算法的平均检测精度(mAP@0.5)达到45.4%,相较于原始YOLOv8s算法提高7.3个百分点,参数量减少26.13%。在相同实验条件下,相比其他常见小目标检测算法,检测精度和检测速度也有一定提升。
  • 热点与综述
    熊世强, 何道敬, 王振东, 杜润萌
    计算机工程. 2024, 50(5): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0067782
    摘要 (862) PDF全文 (2179) HTML (94)   可视化   收藏
    联邦学习(FL)是一种新兴的分布式机器学习技术,只需将数据留在本地即可通过各方协作训练一个共有模型,解决了传统机器学习中数据难以采集和隐私安全的问题。随着联邦学习技术的应用和发展,相关研究发现联邦学习仍可能受到各类攻击。为了确保联邦学习的安全性,研究联邦学习中的攻击方式及相应的隐私保护技术显得尤为重要。首先介绍了联邦学习的背景知识及相关定义,总结概括了联邦学习的发展历程及分类;接着阐述了联邦学习的安全三要素,从基于安全来源和基于安全三要素2个角度分类概述了联邦学习中的安全问题及研究进展;然后对隐私保护技术进行分类,结合相关研究应用综述了联邦学习中安全多方计算(SMC)、同态加密(HE)、差分隐私(DP)、可信执行环境(TEE)4种常用隐私保护技术;最后对联邦学习的未来研究方向进行展望。
  • 热点与综述
    魏嵬, 丁香香, 郭梦星, 杨钊, 刘辉
    计算机工程. 2024, 50(9): 18-32. https://doi.org/10.19678/j.issn.1000-3428.0068086
    摘要 (731) PDF全文 (859) HTML (46)   可视化   收藏

    文本相似度计算是自然语言处理的一部分, 用来计算两个词、句子及文本之间的相似程度, 具有多种应用场景, 文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面, 随着词向量的提出, 文本相似度计算可进行基于统计以及深度学习的建模与计算, 也可与预训练模型相结合。首先, 将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类, 并对这些方法进行简要介绍。然后, 根据不同文本相似度计算方法的原理, 具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后, 对文本相似度计算常用的数据集以及评价标准进行整理和分析, 并对文本相似度计算的未来发展进行展望。

  • 热点与综述
    任书玉, 汪晓丁, 林晖
    计算机工程. 2024, 50(12): 16-32. https://doi.org/10.19678/j.issn.1000-3428.0068553
    摘要 (599) PDF全文 (592) HTML (55)   可视化   收藏

    Transformer在自然语言处理中表现出优越的性能激励了研究人员开始探索其在计算机视觉任务中的应用。基于Transformer的目标检测模型DETR将目标检测视为一个集合预测问题, 引入Transformer模型来解决目标检测任务, 从而避免了传统方法中的提案生成和后处理步骤。最初的DETR在训练收敛和小物体检测方面存在速度慢、效率低的问题。为了解决这些问题, 研究人员进行了多方面改进, 提升了DETR的性能。对DETR的基本模块和增强模块进行深入研究, 包括对主干结构的修改、查询设计策略和注意力机制的改进, 同时对各种检测器进行比较分析, 评估它们的性能和网络架构, 探讨了DETR在计算机视觉任务中的潜力和应用前景以及目前存在的局限性和面临的挑战, 并对相关模型进行分析与总结。根据目标检测发展的现状, 分析注意力模型的优势与局限性, 并对注意力模型在目标检测领域的研究方向加以展望。

  • 人工智能与模式识别
    李敬灿, 肖萃林, 覃晓婷, 谢夏
    计算机工程. 2024, 50(4): 87-94. https://doi.org/10.19678/j.issn.1000-3428.0068501
    摘要 (563) PDF全文 (732) HTML (32)   可视化   收藏
    关系抽取是一项基础且重要的任务,旨在从非结构化文本中提取出实体之间的关系。最近研究证明,大型语言模型(LLM)和基础模型相结合可以改进许多自然语言处理(NLP)任务的性能。这些模型利用深度学习和预训练模型的语言表示能力,能够自动学习关系的语义特征。有效利用大模型来解决实体重叠和信息交互差等问题仍是一个挑战。针对以上问题,提出基于大语言模型的关系抽取算法。对大型语言模型 Meta AI(LLaMA)进行微调训练,使其更加适应关系抽取的任务,在提取关系的基础上,使用自注意力机制增强实体对之间关联程度,增强关系和实体之间的信息共享,接着使用平均池化泛化到整个句子中。针对实体对设计一个过滤矩阵,并引入词性信息进行语义增强,根据过滤矩阵中实体对的相关性过滤掉无效的三元组。实验结果表明,该算法在纽约时报(NYT)和 WebNLG 公开数据集上的F1值结果分别为93.1%、90.4%。在微调之后的LLaMA模型作为编码器的情况下,所提算法在准确率和F1值指标上均优于基线模型,验证了算法的有效性。
  • 人工智能与模式识别
    王志特, 罗丽平, 廖义奎
    计算机工程. 2024, 50(8): 86-101. https://doi.org/10.19678/j.issn.1000-3428.0068483
    摘要 (539) PDF全文 (1737) HTML (30)   可视化   收藏

    针对机器人路径规划对于路径最短、搜索效率以及平滑度的性能要求, 提出一种改进A*算法与改进动态窗口法(DWA)相融合的算法。针对传统A*算法在复杂场景下输出非最优路径、寻路效率低等问题, 结合曼哈顿距离和对角线距离设计新的启发函数, 并对其动态分配权重, 实现全局路径最短, 减少寻路时间。针对传统8邻域8方向搜索方式搜索效率低、耗时长等问题, 提出一种基于8邻域改进的搜索策略, 对当前节点实时动态分配最优的搜索方向。针对路径存在多余无用节点的问题, 使用Floyd算法去除冗余节点, 减少转向次数, 缩短路径长度。针对传统动态窗口法规划的路径非全局最优、目标点附近存在障碍物时规划的路径长度增加或者规划失败的问题, 加入全局关键节点信息和引入目标点距离评估子函数。针对关键节点距离较长导致融合算法规划的路径偏离全局最优路径的问题, 提出关键点密集化策略。最后, 将提出的改进A*算法、融合算法和已有的其他改进算法进行比较, 仿真结果表明: 改进的A*算法能够在复杂环境中生成最短全局路径, 平均转向次数减少16.3%, 平均寻路时间缩短55.66%;融合算法在临时障碍物环境下, 平均路径长度和平均运行时间分别缩短6.1%和14.7%, 在移动障碍物环境下, 平均路径长度和平均运行时间分别缩短1.6%和39.8%。

  • 人工智能与模式识别
    钱来, 赵卫伟
    计算机工程. 2024, 50(7): 104-111. https://doi.org/10.19678/j.issn.1000-3428.0068132
    摘要 (509) PDF全文 (695) HTML (38)   可视化   收藏

    文本分类作为自然语言处理领域的基本任务, 在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息, 导致学到的文本特征不够全面。为了充分利用训练实例信息, 提出一种基于对比学习和注意力机制的文本分类方法。首先, 设计一种有监督对比学习训练策略, 旨在优化模型对文本向量表征的检索, 提高模型在推理过程中检索到的训练实例的质量; 然后, 构建注意力机制, 对获取的训练文本特征进行注意力分布学习, 聚焦关联性更强的相邻实例信息, 获得更多隐含的相似特征; 最后, 将注意力机制与模型网络相结合, 融合相邻的训练实例信息, 增强模型提取多样性特征的能力, 实现全局特征和局部特征的提取。实验结果表明, 所提方法在卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)、图卷积网络(GCN)、BERT和RoBERTa等多个模型上都取得了显著的性能提升。以CNN模型为例, 其在THUCNews数据集、今日头条数据集和搜狗数据集上宏F1值分别提高了4.15、6.2和1.92个百分点。因此, 该方法也为文本分类任务提供了一种有效的解决方案。

  • 智慧教育
    李惠乾, 钟柏昌
    计算机工程. 2024, 50(7): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0069539
    摘要 (471) PDF全文 (421) HTML (52)   可视化   收藏

    知识图谱与教育教学的深度融合推动了智慧教育的发展。目前有关教育知识图谱的文献综述较为缺乏, 有必要从研究规范性及内容视角方面进行补充完善。利用系统性文献综述法对近10年发表的55篇中文核心期刊文献进行统计分析后发现: 在关键技术方面, 教育知识图谱构建主要包含本体构建、知识抽取、知识表示、知识融合和知识推理5项技术, 深度学习方法逐渐成为研究热点; 在应用场景方面, 教育知识图谱覆盖个性化学习推荐、智能问答(Q&A)、教学资源管理、智能搜索、智能学情诊断和课堂教学分析6类场景, 应用的广度和深度不断拓展; 在应用效果方面, 教育知识图谱促进了学习者个性化学习和碎片化泛在学习, 提升了学习者的学习绩效和教师的专业素养; 在问题与挑战方面, 教育知识图谱存在数据模态单一与缺乏优质数据集、自动化程度低与技术存在边界性、知识建模难度高与能力关照不足、缺乏互操作标准与教育应用率低等问题。后续研究将从完善理论与建立标准、优化技术与精准建模、强化应用与提升效果等方面进行深化。

  • 人工智能与模式识别
    张洪程, 李林育, 杨莉, 伞晨峻, 尹春林, 颜冰, 于虹, 张璇
    计算机工程. 2024, 50(4): 168-176. https://doi.org/10.19678/j.issn.1000-3428.0067543
    摘要 (470) PDF全文 (265) HTML (10)   可视化   收藏
    知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有的知识图谱补全方法通常只考虑单一结构信息或者文本语义信息,忽略了整个知识图谱中同时存在的结构信息与文本语义信息。针对此问题,提出一种基于语言模型增强嵌入与对比学习的知识图谱补全(KGC)模型。将输入的实体和关系通过预训练语言模型获取实体和关系的文本语义信息,利用翻译模型的距离打分函数捕获知识图谱中的结构信息,使用2种用于对比学习的负采样方法融合对比学习来训练模型以提高模型对正负样本的表征能力。实验结果表明,与基于来自Transformer的双向编码器表示的知识图谱补全(KG-BERT)模型相比,在WN18RR和FB15K-237数据集上该模型链接预测的排名小于等于10的三元组的平均占比(Hits@10)分别提升了31%和23%,明显优于对比模型。
  • 开发研究与工程应用
    贵向泉, 刘世清, 李立, 秦庆松, 李唐艳
    计算机工程. 2024, 50(7): 342-351. https://doi.org/10.19678/j.issn.1000-3428.0068125
    摘要 (449) PDF全文 (404) HTML (34)   可视化   收藏

    针对当前景区行人检测具有检测精度低、算法参数量大和现有公开数据集在小目标检测上存在限制等问题, 创建TAPDataset行人检测数据集, 弥补现有数据集在小目标检测方面的不足, 并基于YOLOv8算法, 构建一种检测精度高、硬件要求低的新模型YOLOv8-L。首先引入DepthSepConv轻量化卷积模块, 降低模型的参数量和计算量。其次采用BiFormer注意力机制和上采样算子CARAFE, 加强模型对图像的语义理解和信息融合能力, 提升模型的检测精度。最后增加一层小目标检测层来提取更多的浅层特征, 从而有效地改善模型对小目标的检测性能。在TAPDataset、VOC 2007及TAP+VOC数据集上的实验结果表明, 与YOLOv8相比, 在FPS基本不变的情况下, 在TAPDataset数据集上, 模型的参数量减少了18.06%, mAP@0.5提高了5.51%, mAP@0.5∶0.95提高了6.03%;在VOC 2007数据集上, 模型的参数量减少了13.6%, mAP@0.5提高了3.96%, mAP@0.5∶0.95提高了6.39%;在TAP+VOC数据集上, 模型的参数量减少了14.02%, mAP@0.5提高了4.49%, mAP@0.5∶0.95提高了5.68%。改进算法具有更强的泛化性能, 能够更好地适用于景区行人检测任务。

  • 智慧交通
    陈伟, 王晓龙, 张晏玮, 安国成, 江波
    计算机工程. 2024, 50(4): 11-19. https://doi.org/10.19678/j.issn.1000-3428.0068901
    摘要 (448) PDF全文 (557) HTML (59)   可视化   收藏

    在高速公路服务区违停检测过程中光照、天气变化等复杂环境会使车辆检测精度急剧下降, 同时摄像机拍摄角度、车体高度等因素会增加车辆违停检测的误报率和漏报率。为此, 提出一种基于改进YOLOv8的高速公路服务区违停检测算法。在YOLOv8网络模型的特征金字塔池化层中, 构建膨胀空间金字塔池化(DSPP)模块和基于分支注意力机制的膨胀空间金字塔池化(DSPPA)模块, 减少特征提取网络中深层语义信息的丢失, 同时利用DSPPA中的分支注意力(BA)机制为不同感受野分支特征赋予不同的权重, 使模型更关注与目标尺寸相适应的特征。设计基于全局匹配的停车位分配策略, 有效降低了视角倾斜、车辆重叠遮挡等情况下违规占用停车位的误报率与漏报率。实验结果表明, 改进算法的违停检测误报率从15%下降至8%, 违停检测漏报率从7.5%下降至6.1%, 具有较好的车辆违停检测效果。

  • 热点与综述
    黄开基, 杨华
    计算机工程. 2024, 50(10): 16-34. https://doi.org/10.19678/j.issn.1000-3428.0068580
    摘要 (444) PDF全文 (1848) HTML (38)   可视化   收藏

    图像匹配的目标是从两个或多个图像中找到相似结构之间的对应关系, 是计算机视觉技术的重要基础, 在机器人、遥感、自动驾驶等领域具有广泛应用。近年来随着深度学习技术的发展, 基于深度学习的二维(2D)图像匹配算法在特征提取、特征描述、特征匹配3个方面不断进行改进, 其性能在匹配精度、鲁棒性等方面远超传统算法, 取得了重大突破。首先, 总结近10年基于深度学习特征的2D图像匹配算法, 将其分为基于局部特征的双阶段图像匹配、联合特征检测和描述的图像匹配、无特征检测的图像匹配3类算法, 阐述这3类算法的发展过程、分类方法、性能评价指标并归纳其优点及局限性。然后, 介绍2D图像匹配算法的典型应用场景, 分析2D图像匹配算法的研究进展对其应用领域的影响。最后, 总结并展望2D图像匹配算法的发展趋势。

  • 人工智能与模式识别
    孙文洁, 李宗民, 孙浩淼
    计算机工程. 2024, 50(5): 62-70. https://doi.org/10.19678/j.issn.1000-3428.0067919
    摘要 (416) PDF全文 (854) HTML (33)   可视化   收藏
    如何在部分可观测的情况下实现智能体之间的协同配合是多智能体强化学习(MARL)中的一个重要问题。值函数分解方法解决了信用分配问题,是一种实现多智能体之间协同配合的有效方法,然而在现有的值函数分解方法中,智能体个体动作值函数仅取决于局部信息,不允许智能体之间进行显式的信息交换,阻碍了这一系列算法的性能,使其无法适用于复杂场景。为了解决这一问题,在值函数分解方法中引入智能体间的通信,为智能体提供有效的非局部信息以帮助其理解复杂环境。在此基础上,提出一个基于图神经网络的分层通信模型,通过图神经网络提取相邻智能体之间需要交换的有用信息,同时模型能够实现从非通信向充分通信过渡,在通信范围有限的情况下实现全局合作,适用于现实世界中通信范围受约束的情况。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境和捕食者-猎物(PP)环境下进行实验,结果表明,在SMAC的4个不同场景下,该方法与QMIX、VBC等基线算法相比平均胜率提升2~40个百分点,并且能够有效解决非单调环境下的捕食者-猎物问题。
  • 热点与综述
    李硕, 赵朝阳, 屈音璇, 罗亚平
    计算机工程. 2024, 50(12): 33-47. https://doi.org/10.19678/j.issn.1000-3428.0068276
    摘要 (407) PDF全文 (550) HTML (41)   可视化   收藏

    指纹识别是应用最早、使用最成熟的一项生物特征识别技术, 在民用领域的门禁考勤、移动支付以及刑侦领域检视嫌疑人线索等方面均有着广泛的应用。近年来, 深度学习技术给计算机视觉以及生物特征领域带来了深刻变革, 也给指纹研究人员提供了一种自动处理以及应用融合特征有效表示指纹的新方法, 在指纹识别的各个阶段均有着优异的效果。概述指纹识别的发展历史与应用背景, 阐述指纹识别图像预处理、特征提取以及指纹匹配3个阶段的主要处理流程, 分别对深度学习技术在不同阶段的应用现状进行归纳和总结, 比较不同深度神经网络在图像分割、图像增强、方向场估计、细节特征提取以及指纹匹配等具体环节的应用效果。最后, 分析当前指纹识别领域存在的一些问题与挑战, 并对构建公开指纹数据集、进行多尺度指纹特征提取以及训练端到端指纹识别模型等未来的发展方向进行展望。

  • 开发研究与工程应用
    胡帅, 李华玲, 郝德琛
    计算机工程. 2024, 50(4): 286-293. https://doi.org/10.19678/j.issn.1000-3428.0067779
    摘要 (399) PDF全文 (535) HTML (33)   可视化   收藏
    医学图像分割精度对医师临床诊疗起到关键作用,但由于医学图像的复杂性以及目标区域的多样性,造成现有医学图像分割方法存在边缘区域分割不完整和上下文特征信息利用不充分的问题。为此,提出一种改进U-Net的多级边缘增强(MEE)医学图像分割网络(MDU-Net)模型。首先,在编码器结构中加入提取双层低级特征信息的MEE模块,通过不同扩张率的扩张卷积块获取特征层中丰富的边缘信息。其次,在跳跃连接中嵌入融合相邻层特征信息的细节特征关联(DFA)模块,以获取深层次和多尺度的上下文特征信息。最后,在解码器结构对应特征层中聚合不同模块所提取的特征信息,通过上采样操作得到最终的分割结果。在2个公开数据集上的实验结果表明,与用于医学图像分割的Transformers强编码器(TransUNet)等模型相比,MDU-Net模型能够高效使用医学图像中不同特征层的特征信息,并在边缘区域取得了更好的分割效果。
  • 人工智能与模式识别
    杨冬菊, 黄俊涛
    计算机工程. 2024, 50(9): 113-120. https://doi.org/10.19678/j.issn.1000-3428.0068400
    摘要 (398) PDF全文 (801) HTML (28)   可视化   收藏

    高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题, 提出一种基于大语言模型的中文科技文献标注方法。首先, 制定适用于多领域中文科技文献的细粒度标注规范, 明确标注实体类型以及标注粒度; 其次, 设计结构化文本标注提示模板和生成解析器, 将中文科技文献标注任务设置成单阶段单轮问答过程, 将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词; 然后, 将提示词注入到大语言模型中生成包含标注信息的输出文本, 经由解析器解析得到结构化的标注数据; 最后, 利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL, 其中包含分布在48个学科的10 000篇标注文档以及72 536个标注实体, 并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明, BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳, F1值为0.335。上述结果可作为后续研究的测试基准。

  • 人工智能与模式识别
    李华昱, 张智康, 闫阳, 岳阳
    计算机工程. 2024, 50(8): 31-39. https://doi.org/10.19678/j.issn.1000-3428.0068225
    摘要 (395) PDF全文 (648) HTML (37)   可视化   收藏

    针对特定领域中文命名实体识别存在的局限性, 提出一种利用学科图谱和图像提高实体识别准确率的模型, 旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTM-Attention的模型提取文本特征, 使用ResNet152提取图像特征, 并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入, 利用余弦相似度查找句子中的分词在学科图谱中最相似的节点, 保留到该节点距离为1的邻居节点, 生成最佳匹配子图, 作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间, 并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后, 通过交叉注意力机制将多模态特征与子图特征进行融合, 输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较, 结果显示, 所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%, 与最优基线模型相比, F1值提高了1.36个百分点, 表明利用领域知识图谱能有效提升实体识别效果。

  • 图形图像处理
    赵南南, 高翡晨
    计算机工程. 2025, 51(1): 198-207. https://doi.org/10.19678/j.issn.1000-3428.0068677
    摘要 (386) PDF全文 (285) HTML (26)   可视化   收藏

    提出一种基于改进型YOLOv8的实例分割算法(DE-YOLO)。为减少图像中复杂背景的干扰, 引入高效多尺度注意力机制, 跨维交互使各特征组内空间语义特征平均分布。在主干网络部分, 使用可变形卷积DCNv2结合C2f卷积层, 突破原始卷积限制, 提升可变性。为减小有害梯度并提升检测器精度, 采用动态非单调聚焦机制Wise-交并比(WIoU)替代联合完全交并(CIoU)损失函数进行质量评估, 优化检测框定位, 提升分割精度。同时, 通过开启Mixup数据增强处理, 充实数据集, 丰富训练特征, 提升模型学习能力。实验结果表明, DE-YOLO在城市景观数据集Cityscapes中的掩模平均精度均值(mAPmask)较基准模型YOLOv8n-seg提高了2.0百分点, IoU阈值为0.5时的平均精度提升了3.2百分点, 所提算法在提升精度的同时, 保持了优良的检测速度和较少的参数量, 模型参数量较同类模型低2.2~31.3百分点。

  • 热点与综述
    庞文豪, 王嘉伦, 翁楚良
    计算机工程. 2024, 50(12): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0068694
    摘要 (371) PDF全文 (384) HTML (32)   可视化   收藏

    在大数据背景下, 随着科学计算、人工智能等领域的快速发展, 各领域对硬件的算力要求越来越高。图形处理器(GPU)特殊的硬件架构, 使其适合进行高并行度的计算, 并且近年来GPU与人工智能、科学计算等领域互相发展促进, 使GPU功能细化, 逐渐发展出了成熟的通用图形处理器(GPGPU), 目前GPGPU已成为中央处理器(CPU)最重要的协处理器之一。然而, GPU硬件配置在出厂后不容易更改且显存容量有限, 在处理大数据集时显存容量不足的缺点对计算性能造成较大的影响。统一计算设备架构(CUDA)6.0推出了统一内存, 使GPGPU和CPU可以共享虚拟内存空间, 以此来简化异构编程和扩展GPGPU可访问的内存空间。统一内存为GPGPU处理大数据集提供了一项可行的解决方案, 在一定程度上缓解了GPU显存容量较小的问题, 但是统一内存的使用也带来了一些性能问题, 如何在统一内存中做好内存管理成为性能提升的关键。本研究对CUDA统一内存的发展和应用进行综述, 包括CUDA统一内存的特性、发展、优势和局限性以及在人工智能、大数据处理系统等领域的应用和未来的发展前景, 为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。

  • 热点与综述
    孙仁科, 许靖昊, 皇甫志宇, 李仲年, 许新征
    计算机工程. 2024, 50(10): 1-15. https://doi.org/10.19678/j.issn.1000-3428.0070036
    摘要 (349) PDF全文 (552) HTML (25)   可视化   收藏

    近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能, 多模态学习的重要性和必要性逐渐展现出来, 其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能, 使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率, 而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述, 首先介绍了零样本学习(FSL)的传统方法, 并对其主要形式加以总结; 然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务; 其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况; 最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。

  • 图形图像处理
    张旭, 陈慈发, 董方敏
    计算机工程. 2024, 50(12): 318-328. https://doi.org/10.19678/j.issn.1000-3428.0068588
    摘要 (338) PDF全文 (231) HTML (13)   可视化   收藏

    在PCB缺陷检测领域中检测精度的提高一直是1个具有挑战性的任务。为了解决这个问题, 提出一系列基于PCB缺陷检测的改进方法。首先, 引入一种新的注意力机制, 即BiFormer注意力机制, 这种机制利用双层路由实现动态的稀疏注意力, 从而减少计算量; 其次, 采用一种创新的上采样算子CARAFE, 能够结合语义信息与内容信息进行上采样, 使得上采样过程更加全面且高效; 最后, 基于MPDIoU度量采用一种新的损失函数, 即LMPDIoU损失函数, 能够有效地处理不平衡类别、小目标和密集性问题, 从而进一步提高图像检测的性能。实验结果表明, 所提改进后的模型在平均精度均值(mAP)方面取得了显著提高, 达到了93.91%, 与原YOLOv5模型相比提高了13.12个百分点, 同时, 在识别精度方面, 所提改进后的模型表现也非常出色, 达到了90.55%, 与原YOLOv5模型相比提高了8.74个百分点。引入BiFormer注意力机制、CARAFE上采样算子以及LMPDIoU损失函数, 对于提高PCB缺陷检测的精度和效率具有非常积极的作用, 为工业检测领域的研究提供了有价值的参考。

  • 图形图像处理
    崔丽群, 曹华维
    计算机工程. 2024, 50(4): 228-236. https://doi.org/10.19678/j.issn.1000-3428.0067790
    摘要 (337) PDF全文 (294) HTML (29)   可视化   收藏
    目前目标检测技术虽然已经趋于成熟,但是对遥感图像的检测仍存在不少挑战。针对遥感图像的背景复杂、目标尺度差异大、目标方向任意等特点造成目标检测精度低下的问题,提出一种基于改进YOLOv5的遥感图像目标检测算法。首先,构建一种联合注意力的多尺度特征增强网络,充分融合高低层特征,使特征层具有语义信息的同时包含丰富的细节信息,并在融合过程中利用设计的特征聚焦模块帮助模型选择关键特征,抑制无关信息。其次,使用感受野模块(RFB)对融合后的特征图进行更新,扩大特征图的感受野,减少特征信息损失。最后,对目标增加旋转角度,并采用圆形平滑标签将回归问题转化成分类问题,提高遥感目标定位的准确性。在用于航拍图像目标检测的大规模数据集(DOTA)上的实验结果表明,与YOLOv5算法相比,所提算法的交并比(IoU)为0.5和0.5~0.95时的平均精度均值(mAP@0.5和mAP@0.5:0.95)分别提高了7.3和3.3个百分点,能够明显提高复杂背景下遥感图像目标的检测精度,并改善对遥感目标的漏检和误检情况。
  • 体系结构与软件技术
    高秋辰, 胡勇华
    计算机工程. 2024, 50(9): 189-196. https://doi.org/10.19678/j.issn.1000-3428.0068240
    摘要 (333) PDF全文 (640) HTML (12)   可视化   收藏

    系统级芯片(SoC)集成多种外设接口, 其外设接口的验证工作已经成为芯片开发最耗时的环节之一。PCIe协议为系统内部提供了高速的点对点串行互联服务, 同时还支持热插拔和热交换, 逐渐成为一种通用的总线协议。使用传统硬件描述语言(HDL)对PCIe接口设计进行验证时, 存在短时间内难以覆盖多种设计场景和边界条件, 以及验证不完备等问题。为了解决上述问题, 利用统一验证方法学(UVM)搭建1个PCIe接口的验证平台。该平台采用UVM定义的框架和测试类, 实现了顶层环境集成和测试约束的设计, 具有可重用性强和验证全面的特点。实现的内容包括SoC系统级环境集成、待测模块设计与连接、验证平台中sequencer类和monitor类的实现, 以及部分接口设计。为了确保测试用例覆盖尽可能多地设计状态和路径, 针对性地划分不同功能点, 并设计约束条件。通过多种覆盖率指标对测试用例的有效性和覆盖程度进行评估。实验结果表明, 该验证平台能缩短验证周期, 使综合覆盖率提高30%以上。

  • 智能态势感知与计算
    郭尚伟, 刘树峰, 李子铭, 欧阳德强, 王宁, 向涛
    计算机工程. 2024, 50(11): 1-9. https://doi.org/10.19678/j.issn.1000-3428.0069758
    摘要 (317) PDF全文 (382) HTML (43)   可视化   收藏

    伴随着网络技术的飞速发展, 网络安全面临的风险也日益增加, 网络攻击呈现复杂化、多样化的特征, 给现有网络攻击应对措施带来了巨大挑战。态势感知技术作为一种新兴概念, 为网络安全领域带来了新的思路。针对现有网络安全态势感知方法存在数据特征提取及较长时间序列数据处理能力不足的问题, 提出一种融合堆栈稀疏自编码器(SSAE)、卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(AM)的模型。通过SSAE和CNN提取数据特征, 利用AM强化BiGRU对关键信息的关注度, 实现对异常流量的攻击类别判定, 并结合网络安全态势量化指标, 对网络安全态势进行量化评分并划分等级。实验结果表明, 融合模型在各项指标上均优于传统深度学习模型, 能够准确感知网络态势。

  • 人工智能与模式识别
    傅明建, 郭福强
    计算机工程. 2024, 50(5): 91-99. https://doi.org/10.19678/j.issn.1000-3428.0068112
    摘要 (308) PDF全文 (365) HTML (19)   可视化   收藏
    无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(DRL)算法在自动驾驶决策领域具有广阔应用前景。但是,深度强化学习在自动驾驶场景中存在样本效率低、奖励函数设计困难等问题。提出一种基于专家先验的深度强化学习算法(CBAM-BC SAC)来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识;然后,使用通道-空间注意力机制(CBAM)改进行为克隆(BC)方法,在专家先验知识的基础上预训练模仿专家策略;最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,而且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC SAC算法与传统DRL算法(SAC)、基于传统行为克隆的DRL算法(BC SAC)相比,平均通行成功率分别提高了14.2和2.2个百分点。
  • 图形图像处理
    武星, 殷浩宇, 姚骏峰, 李卫民, 钱权
    计算机工程. 2024, 50(6): 218-227. https://doi.org/10.19678/j.issn.1000-3428.0067874
    摘要 (308) PDF全文 (199) HTML (13)   可视化   收藏
    多模态情感分析旨在从文本、图像和音频数据中提取和整合语义信息,从而识别在线视频中说话者的情感状态。尽管多模态融合方案在此研究领域已取得一定成果,但是已有方法在处理模态间分布差异和关系知识的融合方面仍有欠缺,为此,提出一种多模态情感分析方法。设计一种多模态提示门(MPG)模块,其能够将非语言信息转换为融合文本上下文的提示,利用文本信息对非语言信号的噪声进行过滤,得到包含丰富语义信息的提示,以增强模态间的信息整合。此外,提出一种实例到标签的对比学习框架,在语义层面上区分隐空间中的不同标签以进一步优化模型输出。在3个大规模情感分析数据集上的实验结果表明,该方法的二分类精度相对次优模型提高了约0.7%,三分类精度提高了超过2.5%,达到0.671。该方法能够为将多模态情感分析引入用户画像、视频理解、AI面试等领域提供参考。
  • 人工智能与模式识别
    谭郁松, 李恬, 张钰森
    计算机工程. 2024, 50(8): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0068554
    摘要 (307) PDF全文 (482) HTML (28)   可视化   收藏

    随着移动计算、第五代移动通信技术(5G)以及物联网(IoT)技术的不断演进, 各类终端设备的数量呈现指数级增长。这种激增的终端设备连接到网络产生了巨大的数据流, 对于需要实时处理和快速响应用户任务的需求提出了新的挑战。尤其是在这些海量数据中, 半结构化和非结构化数据所占比例较大, 这使得神经网络因其独特的优势而得到了广泛应用。为了提高数据处理能力和推理精度, 神经网络模型会被设计得非常复杂, 其存储和运行均需要消耗大量的计算资源。然而, 边缘设备通常只配置有限的计算资源, 无法满足存储和运行复杂神经网络模型的需求, 需要借助云计算中心来完成这些任务。这种云协同会引发响应延时和增加网络带宽消耗, 并带来用户隐私数据泄露等潜在风险。为了解决这些问题, 提出一种面向边缘智能的神经网络模型快速生成与自动化部署(NGD)方法, 根据边缘设备的硬件配置和承载的具体计算任务需求, 生成与其匹配的神经网络模型, 并将其快速部署在目标设备上, 实现设备本地推理。在3种典型的硬件平台上的神经网络模型生成与部署实验结果表明, NGD方法能够高效地为资源受限的边缘设备生成匹配的神经网络模型, 并快速地将其部署在设备上进行推理任务。

  • 开发研究与工程应用
    谢竞, 邓月明, 王润民
    计算机工程. 2024, 50(11): 338-349. https://doi.org/10.19678/j.issn.1000-3428.0068742
    摘要 (306) PDF全文 (846) HTML (19)   可视化   收藏

    针对当前主流的交通标志目标检测算法在复杂环境中对小目标检测精度低、存在误检和漏检的问题, 提出一种改进的基于YOLOv8s的交通标志检测算法。该算法在主干网络中使用Pconv卷积并设计C2faster模块, 以实现轻量化网络结构同时维持网络精度。为更好地利用底层和高层特征之间的信息, 并增强区域上下文关联能力, 根据SPPF的思想设计SPPFCSPC模块作为空间金字塔池化模块。通过添加GAM注意力机制进一步增强网络的特征提取能力, 有效提高检测精度。为改善对微小目标的检测能力, 在网络颈部添加四倍下采样分支, 优化目标定位。此外, 使用Focal-EIoU损失函数替换原CIoU损失函数, 对预测框的宽高比进行准确定义, 缓解正负样本不平衡的问题。实验结果表明, 在CCTSDB-2021交通标志数据集上, 改进算法的精确率、召回率和mAP@0.5分别达到86.1%、73.0%和81.2%, 相比原始的YOLOv8s算法分别提高了0.8%、6.3%和6.9%。此外, 该算法在复杂天气和恶劣环境下的误检和漏检问题得到明显改善, 综合检测性能明显优于对比算法, 具有较大的实用价值。

  • 网络空间安全
    李永飞, 李铭洋, 常鑫, 曹可欣
    计算机工程. 2024, 50(6): 179-187. https://doi.org/10.19678/j.issn.1000-3428.0067570
    摘要 (301) PDF全文 (338) HTML (14)   可视化   收藏
    随着物联网技术的发展和应用范围的扩大,物联网设备和传感器的数量和种类也在不断增加。物联网水质传感器在生态监测与保护领域起着至关重要的作用,针对物联网水质传感器采集的监测数据中数据量大、维度高、无标注等问题,提出一种基于可解释性深度学习的无监督异常数据检测算法。使用自动编码器(AE)和SHAP算法对多维水质数据集进行异常检测。通过训练自动编码器模型,标记重建误差较大的数据,使用SHAP解释自动编码器并计算被标记数据中各数据特征的重要性。基于这些特征的重要性,确定最终的异常值,从而实现对水质监测数据的异常检测。在物联网水质监测数据集上的实验结果表明,该算法能有效检测出异常数据,F1值为0.875,性能优于当前无监督异常检测领域常用算法。该算法对于处理物联网水质监测数据具有实际应用价值,此外,还可以应用于其他领域的海量物联网监测数据的异常检测,例如气象、环境等领域。
  • 热点与综述
    王志浩, 钱沄涛
    计算机工程. 2024, 50(9): 33-45. https://doi.org/10.19678/j.issn.1000-3428.0068296
    摘要 (297) PDF全文 (953) HTML (31)   可视化   收藏

    遥感图像时空融合超分辨重建从高时序密度的低分辨率图像和低时序密度的高分辨率图像中提取信息, 生成同时具有高时序密度的高分辨率遥感图像, 它直接关系到后续的解译、检测、跟踪等任务的实施。随着卷积神经网络(CNN)的快速发展, 研究者们提出了一系列基于CNN的时空融合方法, 然而由于卷积的局限性, 这些方法在全局信息提取方面仍然存在不足。受Swin Transformer全局能力的启发, 提出一种基于Swin Transformer的超分辨重建模型。在特征提取阶段, 引入双流结构, 将特征提取网络分为两个部分, 分别提取时间信息与空间信息, 并通过Swin Transformer的全局能力提升模型性能。在特征融合阶段, 引入结合通道注意力与空间注意力的卷积块注意力模块(CBAM), 用于增强重要特征, 提升图像重建精度。在Coleambally灌溉区(CIA)与Gwydir下游流域(LGC)数据集上将该模型与多种时空融合超分辨率重建模型进行对比实验, 结果表明该模型在各项评价指标上均取得了最优的结果, 具有更出色的性能和更强的泛化能力。

  • 人工智能与模式识别
    张国胜, 李彩虹, 张耀玉, 周瑞红, 梁振英
    计算机工程. 2025, 51(1): 88-97. https://doi.org/10.19678/j.issn.1000-3428.0068738
    摘要 (288) PDF全文 (652) HTML (18)   可视化   收藏

    针对人工势场(APF)法在机器人局部路径规划中存在的局部极小值陷阱和路径冗余等问题, 提出一种基于模糊控制(FC)和虚拟目标点改进人工势场的FC-V-APF算法。首先设计虚拟目标点避障策略, 并加入障碍物跨越机制和目标点更新阈值, 构建V-APF算法引导机器人摆脱陷阱区域; 其次提出基于累计转角和的控制策略, 帮助机器人走出多U型复杂陷阱; 然后针对路径冗余问题, 将V-APF算法与模糊控制算法相结合, 提出FC-V-APF算法, 通过激光雷达传感器的实时数据和权重函数对当前环境进行评估, 选取模糊控制器输出辅助力, 提前规避障碍物。最后在机器人操作系统(ROS)平台上搭建仿真环境对FC-V-APF算法进行路径规划性能的对比实验, 并对路径长度、运行时间和速度曲线等进行比较。实验结果表明, 所设计的FC-V-APF算法能够快速摆脱陷阱, 减少冗余路径, 提高路径平滑度并减少规划时间。

  • 热点与综述
    徐明亮, 李芳媛, 马浩然, 何飞
    计算机工程. 2024, 50(6): 1-34. https://doi.org/10.19678/j.issn.1000-3428.0069014
    摘要 (282) PDF全文 (373) HTML (35)   可视化   收藏
    峰电位聚类是指在进行细胞外神经记录时,从神经电极记录中检测、聚类并确认出不同峰电位信号,并以一定的可靠度与假定的不同神经元对应。它是对细胞外神经记录进行预处理分析的基本步骤,也是神经科学中神经解码的首要步骤,更是当前高带宽脑机接口(BCI)的重要研究方向之一。传统峰电位聚类包括峰电位检测、峰电位对齐、特征提取、特征聚类等步骤。当前,随着神经电极数量和密度不断增加,神经记录的规模呈爆炸式增长,这对峰电位聚类算法的效率和精度提出重大挑战。此外,针对现有峰电位聚类算法特征提取和表征能力不强、信噪比低、信息混叠等问题,各种算法增强方案乃至人工智能和大数据峰电位聚类方案应运而生,极大促进了对大脑复杂原理和工作机制的理解。研究首先概述侵入式BCI、神经编解码与峰电位聚类的相关性,接着阐述了各类峰电位聚类算法的原理和一般过程,并探讨了大脑神经信号与具体行为的映射关系与应用,最后展望了未来神经编解码所面临的挑战和发展趋势。
  • 人工智能与模式识别
    刘建敏, 林晖, 汪晓丁
    计算机工程. 2024, 50(7): 144-153. https://doi.org/10.19678/j.issn.1000-3428.0068163
    摘要 (281) PDF全文 (266) HTML (18)   可视化   收藏

    现有的轨迹预测工作大多依赖于高精地图, 但高精地图的采集耗时长、成本高、处理复杂, 难以快速适应智能交通的大面积普及。为解决无地图场景下车辆轨迹预测问题, 提出一种基于多模态数据时空特征的轨迹预测方法。构建多个历史轨迹时空交互图, 交叉使用时间和空间注意力并进行深度融合, 以建模道路上车辆之间的时空关联性。在此基础上, 利用残差网络进行多目标多模态轨迹生成。在真实数据集Argoverse 2上进行模型的训练和测试, 实验结果表明, 相较于CRAT-Pred方法, 该模型在单模态预测方面最小平均位移误差、最小最终位移误差和未命中率指标分别提升了3.86%、3.89%、0.48%, 在多模态预测方面各项指标分别提升了0.78%、0.96%、0.42%。该方法能够有效地捕捉车辆移动轨迹的时间和空间特征, 并可在自动驾驶等相关领域得到有效应用。

  • 开发研究与工程应用
    火久元, 王虹阳, 巨涛, 胡军
    计算机工程. 2024, 50(7): 372-380. https://doi.org/10.19678/j.issn.1000-3428.0068282
    摘要 (263) PDF全文 (73) HTML (3)   可视化   收藏

    为解决人体健康评估方法个性化监测不足的问题以及在满足不同场景下健康状态精细化评估的需求, 需要一种基于多场景的人体健康状态评估方法来实现长期自动化监测。提出一种基于层次分析法(AHP)和熵权法(EWM)组合的多场景人体健康状态评估模型。首先采集人体在运动、休息、工作/学习和娱乐等4种不同场景下的健康监测指标数据, 构建相应的评估指标体系。然后分别根据评估指标计算出AHP和EWM权重, 再采用量子粒子群优化(QPSO)算法对AHP和EWM中的主客观权重进行分配, 以确保评价指标占比的客观性。最后通过模糊综合评价法对人体健康状态进行评估和量化, 并利用实际监测数据对方法的可靠性和稳定性进行验证。实验结果表明, 在4种场景下所提方法的综合得分分别为63.78、59.83、58.71和59.21, 表明在不同场景下该模型都具有较好的准确性和稳定性。根据评估结果, 对测试者的身体状态评价结果进行分析, 并给出一些健康建议。所提模型可全面了解人体在不同场景下的健康状况, 并为人们提供科学的健康指导, 从而为健康管理和疾病预防提供科学依据。

  • 人工智能与模式识别
    张亚洲, 和玉, 戎璐, 王祥凯
    计算机工程. 2024, 50(8): 75-85. https://doi.org/10.19678/j.issn.1000-3428.0067936
    摘要 (261) PDF全文 (441) HTML (14)   可视化   收藏

    抑郁症作为一种常见的心理健康问题,严重影响人们的日常生活甚至是生命安全。鉴于目前的抑郁症检测存在主观性和人工干预等缺点,基于深度学习的自动检测方式成为热门研究方向。对于最易获取的文本模态而言,主要的挑战在于如何建模抑郁文本中的长距离依赖与序列依赖。为解决该问题,提出一种基于上下文知识的增强型Transformer网络模型RoBERTa-BiLSTM,旨在从抑郁文本序列中充分提取和利用上下文特征。结合序列模型与Transformer模型优点,建模单词间上下文交互,为抑郁类别揭示与信息表征提供参考。首先,利用RoBERTa方法将词汇嵌入到语义向量空间;其次,利用双向长短期记忆网络(BiLSTM)模型有效捕获长距离上下文语义;最后,在DAIC-WOZ和EATD-Corpus 2个大规模数据集上进行实证研究。实验结果显示,RoBERTa-BiLSTM模型的准确率分别达到0.74和0.93以上,召回率分别达到0.66和0.56以上,能够准确地检测抑郁症。

  • 智慧教育
    杨兴睿, 马斌, 李森垚, 钟忺
    计算机工程. 2024, 50(7): 32-41. https://doi.org/10.19678/j.issn.1000-3428.0068625
    摘要 (259) PDF全文 (313) HTML (22)   可视化   收藏

    大语言模型在自然语言处理领域蓬勃发展, 但在教育数字化领域应用过程中仍面临一系列重要挑战。针对教育数字化领域垂域数据稀缺、摘要长度不稳定导致信息缺失或冗余的问题, 提出一种用于教育领域文本摘要的轻量化幂等模型框架IGLM。该模型首先采用多源训练进行自适应扩增以提升数据多样性, 然后对下游的文本摘要任务进行多种微调。同时, 为降低文本长度的影响, 设计幂等摘要生成策略拉近初次摘要与幂等摘要来约束模型, 减少语料分布不均导致的偏见, 结合量化技术在低资源条件下生成更为精确和流畅的摘要文本。实验以ROUGE分数为评估指标, 在公开中文文本摘要数据集LCSTS、EDUCATION、NLPCC上进行验证。实验结果表明, 该框架在生成摘要的准确率和流畅性上有明显提升, 其中ROUGE-1/2/L相较基线模型在LCSTS数据集上分别提升7.9、7.4、8.7个百分点, 在EDUCATION数据集上分别提升12.9、15.4、15.7个百分点, 在NLPCC数据集上分别提升12.2、11.7、12.7个百分点, 验证了模型有效性。

  • 图形图像处理
    张天鹏, 韩晶, 吕学强
    计算机工程. 2024, 50(9): 304-312. https://doi.org/10.19678/j.issn.1000-3428.0069039
    摘要 (256) PDF全文 (418) HTML (25)   可视化   收藏

    小目标通常具有低分辨率和模糊不清的特点, 并容易受到遮挡和背景的影响, 导致难以实现准确且实时的小目标检测。为提升检测效果, 提出一种基于多任务学习的超分辨率辅助小目标检测算法Multi-YOLO。首先, 引入一个超分辨率辅助分支引导主干网络提取有效特征, 减少小目标信息丢失; 其次, 采用Anchor based协同监督Anchor free的双检测头训练方法来辅助提升检测准确性, 另外, 在骨干网络尾部使用CTR3模块加强目标信息与位置感知的关联性; 最后, 在推理阶段仅使用检测分支进行推理以保证推理速度。实验结果表明, Multi-YOLO相对于基准网络在VEDAI、COCO MiniTrain和SPCD数据集上均取得了一定的性能提升, 其中在VEDAI数据集上, Multi-YOLO实现了10.9%的平均精度均值(mAP)提升, 且与基准模型大小相近。同时, 与主流的单阶段目标检测网络相比, Multi-YOLO在小目标检测方面表现出色, 并在精度和速度之间取得了平衡。

  • 人工智能与模式识别
    匡鑫, 阳波, 马华, 唐文胜, 肖宏峰, 陈灵
    计算机工程. 2024, 50(10): 119-136. https://doi.org/10.19678/j.issn.1000-3428.0068502
    摘要 (254) PDF全文 (365) HTML (10)   可视化   收藏

    针对蜣螂优化算法(DBO)搜索精度较差、全局搜索能力不足、容易陷入局部最优等问题, 提出一种多策略改进的蜣螂优化算法。选用混沌反向学习策略初始化蜣螂种群, 使得蜣螂个体在解空间内分布均匀, 提升种群多样性; 引入带非线性权重的黄金正弦策略改进滚球行为, 协调算法的全局搜索与局部挖掘能力; 借鉴麻雀搜索算法的加入者位置更新策略改进觅食行为, 促使种群向最优位置靠近, 提高算法收敛速度与收敛精度; 以分段函数形式改进偷窃行为, 利于种群在迭代前期对全局充分探索, 避免算法过早收敛; 采用非线性权重的柯西-高斯变异策略对当前最优位置进行随机扰动, 引导算法跳出局部最优位置。将所提算法与5种优化算法在23个基准函数、12个CEC2022测试函数及2个工程优化问题上进行实验对比, 结果表明, 所提算法至少在21个基准函数、10个CEC2022测试函数及2个工程优化问题上的性能指标优于其他算法, 且排名第1, 相比于原始蜣螂优化算法, 在收敛精度、收敛速度、全局搜索能力以及稳定性上都有较大提升。

  • 热点与综述
    江惠珍, 孙艳春, 黄罡
    计算机工程. 2024, 50(5): 16-25. https://doi.org/10.19678/j.issn.1000-3428.0068655
    摘要 (252) PDF全文 (166) HTML (25)   可视化   收藏
    GitHub是全球最大的在线代码托管平台,为软件开发学习者提供了丰富的学习资源,然而面对丰富而繁杂的GitHub内容,软件开发初学者在使用GitHub的搜索功能搜索所需的学习资源时,由于需求不明确或缺乏相关知识和经验,常会遇到难以构建合适的搜索文本进行有效搜索的问题。针对该问题,利用GitHub主题潜在的层次结构,结合Wikipedia软件开发领域知识,设计GitHub软件开发领域知识图谱,在此基础上提出一种基于知识图谱的GitHub层次化学习和检索服务。通过对比实验和调查问卷的方式验证了提出的层次化学习和检索服务的可行性和有效性。
  • 图形图像处理
    王非凡, 陈希爱, 任卫红, 管宇, 韩志, 唐延东
    计算机工程. 2024, 50(10): 352-361. https://doi.org/10.19678/j.issn.1000-3428.0068407
    摘要 (249) PDF全文 (396) HTML (10)   可视化   收藏

    在低光环境下的检测任务中, 由于低亮度、低对比度以及噪声等不利因素影响, 会存在对目标的漏检、错检等现象。针对此问题, 提出基于图像自适应增强的低照度目标检测算法。将传统图像处理方法与深度学习相结合, 设计图像自适应增强网络, 使用多个可调滤波器通过级联的方式进行结合, 对输入的低光图像进行逐步增强, 各滤波器的调节参数由卷积神经网络根据输入图像的全局信息进行预测。将图像自适应增强网络与YOLOv5目标检测网络相结合进行端到端的联合训练, 使图像增强效果更有利于目标检测。由于在低光目标检测过程中易出现漏检现象, 对通道注意力机制SE-Net进行改进, 设计特征增强网络, 并嵌入到YOLOv5网络中Neck部分的末端, 以减少网络特征融合过程中造成潜在目标特征的信息损失。实验结果表明, 所提算法在真实低光数据集ExDark上的检测精度达到了77.3%, 相较于原始YOLOv5目标检测网络提高了2.1个百分点, 检测速度达到79帧/s, 能够实现实时检测的效果。

  • 图形图像处理
    王昱婷, 刘志明, 万亚平, 朱涛
    计算机工程. 2024, 50(8): 270-281. https://doi.org/10.19678/j.issn.1000-3428.0068186
    摘要 (245) PDF全文 (617) HTML (16)   可视化   收藏

    图像融合是将多个输入图像合并成一个单一图像的技术。可见光红外图像融合能提高目标检测的准确性, 但在低光照场景下往往效果不佳。基于此, 提出一种新的融合模型DAPR-Net。该模型具有跨层残差连接的编解码结构, 将编码器的输出与解码器的对应层的输入相连接, 加强各层卷积层间的信息传递。在编码器中设计了双注意力特征提取模块AFEM, 使得网络能够更好地区分融合图像与输入的可见光和红外图像之间的差异, 同时保留两者的关键信息。在多个公开数据集上与6种先进方法进行对比, 实验结果表明, 与基准PIAFusion模型相比, 该模型在LLVIP和MSRS数据集上的信息熵、空间频率、平均梯度、标准差、视觉保真度指标分别提高了0.849、3.252、7.634、10.38、0.293和2.105、2.23、4.099、27.938、0.343;在YOLOV5目标检测网络上, LLVIP和MSRS数据集的平均精度均值、召回率、精确率、F1值指标分别提高了8.8、1.4、1.9、1.5个百分点和7.5、1.4、8.8、1.2个百分点, 相较于其他融合方法表现出更显著的优势。

  • 人工智能与模式识别
    李子杰, 周菊香, 韩晓瑜, 甘健侯, 鹿泽光, 王俊
    计算机工程. 2024, 50(6): 77-85. https://doi.org/10.19678/j.issn.1000-3428.0067528
    摘要 (243) PDF全文 (1175) HTML (12)   可视化   收藏
    知识追踪是人工智能技术与教育相结合的新兴领域,旨在通过学生过去完成习题的交互序列对学生的知识状态进行评估,是实现大规模个性化学习服务的关键核心技术。随着深度学习在计算机视觉、自然语言处理、推荐系统等领域的广泛应用,知识追踪领域也出现了大量基于神经网络的方法,简称深度知识追踪(DKT)模型。针对目前已有DKT模型在可解释性和准确性方面的不足,提出一种序列特征与学习过程融合的知识追踪模型SLKT,模型包括知识状态模块、序列特征模块、预测模块。知识状态模块用以模拟学生学习过程,序列特征模块捕捉学习者近期学习状况。通过序列特征和学习过程的融合,有效解决了基于知识状态建模方法无法考虑学习者近期学习状况的问题,同时提出一种带约束的动态Q矩阵表示练习和知识点之间的关系,从而更好地进行学习者学习过程建模,在确保较好可解释性的同时有效提升模型的准确性。在3个知识追踪领域公共数据集上的实验结果表明,相比DKT、动态键值记忆网络(DKVMN)、自注意力的知识追踪(SAKT)、卷积知识追踪(CKT)等深度追踪模型,SLKT模型在曲线下面积(AUC)、准确率指标评估中表现较优。
  • 人工智能与模式识别
    吴海鹏, 钱育蓉, 冷洪勇
    计算机工程. 2024, 50(4): 160-167. https://doi.org/10.19678/j.issn.1000-3428.0067700
    摘要 (239) PDF全文 (165) HTML (14)   可视化   收藏
    传统关系抽取方法从纯文本中识别实体对之间的关系,多模态关系抽取方法通过利用多种模态信息辅助关系抽取任务。针对现有多模态关系抽取模型在处理图像数据时存在容易受到冗余信息干扰的问题,提出一种基于双向注意力机制的多模态关系抽取模型。首先,采用来自Transformer的双向编码器表示(BERT)与场景图生成模型分别提取文本语义特征与图像语义特征。然后,利用双向注意力机制建立图像到文本与文本到图像的双向对齐机制,通过这种双向对齐机制实现图像与文本之间的双向信息交互,赋予图像中冗余信息较低的权重以削弱其对文本语义表示的干扰,从而减轻图像中冗余信息对关系抽取结果造成的负面影响。最后,将对齐后的文本特征表示与视觉特征表示相连接形成文本与图像的融合特征,通过多层感知机(MLP)计算所有关系分类的概率分数并输出预测关系。在用于神经关系提取的多模式数据集(MNRE)上的实验结果表明,该模型的精确率、召回率、F1值分别达到65.53%、69.21%与67.32%,相比于基准模型均有明显提升,具有较好的关系抽取效果。
  • 人工智能与模式识别
    陈佳玉, 王元龙, 张虎
    计算机工程. 2024, 50(6): 86-93. https://doi.org/10.19678/j.issn.1000-3428.0068081
    摘要 (237) PDF全文 (307) HTML (11)   可视化   收藏
    预训练语言模型在大规模训练数据和超大规模算力的基础上,能够从非结构化的文本数据中学到大量的知识。针对三元组包含信息有限的问题,提出利用预训练语言模型丰富知识的问题生成方法。首先,利用预训练语言模型中丰富的知识增强三元组信息,设计文本知识生成器,将三元组中的信息转化为子图描述,丰富三元组的语义;然后,使用问题类型预测器预测疑问词,准确定位答案所在的领域,从而生成语义正确的问题,更好地控制问题生成的效果;最后,设计一种受控生成框架对关键实体和疑问词进行约束,保证关键实体和疑问词同时出现在问题中,使生成的问题更加准确。在公开数据集WebQuestion和PathQuestion中验证所提模型的性能。实验结果表明,与现有模型LFKQG相比,所提模型的BLUE-4、METEOR、ROUGE-L指标在WebQuestion数据集上分别提升0.28、0.16、0.22个百分点,在PathQuestion数据集上分别提升0.8、0.39、0.46个百分点。
  • 人工智能与模式识别
    刘娟, 段友祥, 陆誉翕, 张鲁
    计算机工程. 2024, 50(7): 112-122. https://doi.org/10.19678/j.issn.1000-3428.0068020
    摘要 (234) PDF全文 (487) HTML (9)   可视化   收藏

    知识图谱补全是提高知识图谱质量的重要手段, 主要分为基于结构和基于描述的方法。基于结构的补全方法对图谱中常见的长尾实体推理性能表现不佳, 基于描述的补全方法在描述信息利用和负样本信息学习方面存在不足。针对上述问题, 提出基于知识增强的知识图谱补全方法KEKGC。设计一种特定模板, 将三元组及其描述信息通过人工定义的模板转换为连贯的自然语言描述语句输入预训练语言模型, 增强语言模型对三元组结构知识与描述知识的理解能力。在此基础上, 提出一种对比学习框架来提高链接预测任务的效率与准确率, 通过建立记忆库存储实体嵌入向量, 从中选择正负样本并结合InfoNCE损失进行训练。实验结果显示, 相较于MEM-KGC, KEKGC在WN18RR数据集上链接预测任务的平均倒数秩(MRR)提升了5.5, Hits@1、Hits@3、Hits@10指标分别提升了2.8、0.7、4.2个百分点, 三元组分类任务准确率达到94.1%, 表明所提方法具有更高的预测准确率与更好的泛化能力, 尤其对于长尾实体, 能够有效提升图谱补全的效果与效率。

  • 人工智能与模式识别
    宋英华, 徐亚安, 张远进
    计算机工程. 2025, 51(1): 51-59. https://doi.org/10.19678/j.issn.1000-3428.0068372
    摘要 (234) PDF全文 (158) HTML (3)   可视化   收藏

    空气污染是城市环境治理的主要问题之一, 而PM2.5是影响空气质量的重要因素。针对传统时间序列预测模型对PM2.5浓度预测缺少季节性因素分析, 预测精度不够高的问题, 提出一种基于机器学习的季节性差分自回归滑动平均-支持向量机(SARIMA-SVM)融合模型。该融合模型为串联型融合模型, 将数据拆分为线性部分与非线性部分。SARIMA模型在差分自回归滑动平均(ARIMA)模型的基础上增加了季节性因素提取参数, 能有效分析PM2.5浓度数据的季节性规律变化趋势, 较好地预测数据未来的线性变化趋势。结合SVM模型对预测数据的残差序列进行优化, 利用滑动步长预测法确定残差序列的最优预测步长, 通过网格搜索确定最优模型参数, 实现对PM2.5浓度数据的长期预测, 同时提高整体预测精度。通过对武汉市近5年的PM2.5浓度监测数据进行分析, 结果表明该融合模型的预测准确率相较于单一模型有很大提升, 在相同的实验环境下比单一的ARIMA、Auto ARIMA、SARIMA模型分别提升了99%、99%、98%, 稳定性也更好, 为PM2.5浓度预测研究提供了新的思路。

  • 网络空间安全
    卢晓天, 朴春慧, 杨兴雨, 白英杰
    计算机工程. 2024, 50(5): 167-181. https://doi.org/10.19678/j.issn.1000-3428.0067967
    摘要 (233) PDF全文 (258) HTML (31)   可视化   收藏
    在实现隐私保护的同时提高数据可用性是高维结构化数据发布研究中的挑战性问题,经典算法PrivBayes针对该问题提供了一种解决方案。为进一步减少计算开销、提高数据可用性,提出基于贝叶斯网络的差分隐私数据发布算法ELPrivBayes。分析贝叶斯网络结构学习阶段的理论计算开销,构建存储属性之间互信息的相关矩阵,避免结构学习算法迭代过程中互信息的冗余计算,降低了时间复杂度。基于平均互信息优化了节点进入贝叶斯网络的顺序,提高结构学习迭代过程中指数机制贡献的互信息期望值,进而提高生成数据集与原始数据集的统计近似度,并实证分析网络结构质量对首节点选择的低敏感性。在4个典型数据集上的实验结果表明,与经典算法PrivBayes及其改进方案相比较,结构学习阶段的计算开销降低了97%~99%,基于指数机制捕获的互信息提高了14%~67%,生成数据集与原始数据集的平均变差距离降低了32%~40%,构建的支持向量机(SVM)分类器的准确率提高了4%~5%,并且当ε≤0.8时,采用ELPrivBayes算法生成数据的可用性提升更为显著。
  • 图形图像处理
    白雪冰, 车进, 吴金蔓, 陈玉敏
    计算机工程. 2024, 50(8): 229-238. https://doi.org/10.19678/j.issn.1000-3428.0068402
    摘要 (229) PDF全文 (84) HTML (8)   可视化   收藏

    现有图像描述方法只利用区域型视觉特征生成描述语句, 忽略了网格型视觉特征的重要性, 并且均为两阶段方法, 从而影响了图像描述的质量。针对该问题, 提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先, 在特征提取阶段, 利用视觉特征提取器提取出区域型视觉特征和网格型视觉特征; 其次, 在特征融合阶段, 通过视觉特征融合模块对区域型视觉特征和网格型视觉特征进行拼接; 最后, 将所有的视觉特征送入语言生成器中以生成图像描述。该方法各部分均基于Transformer模型实现, 实现了一阶段方法。在MS-COCO数据集上的实验结果表明, 所提方法能够充分利用区域型视觉特征与网格型视觉特征的优势, BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE指标分别达到83.1%、41.5%、30.2%、60.1%、140.3%、23.9%, 优于目前主流的图像描述方法, 能够生成更加准确和丰富的描述语句。

  • 人工智能与模式识别
    更藏措毛, 黄鹤鸣, 杨毅杰
    计算机工程. 2024, 50(6): 138-147. https://doi.org/10.19678/j.issn.1000-3428.0067970
    摘要 (228) PDF全文 (289) HTML (12)   可视化   收藏
    在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,利用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力,从而提高模型的泛化性。实验结果表明,MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNet、U-Net等同类的单通道语音增强模型。在信噪比为0 dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,MSF-CI模型不仅可以提升语音的质量与可理解度,而且具有较优的泛化性。
  • 图形图像处理
    李晶, 李健, 陈海丰, 张倩, 王丽燕, 裴二成
    计算机工程. 2024, 50(5): 241-249. https://doi.org/10.19678/j.issn.1000-3428.0067538
    摘要 (227) PDF全文 (98) HTML (8)   可视化   收藏
    为了解决自然场景下人脸表情识别任务中的无用信息干扰和遮挡对识别性能的影响问题,提出一种基于关键区域遮挡与重建的人脸表情识别模型。利用多尺度特征提取网络,提取人脸图像的全局特征。根据68个人脸关键点划分出68个关键区域,并通过插值法提取68个关键区域的特征,同时采用注意力机制学习关键区域特征之间的先验关系。设计自监督的遮挡与重建模块,对关键区域特征进行随机遮挡,并利用已知区域信息来预测和重建被遮挡区域的特征,从而提高模型在自然场景下的表情识别性能。设计多个实验验证了该模型的泛化能力,并通过消融实验验证了模型中每个模块的有效性。实验结果表明,该模型在真实世界的情感面孔数据集(RAF-DB)和Occlusion-RAF-DB数据集上分别达到了88.44%和86.09%的识别准确率,相比于视觉Transformer(ViT)等模型有效地提升了自然场景下人脸表情识别的性能。