作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2026年, 第52卷, 第6期 刊出日期:2026-06-15
  

  • 全选
    |
    目录
  • 计算机工程. 2026, 52(6): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 前沿观点与综述
  • 赵翔, 黑梦哲, 李家旭, 庞宁, 陈子阳
    计算机工程. 2026, 52(6): 1-16. https://doi.org/10.19678/j.issn.1000-3428.0260356
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    一般认为, 世界模型理解并表示外部世界, 同时根据当前的世界状态和动作预测世界的未来状态。大模型依靠海量的训练数据和庞大的参数规模, 拥有出众的文本知识学习、理解表示和生成能力, 例如语言大模型GPT-4、LLaMA等。近年来, 世界模型研究备受工业界和学术界的关注, 涌现出了一大批包括自动驾驶、社会模拟、具身智能和视频生成的研究和商业成果, 并且研究者将各类大模型的出色成果应用在世界模型上, 使世界模型的效果得到了进一步提升。本文对利用大模型构建的各领域世界模型进行了全面综述, 包括基于语言大模型和基于视觉大模型(VLM), 并且选取了数个重要的应用领域对相关模型进行介绍, 包括具身智能、智慧城市、社会模拟和物理环境模拟。本文首先基于大模型的模态对世界模型进行分类, 指出了基于不同模态的世界模型在功能上的不同; 随后给出了世界模型重要的开源资源和基准, 帮助相关领域的研究人员快速了解和使用世界模型; 最后对文章进行总结, 并对未来研究方向进行展望。

  • 杨国正, 齐冬震, 陈攀, 沈照斌, 尹鹏语, 霍彦霖
    计算机工程. 2026, 52(6): 17-30. https://doi.org/10.19678/j.issn.1000-3428.0252551
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    资源公钥基础设施(RPKI)是保障边界网关协议(BGP)路由安全性的一项重要机制, 通过路由源授权(ROA)和路由源验证(ROV)两项核心功能, 实现对自治系统(AS)发布路由宣告的合法性验证。近年来, 随着RPKI应用的持续拓展, 研究者围绕ROA配置问题与ROV部署测量开展了大量工作, 从不同维度刻画了RPKI在现实网络中的运行状态与防御能力。当前RPKI相关综述集中于对RPKI体系本身研究的阐述, 着重强调RPKI体系的脆弱性, 对于RPKI实际部署中遇到的关键问题及其相关研究并没有进行系统梳理和深入总结。首先, 对近年来RPKI系统部署问题的相关研究进行了系统综述, 重点梳理了ROA配置中常见错误类型, 包括ROA良性冲突以及松散ROA展开系统性分析, 揭示其成因及其对路由安全的影响; 然后, 对现有的ROV部署测量方法进行了综合归纳与对比分析, 同时总结了对ROV验证有效性与路径传播影响的评估方法; 最后, 给出RPKI部署问题研究的未来发展方向, 为后续在RPKI部署优化、安全评估与策略研究等方向提供了理论基础与方法参考, 有利于促进RPKI体系的部署推广, 有效防御BGP前缀劫持。

  • 孙海峰, 姚俊萍, 李晓军, 刘延飞, 辜弘炀
    计算机工程. 2026, 52(6): 31-52. https://doi.org/10.19678/j.issn.1000-3428.0252357
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    短期动作预测作为视频理解领域的重要任务, 旨在通过建模历史动作的时空与语义特征, 将观测到的物理动作转化为对动作意图和目标的推断, 精准预测未来数秒内的交互行为, 在人机协作、安防监控、自动驾驶、增强现实等领域具有广泛应用前景。近年来, 特征提取模型的革新与高质量数据集的构建共同推动了视频理解领域的发展, 并使短期动作预测从知识驱动的机器学习范式转向数据驱动的深度学习范式。系统回顾了该领域在深度学习方法中的最新技术, 以期为相关研究及场景应用分析提供借鉴和参考。首先, 从模型架构创新、训练策略应用与上下文建模方法3个维度构建分类体系, 分析领域内关键技术与挑战, 并对每类方法的特点、适用场景及研究进展进行阐述。然后, 简要归纳任务中常用的数据集并梳理多种方法在主流数据集上的性能对比。最后, 提出当前面临的挑战, 从多视角协同预测、实时模型推理验证、弱监督未裁剪数据学习、小样本类增量泛化研究、动态开放场景自适应、可变时间间隔预测等未来可能的研究方向进行展望。

  • 李学相, 郑永利, 张怡泽, 段鹏松
    计算机工程. 2026, 52(6): 53-67. https://doi.org/10.19678/j.issn.1000-3428.0252301
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着互联网的普及与应用程序的多样化, 海量网络流量的精细化分类成为优化服务质量和分析用户行为模式的关键。对基于机器学习(ML)和基于预训练模型的网络流量分析方法进行概述, 旨在通过多维度对比与分析, 推动该领域研究的进一步发展。首先, 解析了流量分类的完整流程, 涵盖了数据采集、预处理、特征提取过程, 分析了数据平衡技术的实践价值, 同时介绍了主流公共数据集的数据格式、规模及场景适配性等, 从多角度进行对比分析, 指出其存在的数据分布、特征冗余与时效性问题。然后, 不仅在方法层面总结了传统算法在高维数据处理与实时性上的局限性, 还重点通过实验结果对比分析, 总结了流量分析领域应用预训练模型技术的趋势, 包括基于Transformer的预训练模型、与深度学习(DL)的融合模型和轻量化模型在流量分类中的突破性进展。最后, 结合动态研究趋势, 探讨了未来应用预训练模型存在的机遇和挑战, 分析了其在计算成本与隐私保护方面的局限性, 提出了未来的研究方向并对研究前景进行展望。

  • 计算智能与模式识别
  • 郝亮, 苏博何俊, 王京华, 徐勇
    计算机工程. 2026, 52(6): 68-79. https://doi.org/10.19678/j.issn.1000-3428.0253191
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    模型量化技术通过将高精度浮点数映射到低比特离散空间, 能有效降低模型存储与计算开销。如何合理化地考虑参数分布的特点以构建更好的映射方案是模型量化研究的核心。现有后训练量化(PTQ)方案多默认非激活层数据呈对称钟型分布, 却忽略了激活层与输入引入的微小偏置可能导致的分布不对称性, 进而使量化映射偏向一侧, 引入显著近似损失。本文针对图像超分辨率(SR)量化方案进行研究, 对性能获得公认的二阶段PTQ方案进行改进。将预寻找量化上下界过程中的基于最值的均等分配改进为基于排序的非均匀分配, 并在伪量化过程中引入偏置量, 将数据的一部分及均值进行自适应偏移, 缓解数据偏置引发的估计损失。改进后的方案在效果上全面超越原方案, 并同样具有高压缩比以及加速比: 相比原SwinIR-light模型参数量减少60%以上, 超分辨率过程加速3倍以上。

  • 薛寒冰, 倪晨, 李渔迎, 关佳, 方恺, 崔文倩
    计算机工程. 2026, 52(6): 80-95. https://doi.org/10.19678/j.issn.1000-3428.0252914
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    知识图谱(KG)在构建过程中常因异构数据源或信息抽取错误而引入实体冗余, 即多个节点表示同一真实世界实体, 严重影响图谱质量与应用性能。针对单知识图谱内的实体规范化(EC)问题, 本文提出一种两阶段方法。该方法的核心创新在于: 1)提出对比表示引导聚类(CRGC)方法, 结合实体上下文与定义的双视图信息进行对比学习, 并利用最小描述长度(MDL)准则对层次聚类结果进行自适应切割, 避免了人工设定阈值的难题; 2)设计子模冗余最小化(SRM)算法, 将代表实体选择问题建模为带分割拟阵约束的子模覆盖最大化问题, 在保证近似比的同时显式地平衡知识覆盖率(KCR)与冗余度; 3)针对实体规范化任务的特性, 引入类型一致性惩罚与硬负样本挖掘策略, 有效抑制了同形异义实体导致的"过合并"问题。在多个公开及内部数据集上的实验结果表明: 提出的CRGC-SRM方法在聚类质量上相比最强基线平均提升约2.7百分点, 进而将实体冗余率(ERR)平均从29.7%降至7.8%(较原始图谱削减73.7%), 同时保持不低于98%的KCR, 显著改善了图谱质量; 将SPARQL工作负载的平均倒数排名(MRR)提升约15.4%、首位命中率(Hits@1)提升约18.5%、95分位数(P95)查询延迟降低27.7%~35.9%, 有效提升了查询性能。CRGC-SRM方法为解决单图实体规范化问题提供了一套兼具理论保证与工程实用性的高效解决方案。

  • 张悦辰, 葛洪伟, 李婷
    计算机工程. 2026, 52(6): 96-108. https://doi.org/10.19678/j.issn.1000-3428.0070348
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    多视图子空间聚类算法作为多视图聚类算法的一种, 强调在多视图数据中发现潜在的子空间, 从而基于子空间进行聚类。具有分组效应的多视图子空间聚类算法(MvSCGE)是一种多视图子空间聚类算法, 主要思想为通过光滑正则化来学习每个视图的子空间表示, 同时保证跨视图一致性, 并最终学习到一致的聚类指标矩阵, 处理后得出聚类结果。但是, 该算法只考虑到单个视图的局部结构, 仍存在一定局限性。为进一步挖掘视图间的多样性, 提出一种具有分组效应的多样性诱导多视图子空间聚类算法(DiMvSCGE)。该算法在保留每个视图局部结构的同时, 利用希尔伯特-施密特独立准则(HSIC)来衡量视图间的多样性, 并在此基础上使用交替方向最小化进行迭代, 在迭代后获得的聚类指标矩阵基础上, 进行k均值聚类, 得到最终的结果。在4个公共数据集上与几种先进算法的对比实验证明, 该算法拥有参数敏感度低、收敛速度快等优势, 且在不同数据集上都表现出了良好的性能。

  • 蒋欣怡, 陈兰岚, 郑时蓬
    计算机工程. 2026, 52(6): 109-120. https://doi.org/10.19678/j.issn.1000-3428.0070039
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    无监督迁移学习在基于生理信号的跨个体脑力负荷识别研究中已得到广泛运用, 但模型性能受限于目标域数据缺乏标注。针对该问题, 提出一种将迁移学习与主动学习相结合的跨个体脑力负荷识别方法。以脑电为研究对象, 首先通过计算源域与目标域间的最大均值差异优选出与目标域分布最接近的源域集合; 其次对优选源域与目标域逐个构建一对一跨个体脑力负荷识别模型, 通过对抗迁移网络拉近两域特征分布后, 采用基于不确定性加权聚类的主动学习挑选并标注少量兼具不确定性和多样性的目标域样本, 这些样本将参与后续模型分类层训练; 最后利用集成学习综合多个单源域模型识别结果。在公开数据集WAUC上的实验结果表明, 源域优选可降低负迁移发生率并节约计算成本, 引入主动学习提升了跨个体迁移学习的性能, 相较于无监督迁移学习, 在不同体力负荷水平下的脑力负荷识别任务中平均识别准确率提高了14.7%;集成学习克服了单源域模型所学知识有限的问题, 进一步提升了模型的识别性能, 最终达到了86.1%的平均识别效果。

  • 刘玉杰, 杜忠昊, 李泫廷, 李宗民
    计算机工程. 2026, 52(6): 121-131. https://doi.org/10.19678/j.issn.1000-3428.0070597
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在半监督医学图像分割领域, Mean Teacher是一个备受关注并且被广泛使用的框架之一。现有基于Mean Teacher的方法在训练时, 学生网络对教师网络的监督不做选择地接受, 即使教师网络性能比学生网络差, 学生网络依然受教师网络监督, 从而导致了错误累积。此外, 这些方法都使用固定的伪标签阈值从教师网络的预测值中寻找正确信息, 这样虽然过滤了大部分错误信息, 但也筛去了许多正确信息, 这极大限制了伪标签的可用性。针对以上问题, 提出一种基于选择监督和动态阈值的半监督医学图像分割模型SSDT。该模型使得学生网络可以选择何时接受教师网络的监督, 避免了教师网络在性能不足时依然监督学生网络, 并且通过新设计的动态阈值模块, 使网络可以选择适合当前训练阶段的伪标签阈值, 更大限度地保留教师网络输出中的正确信息。在使用20%标注数据的左心房分割(LA)数据集和自动心脏诊断挑战(ACDC)数据集上, SSDT的Dice系数分别达到了90.94%和89.93%。在4个医学图像数据集上的大量实验结果表明, 与几种最先进的方法相比, SSDT具有优越的分割性能。

  • 余正涛, 孙资钦, 张勇丙, 高盛祥, 黄于欣, 谭凯文
    计算机工程. 2026, 52(6): 132-140. https://doi.org/10.19678/j.issn.1000-3428.0070193
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    序列推荐利用用户历史序列行为建模用户兴趣并进行内容推荐, 常被用于新闻、广告和电子商务等领域。基于对比学习的自监督序列推荐是当前研究热点, 然而, 真实的序列数据具有动态不确定, 且对比学习中存在采样偏移问题, 限制了推荐的性能。为了缓解这些问题, 提出基于随机自注意力和动量对比学习的自监督序列推荐方法, 其中随机自注意力用于缓解序列动态不确定问题, 动量对比学习用于缓解对比学习中存在采样偏移问题。为验证模型性能, 在Beauty、Office、Yelp和Toys 4个常用数据集上的实验结果表明, 该方法在HR@K、NDCG@K等多个指标上均优于其他基线模型, 展示了该方法在准确性和鲁棒性方面的显著提升。

  • 计算机视觉与图形图像处理
  • 唐小双, 王慧青, 余厚云
    计算机工程. 2026, 52(6): 141-148. https://doi.org/10.19678/j.issn.1000-3428.0070471
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对反光金属表面缺陷检测时遇到的缺陷信息难以捕获和处理的问题, 提出一种基于多尺度变换和图像增强的偏振图像融合方法。借助偏振成像技术抑制反光, 利用偏振相机采集到包含偏振信息的图像。从子块划分和平滑映射表两方面改进限制对比度自适应直方图均衡化(CLAHE)算法, 显著增强偏振度、偏振角及可见光图像的对比度。采用拉普拉斯金字塔(LP)分解图像, 对划痕、凹坑等所在的高频层图像进行双边滤波和拉普拉斯锐化, 增强高频细节。在图像融合阶段, 提出基于亮度自适应权重的融合策略, 根据各图像的亮度分布特征动态调整融合权重, 从而确保融合后的图像不会因亮度差异而模糊缺陷特征。重构融合后的图像金字塔, 得到融合图像。以洗衣机前封门为实验对象进行实验, 结果表明, 与其他图像融合方法相比, 所提方法在信息熵(IE)、峰值信噪比(PSNR)、平均梯度(AG)等客观评价指标上评估性能更高, 尤其在PSNR、结构相似性指数(SSIM)上取得了最高的65.304 3 dB、0.472 7。融合后图像具有较高的信噪比(SNR)和对比度, 能够突出反光金属表面的缺陷特征。

  • 李亦然, 聂宏宾, 杨紫骞, 卞春江
    计算机工程. 2026, 52(6): 149-159. https://doi.org/10.19678/j.issn.1000-3428.0070576
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在密集星场下的空间目标与背景特征高度相似, 检测中容易导致大量虚警的产生。此外, 空间目标在远距离探测条件下往往呈现暗弱特征, 且在运动过程中会受到高亮恒星遮挡, 造成检测困难、漏检率高。针对以上问题, 提出一种基于YOLOv8框架的大核深度不同层级可分离卷积, 结合灰度及连通域判别精细化目标分割的密集恒星背景暗弱空间目标检测模型FRR-YOLOv8。首先, 使用C2f卷积层替代原YOLOv8网络SPPF(Spatial Pyramid Pooling Fast)模块的普通卷积层, 通过将不同层级的特征图进行卷积, 使模型可以获得更多的上下文信息, 促进对小物体、低信噪比(SNR)目标的检测, 解决目标因暗弱特征导致的漏检率高的问题; 其次, 使用RTMdet(Real-Time Models for object detection)结构作为YOLOv8网络的头部网络(Head)部分, 通过在模型结构的基本单元引入大核深度可分离卷积增大感受野, 并平衡不同分辨率层级间计算量、参数量, 增加基本构建单元的特征提取能力, 并在该模块结合灰度及连通域判定将目标区域由整体框选精细定位至个体邻域, 解决因背景恒星密集带来的检测干扰。改进算法在仿真图像数据集和真实图像数据集上均进行了实验, 在SNR范围为0.5 dB~1 dB的图像数据集上, 均值平均精度(mAP@0.5)可达到94.6%, 相较于原始的YOLOv8模型提高了10.8百分点, 证明FRR-YOLOv8模型对暗弱空间目标检测的有效性。

  • 姜有泽, 刘向阳
    计算机工程. 2026, 52(6): 160-169. https://doi.org/10.19678/j.issn.1000-3428.0070443
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对相同地理空间、不同时相的高分辨率遥感图像之间受季节性变化、气候、光照等干扰因素影响的问题, 提出一种基于多时相ChangeFormer的遥感图像建筑物变化检测(CD)方法。该方法使用多个不同时相的遥感图像, 将最新时相遥感图像与变化前的多个遥感图像在特征差异提取上进行不同尺度下的融合, 分别关注图像的综合语义特征以及图像之间语义信息的细节。该方法有助于减少季节、光照等因素发生变化时引起的误检。同时, 考虑变化前多个不同时相的遥感图像, 将其特征差异进行融合并引入正则化项作为损失函数, 进一步消除非建筑物变化以及建筑物非变化区域光照阴影带来的干扰, 提高模型的泛化能力。构建从农业土地耕地到建筑用地变化的三时相遥感图像数据集, 实验结果表明, 相较于目前最优的BIT方法, 多时相ChangeFormer方法在F1值、交并比(IoU)、精确率和召回率指标上分别提升了9.04%、9.87%、15.27%和3.4%, 显著提高了检测精度, 且在细节信息处理方面明显优于经典的CD方法。

  • 谭台哲, 龚智远, 杨卓
    计算机工程. 2026, 52(6): 170-178. https://doi.org/10.19678/j.issn.1000-3428.0070697
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    基于多张不同曝光度的低动态范围(LDR)图像来重建高动态范围(HDR)图像, 是一项具有挑战性的任务, 尤其在相机和物体运动的情况下, 运动区域常常会产生伪影, 从而影响最终的重建图像质量。导致这一问题的根本原因在于多张LDR图像在内容上不对齐, 图像之间的几何差异会显著影响重建效果。为了解决该问题, 提出一种基于特征预对齐的HDR图像重建网络, 旨在通过特征的预对齐来提高HDR重建的效果。该网络由特征预对齐和HDR重建2个主要部分组成: 在特征预对齐部分, 设计一个特征预对齐网络(FPAN), 该网络能够引导输入图像的特征与参考图像对齐, 从而减少由运动引起的伪影; 在HDR重建部分, 通过选择性状态空间模型来对预对齐后的特征进行全局上下文的建模, 并通过简化的HDR恢复网络生成最终的HDR图像。为了评估所提网络的性能, 在2个数据集上进行广泛的实验, 结果显示, 该网络在多个客观评估指标上优于对比方法, 在主观视觉上也呈现出良好的效果, 且具有一定的泛化能力。

  • 胡康源, 郭涛, 穆楠
    计算机工程. 2026, 52(6): 179-188. https://doi.org/10.19678/j.issn.1000-3428.0070181
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    卷积网络在文物修复中由于卷积核的局部感受野对于全局上下文和复杂结构的理解较弱, 又因卷积操作的平移不变性对文物表面复杂的几何形态处理不充分, 在进行文物图像修复时容易出现无关结构和伪影等问题。具有自注意力机制的Transformer模型在处理文物图像的细节和局部特征时, 对特定区域的细节关注不足, 难以获取足够的深层特征, 从而影响修复的精度和细腻度, 对图像的远距离语义获取不充分, 导致修复图像的直观视觉性不足。提出了一种基于SwinTransformer的文物图像修复模型DMSWT。该模型通过对网络中的自注意力模块进行多项改进以优化网络结构。首先删除层归一化, 且用残差连接替换全连接层, 提高网络的深层特征提取能力; 其次引入动态掩膜机制, 缓解修复大规模缺失图像时默认采样造成的有效像素减少的问题; 最后改进损失函数, 注重直观性感受, 提高修复图像的直观视觉性。在不同场景下修复的实验结果表明, DMSWT模型能够学习到更多的结构先验信息, 并生成符合现实直觉的修复图像, 且在定量评估下指标有明显提高。

  • 网络空间安全
  • 陈中, 李晓风, 赵赫, 张凌浩
    计算机工程. 2026, 52(6): 189-201. https://doi.org/10.19678/j.issn.1000-3428.0070289
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    去中心化存储具有高可用性和强扩展性, 但由于数据分散存储在多个节点上, 存在数据存取速度慢、操作复杂等问题, 用户体验相比中心化存储较差。为此, 利用数据可用性采样技术, 在保持方法去中心化特性的同时, 融合中心化存储的优势。在数据可用性采样技术中, 多个节点从单个数据拥有者处获取随机选取的规模较小的数据子集, 其常与纠删码结合使用来提高数据可用性。基于数据可用性采样技术, 引入去中心化的存储提供者, 以单对单的形式为用户提供服务, 同时利用数据保障者来监督存储提供者并为用户数据提供保障。设计一套较为完备的存储方法, 来实现高可用的数据存储, 并利用区块链与智能合约来增强其去中心化程度。通过支持再质押模式, 并采用低计算资源消耗的存储证明算法, 来提高节点的加入意愿。为解决较大的数据规模与数据保障者有限的带宽资源之间的矛盾, 提出延迟确认机制。实验与分析结果表明, 在该方法下, 恶意节点共谋概率仅为2.43×10-3, 数据可用性采样结果不可信的概率仅为2.93×10-4, 在300万次模拟实验中发生数据不可用的次数为0, 中心化节点数为0, 为1 MiB大小的文件生成存储证明仅需3.51 ms。该方法在提高用户友好性和节点友好性的同时, 实现了高可用的数据存储, 为优化去中心化存储提供了可行的技术路径。

  • 罗恒, 万良
    计算机工程. 2026, 52(6): 202-213. https://doi.org/10.19678/j.issn.1000-3428.0070520
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    网络攻击形式日益多样化, 传统的入侵检测方法在捕捉复杂网络流量中的时空特征方面存在一定局限性。大多数传统方法主要依赖于静态特征分析, 难以适应动态网络环境下的多变入侵行为。同时, 现有的深度学习方法在分析网络流量时, 往往忽视了网络节点间的拓扑结构以及流量的时间动态变化。因此, 提出一种基于动态时空图神经网络(GNN)的入侵检测方法DSTG-IDS。通过时间窗口对网络流量进行分段, 将每个时间段内的数据包建模为图中的节点, 并基于源IP和目标IP的关系建立连接, 构建出时序上的动态图序列。为了更好地捕捉流量的时序特征, 对图数据进行时间位置编码, 以增强不同时间段内节点的时序信息表达能力。在模型设计上, 首先利用图卷积网络(GCN)提取网络流量的空间特征, 并结合图注意力网络(GAT)提升对关键节点信息的关注能力; 其次, 通过双向门控循环单元(Bidirectional GRU)对流量的时间序列进行建模, 有效捕捉数据随时间变化的动态特征; 最后, 利用多头注意力机制融合时空特征并进行分类。在BoT-IoT、ToN-IoT和NF-CSE-CIC-IDS2018这3个广泛使用的数据集上进行实验, 结果表明, 在多分类实验中, DSTG-IDS的准确率分别达到了99.69%、98.61%和93.26%, 相较其他入侵检测方法, DSTG-IDS在准确率、召回率、误报率(FAR)、F1值等指标上均具有明显优势。

  • 杨兴宇, 周骅, 田有亮, 杨科迪
    计算机工程. 2026, 52(6): 214-225. https://doi.org/10.19678/j.issn.1000-3428.0070342
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着元宇宙技术的快速应用, 虚拟空间中的身份安全与信任机制面临严峻挑战。针对元宇宙环境高并发、低延迟的交互特性, 以及在保护用户隐私的同时需实现恶意行为监管, 提出一种基于软硬协同技术和签密算法的元宇宙身份安全认证方案。首先, 在协议设计上, 设计一种结合设备硬件指纹与国密算法的可追溯身份认证协议, 该协议在保障用户匿名性的同时, 实现了身份的分布式认证与追踪; 其次, 在系统实现上, 因复杂密码运算导致的计算瓶颈, 构建了基于现场可编程门阵列(FPGA)的软硬协同计算平台。利用FPGA的并行处理优势, 对签密算法中的核心模乘与点乘运算进行硬件加速, 有效卸载了中央处理器(CPU)的计算压力, 显著提高了签密效率; 最后, 通过构建身份认证协议验证平台对方案进行全面评估。实验结果表明, 该方案兼具高安全性与高效率, 相较于传统CPU软件, 经FPGA硬件加速后的签密计算性能提升了13.6倍, 能有效解决元宇宙认证中效率与安全难以兼顾的问题, 为构建可信的元宇宙生态提供了关键技术支撑。

  • 高嘉玥, 刘西林, 孙静宇
    计算机工程. 2026, 52(6): 226-237. https://doi.org/10.19678/j.issn.1000-3428.0070328
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有彩色图像水印算法存在各通道间彼此独立、忽视了通道间的内在关联问题。为了实现在彩色图像中嵌入鲁棒可逆水印, 提出一种基于三元数指数傅里叶矩(TEFM)的彩色图像鲁棒可逆水印算法。首先, 结合三元数理论与指数傅里叶矩构造了TEFM变换; 然后, 利用两阶段鲁棒可逆水印算法在TEFM域嵌入水印信息。第一阶段通过量化索引调制(QIM)方法, 对标准化后的TEFM变换系数进行修改来嵌入水印; 第二阶段通过预测误差扩展的方法将嵌入鲁棒水印引起的失真作为补偿信息可逆地嵌入到鲁棒水印图像中。实验结果表明, 所提算法在最终水印图像中的平均峰值信噪比(PSNR)在44 dB以上, 并且在未受攻击下可以无损恢复原始图像, 与现有算法相比, 在对图像进行中值滤波、均值滤波、椒盐噪声等常规攻击下的误码率(BER)有不同程度的降低, 其中在受到中值滤波3×3的攻击下, 比其他三种先进方法的平均BER分别降低了16.7%、7.6%、6.8%。因此, 所提的水印算法具有不可见性、高容量、可逆性和较高的鲁棒性。

  • 向海昀, 周垚, 陈曦
    计算机工程. 2026, 52(6): 238-248. https://doi.org/10.19678/j.issn.1000-3428.0070322
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    对抗样本的研究能够促进防御方法的创新, 查漏补缺, 进而提高模型的鲁棒性。现有的目标检测对抗攻击方法的研究大多存在黑盒迁移能力不强、生成的对抗样本泛化能力不足的问题。为解决上述问题, 提出了一种提升对抗样本的迁移性和抑制目标检测器正确分类的算法GM-DEC。首先, 将GridMask数据增强方法引入基于梯度迭代的对抗样本生成过程中, 从而获得更加泛化的梯度信息, 有助于增强攻击的鲁棒性, 避免陷入局部最优和生成的对抗样本过度拟合白盒模型的情况; 其次, 为进一步增强对抗样本的迁移性, 设计一种基于注意力的关注区域抑制损失函数, 通过抑制注意力热图的大小, 使得模型关注其他非目标区域, 从而做出错误的预测; 最后, 在迭代更新的过程中引入动量迭代快速梯度符号方法(MI-FGSM)中的动量项, 累积速度矢量, 从而稳定更新方向, 实现更快收敛。在Pascal VOC2007数据集上的实验结果表明, 所提算法能够有效攻击Faster R-CNN、YOLO、SSD等目标检测器, 与目前针对目标检测的攻击算法相比黑盒攻击成功率约提升10~30百分点, 拥有较好的迁移性。

  • 曹天涯, 张宇帆, 贾俊杰
    计算机工程. 2026, 52(6): 249-257. https://doi.org/10.19678/j.issn.1000-3428.0070294
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    联邦学习在模型聚合过程中存在隐私泄露风险, 以及客户端数据质量不平衡问题, 导致聚合后的模型对各个客户端不公平和服务器端数据聚合不完整, 进而客户端数据可用性低。为此, 提出一种有效提高数据可用性的联邦学习隐私保护算法。该算法首先对客户端的模型参数采用可消除的随机掩码扰动技术, 避免在数据上传服务器过程中出现隐私泄露风险, 同时也不会影响模型的聚合效果; 考虑到各个客户端数据质量的不平衡问题, 在服务器端进行数据聚合时, 动态地调整各个客户端的权重以提高数据可用性。此外, 采用Shamir(t, n)门限秘密共享方法对上传的模型参数进行分发与重构, 防止因网络延迟或者客户端数据上传不成功导致数据聚合结果不完整, 使得客户端的数据可用性下降。在MNIST和CIFAR-10数据集上的实验结果表明, 该算法在保证模型准确率的前提下, 不仅可以防止客户端隐私泄露, 降低算法的时间开销, 而且有效提高了数据可用性, 在实现隐私保护的同时提高了模型性能。

  • 多模态与信息融合
  • 王永旗, 王雷
    计算机工程. 2026, 52(6): 258-267. https://doi.org/10.19678/j.issn.1000-3428.0070508
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    多模态情感识别旨在通过融合不同模态(如文本、音频、视频)的信息, 提高情感识别的准确性和鲁棒性。然而, 现有方法在处理模态间的差异性和互补性、时间序列信息的动态特征捕捉方面仍存在不足, 导致情感识别效果不佳。为了解决这些问题, 提出一种基于跨模态增强与时间步门控机制的多模态情感识别模型。首先, 该模型通过跨模态交叉注意力机制学习不同模态之间的关联性, 增强各模态特征的互补性。通过跨模态的相互作用, 模型能够更好地整合来自文本、音频和视频模态的信息, 并减少单一模态在情感表达中的不足。随后, 利用时间步门控机制对每个时间步的特征权重进行动态调整, 从而聚焦于情感信息较为关键的时间步, 提升模型的时间序列建模能力。最后, 融合后的特征被输入分类器进行情感预测。在公开的CMU-MOSEI和CMU-MOSI多模态情感识别数据集上进行实验评估, 实验结果表明, 所提模型的情感识别准确率分别达到82.41%和82.60%, 相较于ALMT和TETFN等当前主流模型, 均有显著提升。这证明了跨模态增强与时间步门控机制有效提高了模型的多模态特征融合和时间序列处理能力, 验证了该方法在多模态情感识别任务中的有效性与鲁棒性。

  • 陈俊, 吴晓红, 陈洪刚, 何小海
    计算机工程. 2026, 52(6): 268-277. https://doi.org/10.19678/j.issn.1000-3428.0070013
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    医学视觉问答(Med-VQA)旨在根据给定的医学图像和相关问题预测准确答案。这项任务需要同时提取问题特征与医学图像特征, 并对2种特征进行融合, 得到最终答案。现有Med-VQA方法主要关注整体特征上的提取与交互, 无法有效捕获问题与图像关键区域之间的相关性, 缺乏对细粒度图像信息的理解能力。针对该问题, 提出一种基于语境感知和多层次特征融合的医学视觉问答模型CAMF, 充分关注细粒度图像特征并进行多层次特征交互。该模型首先通过2种引导注意力(GA)增强文本特征和图像特征, 然后利用语境感知模块捕获关键的细粒度图像特征, 最后通过多层次特征融合实现3种特征的相互促进, 获取更有效的特征进行答案预测。实验结果表明, 该模型在VQA-RAD数据集上的整体准确率比同类型的基线模型高出1.5百分点, 在SLAKE数据集上的整体准确率比同类型的基线模型高出0.4百分点, 且在两个数据集上均取得了与医学领域的预训练方法相当的水平, 同时通过特征图可视化结果可以看出, 该模型能够有效关注图像中的关键区域, 充分利用图像信息获取答案。

  • 于梦源, 刘向阳
    计算机工程. 2026, 52(6): 278-287. https://doi.org/10.19678/j.issn.1000-3428.0070436
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    单一模态图像在全天候的船舶检测中易受光照、天气等环境影响, 导致船舶检测精度低、漏检率高。为此, 提出了一种融合可见光与红外图像信息的船舶检测方法VIF-RTDETR。该方法根据可见光图像丰富的细节和颜色信息以及红外图像在低光照环境下的稳定表现, 构建了四通道输入模型; 设计可见光与红外图像信息的融合模块VIF, 实现了不同模态信息的互补融合, 使得在检测网络中更加合理利用两种模态的信息; 在主干Backbone特征提取网络中结合通道注意力, 为通道动态分配不同的权重, 以增强通道的特征表达能力来进一步优化特征提取能力。此外, 为进一步提升船舶检测中船舶小目标的检测性能, 设计了一种加权的边界框损失函数, 使模型能够有效地关注不同尺寸目标的特征表达, 提高模型在不同目标尺寸下的检测精度。实验结果表明, 在船舶可见光和红外数据集上, 该模型的检测精度AP0.5∶0.95、AP0.5分别达到了78.3%、98.5%, 相对于单一模态的可见光和红外模型的AP0.5∶0.95分别提升了4.7、9.2百分点; 召回率AR0.5∶0.95达到了85.2%, 相对于单一模态模型分别提升了3.1、7.3百分点, 显著提高船舶的检测精度且降低漏检情况。

  • 崔爽锌, 卢搏, 张明月, 赵一汎, 王子铭, 刘新宇, 陈程立诏
    计算机工程. 2026, 52(6): 288-295. https://doi.org/10.19678/j.issn.1000-3428.0070600
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    尽管现有的360°图像质量评估方法在设计启发式评估模型方面取得了许多进展, 但由于未充分考虑人类观看360°图像的特性, 因此评估结果与人类主观感知的质量仍存在显著差异。针对现有方法的不足, 提出一种结合图像质量与美学特征的全景图像质量评估方法, 旨在从更符合人类感知的角度对图像进行全面评估, 并准确反映全景图像的整体质量。该方法包括两个主要阶段: 首先, 通过多模态大语言模型解析图像数据集, 生成包含图像质量和美学特征的文本描述, 从而构建图像-文本对数据集, 这一过程将图像质量与美学评估两个独立任务结合, 有助于模型对图像进行更加全面的理解; 其次, 设计了一个双流架构的多模态质量感知模型, 有效融合文本特征与图像特征, 深入挖掘图像中的多模态信息。在传统L2范式损失函数的基础上, 加入了Triplet Loss, 以更好地反映样本之间的主观质量差异。在基准数据集CVIQD和OIQA上, 该方法在斯皮尔曼等级相关系数(SRCC)、皮尔逊线性相关系数(PLCC)和均方根误差(RMSE)指标上均展现出较优的图像质量评估性能, 优于其他现有的最优方法。

  • 交叉融合与工程应用
  • 刘子齐, 文飞, 张大力, 郝爽
    计算机工程. 2026, 52(6): 296-306. https://doi.org/10.19678/j.issn.1000-3428.0069772
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为保证包括公共卫生事件在内的灾后物资供应, 合理制定预防性的物资仓储选址和仓储网络中的物资分布策略至关重要。面向灾后需求分布不确定情境, 研究一类多种类应急物资仓储分布模型。基于有限历史样本数据, 制定一个包含关于灾前随机因素部分信息的模糊集合, 构建两阶段物资仓储调度规划的分布鲁棒优化模型, 以最小化模糊集合中定义的所有分布下的成本期望值为优化目标。模型包括仓储网络规划和物资调度分配的两阶段协同优化, 阶段一针对需求分布不确定的预防性仓库选址与物资预储备问题, 阶段二对仓储网络中的应急物资调度分配进行规划。针对模型求解, 通过应用一类对偶方法将非线性分布鲁棒优化转化为线性优化, 并设计一类拉格朗日L形方法(LLSM)对两阶段模型进行求解。通过构造算例集合对模型和算法的鲁棒性进行验证, 并分析仓储网络选址和物资分布决策对不同级别灾害后物资缺口的敏感性。

  • 向以龙, 倪南, 邹越超, 袁同, 李博涵, 王铁鑫
    计算机工程. 2026, 52(6): 307-313. https://doi.org/10.19678/j.issn.1000-3428.0070141
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    桥梁作为重要的交通基础设施, 质量是其建造及使用的重中之重。沉井作为基础结构, 在桥梁建造中被广泛应用。在沉井建造过程中, 实时准确的下沉姿态预测有助于降低事故风险, 提高工程质量。常用的统计模型和机器学习模型等预测方法, 难以应对时序数据的非线性时空特征, 如结构应力、沉井下沉姿态等, 导致预测结果不准确。深度学习模型可以捕获数据时空特征, 已广泛应用于时序数据预测, 但尚未被应用于沉井下沉姿态预测等相关任务。因此, 提出基于图神经网络(GNN)的多指标预测模型(MiPM)。MiPM通过自注意力机制以及门控循环单元(GRU)动态建立时序数据序列间的图邻接矩阵, 并结合卷积神经网络提取时序数据的时间特征和空间特征。通过交错的网络结构融合时空特征, 映射预测结果。为验证MiPM的有效性, 以一个真实的桥梁沉井建造工程为实证研究案例。实验结果表明, 对比13个基线模型, MiPM在均方根误差指标上至少降低5.6%, 具有更好的预测结果表现。

  • 周丽君, 张俊然, 王开元, 向军莲
    计算机工程. 2026, 52(6): 314-325. https://doi.org/10.19678/j.issn.1000-3428.0070144
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    通过对电子病历中的用药数据和患者临床体征进行深度挖掘, 利用深度学习模型预测药物组合, 以期提高临床疾病诊疗过程中用药推荐的准确性和安全性。提出一种融合患者临床体征的图增强注意力药物推荐模型, 首先融入患者临床体征来丰富患者特征表示, 并利用图神经网络(GNN)获取组合用药和药物相互作用(DDI)知识, 通过两阶段注意力模块获取融合了患者历史用药信息和DDI知识的全新患者表示, 最后以多标签学习方式进行药物推荐。在MIMIC-Ⅲ公开数据集上进行实验验证, 此模型Jaccard相似度、精确率-召回率曲线下面积(PR-AUC)、F1值及DDI率分别达到0.517 2、0.766 1、0.673 1、0.070 3, 相较于最近的主流药物推荐模型, 其DDI率降低了0.004 7以上, Jaccard相似度、PR-AUC、F1值分别提升了0.004 5、0.006 1和0.012 1以上; 为了进一步验证此模型的性能, 在真实世界数据集上也做了对比实验, 结果表明此模型Jaccard相似度、PR-AUC、F1值及DDI率分别达到0.450 2、0.702 3、0.612 8、0.085 7, 均优于最近的主流药物推荐模型。以上实验结果表明此模型具有较好的性能和临床适用性, 对辅助医生制定更加科学有效的用药方案具有重要的现实意义。

  • 沈明辉, 刘宇杰, 陈婧, 叶康祈, 高赫远, 刘建, 姜烨, 殷文斐, 王恺豪, 刘振宇
    计算机工程. 2026, 52(6): 326-338. https://doi.org/10.19678/j.issn.1000-3428.0070196
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    印刷电路板组件(PCBA)的缺陷检测对于提高流水线生产效率具有重要影响, 而在PCBA之后的检查通常由人工完成, 容易造成人力与时间的浪费和出现漏检与误检的情况。为此, 提出一种轻量化的YOLOv8s改进算法, 该算法在有效降低模型复杂度的同时可以提高PCBA缺陷的检测精度。首先, 由于没有公开的PCBA相关数据集, 因此构建一个名为PCBA-DET的组装后PCBA缺陷检测数据集, 并对PCBA-DET进行多种方式的数据增强以模拟实际生产场景和改善数据集的平衡性。其次, 将YOLOv8s的骨干网络最后一个C2f模块替换成重参数化大核卷积网络(RepLKNet)以减少计算开销和提高模型的有效感受野, YOLOv8s的颈部网络引入P2小目标检测层和幽灵卷积以捕捉更多的细节信息, 有效降低模型参数量。实验结果表明, 在数据增强后的PCBA-DET数据集上进行评估, 均值平均精度(mAP)@0.5∶0.95和mAP@0.5与基准模型相比分别上升了2.6和0.1百分点, 但参数量和基线模型相比下降了36.8%。

  • 谭梓鸿, 潘安, 童晶, 刘耀辉, 韦剑
    计算机工程. 2026, 52(6): 339-351. https://doi.org/10.19678/j.issn.1000-3428.0070087
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    对于接受过剖宫产的女性, 在其后续妊娠中, 孕囊有着床在手术切口处的风险, 极易导致宫体破裂和大出血等并发症, 危及患者的生育功能乃至生命安全。子宫动脉栓塞术是目前治疗此类疾病的首选方案, 但该栓塞手术的操作严重依赖医生的专业经验, 且难以根据患者的个体差异设定不同的组合配比。为此, 提出一种实现子宫动脉栓塞模拟的方案。首先, 提出一种面向子宫动脉血管的语义分割算法, 通过引入双分支编码结构和特征聚焦融合模型, 提高神经网络对全局特征的利用, 实现对子宫动脉血管CT图像的语义分割。其次, 采用细化和追踪相结合的中心线提取方法, 基于中心线重建血管三维模型。最后, 采用计算流体力学与离散元耦合的数值模拟方法, 实现子宫动脉栓塞过程的模拟。实验结果表明, 语义分割算法有效地提高了子宫动脉血管CT图像的分割精度。基于中心线提取的血管三维模型重建方案, 保留了血管真实结构, 同时避免了繁琐的后处理操作。面向子宫动脉血管的栓塞数值模拟, 直观展示了栓塞形成过程, 同时为医生制定手术方案提供参考。

  • 代尹翘, 肖武龙, 李柏林, 李立
    计算机工程. 2026, 52(6): 352-364. https://doi.org/10.19678/j.issn.1000-3428.0069727
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    精确的作物行检测作为智能化农业的一项重要技术, 对于无人收获装置的导航和采摘具有重要意义。对莴笋生长过程中歪斜、移位和倒伏等因素导致作物行提取不准确的问题, 将其转化为莴笋芯部区域的目标检测问题, 提出一种以成熟期莴笋芯部为目标的目标检测算法。该算法基于广泛采用的目标检测框架YOLOv5s, 通过在主干网络中嵌入动态卷积模块, 以动态感知的方式过滤特征图中的背景干扰, 在局部区域保留重要细节特征, 从而增强网络对莴笋芯部特征的学习能力。同时, 在网络的特征金字塔网络(FPN)结构中引入基于空洞卷积和权值共享的多尺度融合模块, 确保网络经过多次下采样后能够有效保留目标结构信息, 有利于对莴笋芯部这类小目标的检测。此外, 引入CARAFE上采样操作充分利用特征提取过程中的上下文信息, 增强网络对小目标特征的提取能力。进一步, 基于Wasserstein距离和SIoU提出一种新的损失函数, 解决了传统IoU方法对小目标位置敏感的问题, 并加快了网络拟合速度。实验结果表明, 改进算法对莴笋芯部提取的平均精确度和召回率分别达到了0.586和0.574, 较于YOLOv5s提高了6.1和6.3百分点。网络检测出莴笋芯部坐标信息后, 采用最小二乘法将坐标点进行直线拟合, 得到莴笋作物行中心线。该算法使原始YOLOv5s模型在不同光照条件下对莴笋芯部的漏检问题得到明显改善, 从而能够提取出更加准确的作物行中心线。

  • 卢泉, 何家盛, 殷林飞
    计算机工程. 2026, 52(6): 365-381. https://doi.org/10.19678/j.issn.1000-3428.0069372
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    输电铁塔作为输电线路的支撑, 其良好的状态对电力系统运行至关重要, 但目前研究中尚无输电铁塔状态检测数据集。为实现对铁塔危险状态的检测和预警, 首先构建一个包含异物入侵、动物巢穴、塔基遮挡、外力破坏等7种类别的铁塔状态图像数据集, 然后提出轻量的输电铁塔状态检测算法CT-YOLO。提出轻量化的骨干网络L-ELANnet, 采用L-ELANnet能实现检测精度无明显变化的前提下减少3/4的参数量; 提出基于ECA(Efficient Channel Attention)机制的空间金字塔池化(SPP)模块, 该模块能以更少的参数量实现不同尺度特征融合; 采用k-means++算法优化模型先验框, 提升模型对数据集中垃圾、起重机等细长目标的学习能力; 引入Wise-IoU作为边框损失函数, Wise-IoU通过为不同质量的数据提供动态非单调的梯度增益, 能从整体上提升模型的训练精度和收敛速度。最后开展消融和对比实验, 验证改进模型的有效性和优越性。实验结果表明, 与原始模型相比, 所提基于轻量YOLO k-means++算法的mAP@0.5从94.9%提高到95.4%, 检测速度提高了21.5%, 每秒帧数(FPS)达到113.6帧/s, 并且模型大小仅为14.9 MB, 参数数量是原模型的1/5。总体而言, 改进后的模型具有更高的检测精度和更快的检测速度, 同时与主流目标检测算法相比, 所提算法在输电铁塔状态检测方面具有更优越的性能。

  • 肖泽秋, 李勇, 王霞
    计算机工程. 2026, 52(6): 382-390. https://doi.org/10.19678/j.issn.1000-3428.0070527
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    糖尿病作为全球4种主要的非传染性疾病之一, 死亡率连年上升。糖尿病患者若长期血糖偏高会引发一系列并发症, 并产生严重的不良后果。预测和控制血糖浓度是糖尿病诊断和治疗中的一个关键问题, 尽管近年来连续血糖监测(CGM)技术的发展已部分解决人工检测带来的不便, 但是CGM设备不仅昂贵还易受外在因素干扰。基于深度学习方法提出一个患者血糖浓度水平预测模型PBI-CLA。首先, 在模型的卷积神经网络(CNN)层通过一维卷积将血糖浓度序列和胰岛素剂量序列的数据特征提取出来; 其次, 在模型的长短期记忆(LSTM)层学习时间序列步长的关联关系; 最后, 模型的注意力层对每个测定血糖浓度时间节点中注射胰岛素剂量赋予不同的权重, 输出得到血糖浓度的预测值。实验结果表明, 该模型的均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)3个指标均有大幅下降, 与其他血糖浓度预测模型相比, PBI-CLA模型1 h血糖浓度预测的RMSE和MAPE分别下降了12.82和10.24百分点。

  • 林志康, 谢丽蓉, 卞一帆, 蹇福智, 周龙, 石明磊
    计算机工程. 2026, 52(6): 391-402. https://doi.org/10.19678/j.issn.1000-3428.0070253
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    为应对复杂农田环境下残膜回收机拾取地膜时回收效率低和现有深度学习模型识别残膜时精准度低等问题, 基于YOLOv5s提出一种农田残膜检测模型YOLO-SDI。首先, 将空间金字塔池化(SPP)结构与高效层聚合网络(ELAN)注意力机制相结合, 以更好地聚焦关键局部特征, 提升小目标识别率; 其次, 使用DySample模块替代UpSample模块, 增强小目标的特征信息, 提高模型识别准确性; 随后, 引入InceptionNeXt模块, 通过并行卷积层捕捉不同尺度信息, 增强模型对全局特征的关注度, 从而提高检测鲁棒性; 最后, 采用软非极大值抑制(Soft-NMS)替代非极大值抑制(NMS)方法, 通过逐步衰减重叠框的置信度, 以更精细地调整目标框的位置和置信度, 提高锚框的定位精度。实验结果表明, 相较YOLOv5s模型, YOLO-SDI在精确率、召回率、F1值和均值平均精度(mAP)上分别提高了1.2、0.2、0.6和7.2百分点。该研究表明, YOLO-SDI模型在农业残膜管理和田间清洁度评价等实际应用中具有一定的潜力, 能够为提高农田残膜回收率提供有力的技术支撑。

  • 周运梁, 何源夏, 冯子麒, 郑乃弋, 徐晓刚, 徐冠雷, 陈少辉
    计算机工程. 2026, 52(6): 403-413. https://doi.org/10.19678/j.issn.1000-3428.0070243
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    血压作为评估心血管健康的关键指标, 在日常居家血压监测中, 除传统的血压仪外, 目前研究人员采用的主流方式仍为使用多个生理信号等一些非端到端测量方式, 这些方式存在采集多个生理信号较为困难且成本昂贵的问题, 另外难以保持采集信号的时间同步性。另一种是现存的利用人脸视频预测血压, 即端到端的方式, 这种方式在一定程度上拓宽了适用场景, 但在感兴趣区域的选取、预测准确度等方面仍存在问题。为解决这些问题, 提出一种融合多尺度注意力结构在可见光场景下远程血压预测方法。首先对每个人脸视频候选窗口进行分类和回归提取有效皮肤区域, 并利用基于光流的技术从连续的有效人脸区域中提取远程光电容积描记法(rPPG)信号, 并将完整的rPPG信号通过小波变换滤波、去趋势等方式提取稳健rPPG信号。其次提出的EBP-Net引入并改进一种新的高效多尺度注意力(EMA)模块和多尺度融合(MSF)模块, 不仅能够在不降低通道维度的情况下增强深度视觉表示的特征, 而且可以通过多尺度特征的捕捉和层次化表达, 显著提升模型对生理信号的理解能力和预测能力。实验结果表明, 收缩压(SBP)在两个数据集上的表现已达到英国高血压协会(BHS)C级标准, 同时, 舒张压(DBP)达到B级标准, 收缩压和舒张压的平均绝对误差(MAE)分别达到6.82 mmHg和5.17 mmHg, 低于近期同等研究结果。与其他模型相比, 提出方法更具有泛化能力和更低的误差, 可为人脸血压水平检测提供有效方法和建议。

  • 曾安, 郑嘉裕, 潘丹, 赵靖亮, 黄幸青
    计算机工程. 2026, 52(6): 414-424. https://doi.org/10.19678/j.issn.1000-3428.0070257
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    主动脉夹层(AD)中心线的提取在AD疾病的定量诊断和治疗中具有极其重要的临床意义。然而, 由于AD的解剖结构复杂及血管形态和病变区域多样化等因素, AD中心线的提取任务非常具有挑战性, 且目前对这一任务的定量评估研究仍然较为有限。当前多数方法在提取中心线时, 需要进行预先分割、全卷扫描操作或计算距离图, 随后使用最小路径或骨架算法进行提取。然而, AD腔体难以完整分割, 上述方法所得中心线易存在断裂。为此, 提出一种基于深度Q网络(DQN)的中心线跟踪算法, 并设计一个注意力嵌入的空洞残差模块, 将其与通道注意力机制结合, 能够更有效地提取血管特征并自动追踪复杂病变血管的中心线。此外, 提出一种改进的奖励函数, 引导智能体准确地追踪中心线。在公开数据集上的实验结果表明, 提出的方法在中心线重叠度指标上全面优于对比算法, 提取一例数据中心线的平均速度为5 s, 具有较好的临床应用潜力。