作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2026年, 第52卷, 第2期 刊出日期:2026-02-15
  

  • 全选
    |
  • 计算机工程. 2026, 52(2): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 前沿观点与综述
  • 王利民, 朱光辉, 吴涛
    计算机工程. 2026, 52(2): 1-6. https://doi.org/10.19678/j.issn.1000-3428.0253281
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    大语言模型推动了人工智能进入以自然语言为核心的交互时代,但其在物理世界建模与复杂任务决策方面仍存在显著能力瓶颈。针对上述问题,以世界模型为核心范式,系统分析了大语言模型向决策型智能体演进的关键技术路径。首先界定了大语言模型的能力边界,阐明其在知识结构化表征、现实世界感知及高可靠性应用中的内在局限;其次从动态预测、任务驱动的选择性建模、多模态融合与物理一致性等方面,归纳了世界模型的核心内涵与关键特征;再次对数据驱动的生成式建模路径与物理先验驱动的仿真建模路径进行了系统梳理与对比,分析了世界模型在高质量交互数据获取、长期预测一致性、多模态表征统一及实时推理效率等方面面临的共性技术挑战;随后从弥补常识缺失、增强规划与决策能力及支撑具身智能发展的角度,讨论了世界模型在通向通用人工智能过程中的作用与现实局限;最后结合技术发展趋势,从大语言模型与世界模型协同融合、数据与算法协同优化、物理先验与生成式建模结合、具身智能深度耦合以及伦理与安全治理等方面,对世界模型的未来研究方向进行了系统展望。通过对世界模型技术现状的系统性分析与发展方向的前瞻性探讨,为人工智能从感知向决策的演进提供了理论与实践参考。
  • 王田, 李雨婷, 王文华
    计算机工程. 2026, 52(2): 7-12. https://doi.org/10.19678/j.issn.1000-3428.0253308
    摘要 ( ) PDF全文 ( )   可视化   收藏
    面向大规模感知与智能应用场景,集中式计算在时延、带宽、能耗与隐私保护的多重约束下逐渐呈现边际效益递减,计算范式因此由单一的"万物上云"模式,逐步转向"就地计算与云边协同"的新形态。在此背景下,本文首先梳理集中化计算路径在不同发展阶段所具备的优势及其适用边界,进而界定边缘计算在端-云之间所扮演的关键角色。在此基础上,进一步概述"传感云-边缘-端"协同计算框架,重点分析其中的核心机制,包括数据"必要即上行"的传输原则、面向服务级别协议(SLA)感知的任务分配与双层调度策略,以及边侧即时闭环执行与云侧全局策略治理之间的分工与协同关系。随着计算与智能能力向边缘侧持续下沉,本文进一步讨论边缘智能的发展方向,涵盖模型轻量化与本地学习机制、联邦学习与知识蒸馏的协同范式,以及面向边缘环境的智能运维(AIOps for Edge)与多级降级机制所支撑的自治能力。同时,强调构建以端到端闭环效率、系统韧性与可追责性为导向的综合评价体系的重要性。最后,结合教育等典型应用场景以及产业实践,论证就地计算与云边协同在保障确定性时延、提升系统整体韧性以及实现跨域一致性方面的现实有效性,并据此指出计算范式由边缘计算向云边智能协同演进的必然趋势与发展方向。
  • 方仪豪, 邹丹平
    计算机工程. 2026, 52(2): 13-23. https://doi.org/10.19678/j.issn.1000-3428.0070059
    摘要 ( ) PDF全文 ( )   可视化   收藏
    随着人工智能与机器人技术的深度融合,多旋翼无人机在多个领域中得到了广泛应用,展现了其灵活性和高效性。然而,在开发和验证多旋翼无人机的飞行控制算法或解决方案时,研究人员面临着高成本和高风险的挑战。为了降低这些风险并提高算法测试和优化的效率,多旋翼无人机仿真平台提供了一个安全、可控的环境。首先,介绍了多旋翼无人机的常规机型,选取了常用的四旋翼无人机作为多旋翼无人机的代表机型,根据不同仿真程度阐述了其动力学模型。接着,对多旋翼无人机仿真平台的常规系统结构框架进行概述,并探讨了其评价方式和分类方法。从功能和性能两个方面出发,进一步细化了仿真平台的评价方式。多旋翼无人机仿真平台的分类一方面根据其是否支持交互学习环境进行划分,另一方面依据不同侧重点,从动力学、传感器和多机集群3个方面进行分类。然后,回顾了现有无人机飞行任务的主要解决方案,在传统解决方案和基于学习方式的解决方案背景下,分析了现有的典型多旋翼无人机仿真平台。最后,对多旋翼无人机仿真平台未来发展进行了展望。
  • 王梓, 王洪强, 杨晓艺, 兰雨晴
    计算机工程. 2026, 52(2): 24-45. https://doi.org/10.19678/j.issn.1000-3428.0069799
    摘要 ( ) PDF全文 ( )   可视化   收藏
    操作系统(OS)作为信息时代关键基础设施,广泛应用于军事、工业、医疗等核心领域。其可靠性与安全性直接决定关键领域运行稳定,漏洞易致系统崩溃、数据泄露等严重后果,因此构建系统化安全保障体系具有重要理论与工程价值。以"形式规约-形式验证-工程落地"为框架,梳理近十年该领域研究成果,剖析技术路径与实践应用。在形式规约层面,明确基于迁移系统等数学结构描述系统功能的模型规约与基于线性时序逻辑(LTL)定义安全、活性需求的性质规约的差异,从功能正确性和安全属性两个方面进行阐述,其中,功能正确性涵盖任务管理调度、内存分配回收、异常中断处理、任务间通信与文件系统读写一致性,安全属性聚焦访问控制的BLP模型与BIBA模型、分离内核多域隔离、信息流无干扰与无泄漏理论。在形式验证层面,阐述依托霍尔逻辑验证程序一致性的推理证明、基于LTL与计算树逻辑(CTL)验证时序属性的模型检测、属性验证标准化流程3类核心方法,并以首个通过机器证明实现功能正确与信息流无干扰的seL4微内核为案例,揭示理论到工程的转化路径。在工程应用上,总结汽车领域控制器局域网(CAN)总线通信验证、智能手机Android系统组件间通信鲁棒性检测的成果。本文的系统性梳理旨在为相关领域的研究奠定基础,为大语言模型提供数据集支持,并为最终的技术工程落地提供参考。
  • 秦颖鑫, 张可佳, 潘海为, 巨亚昊
    计算机工程. 2026, 52(2): 46-68. https://doi.org/10.19678/j.issn.1000-3428.0069826
    摘要 ( ) PDF全文 ( )   可视化   收藏
    深度学习引领人工智能蓬勃发展,被广泛用于计算机视觉,在图像识别、目标检测、目标跟踪、人脸识别等复杂任务上取得了突破性进展和显著的成果,展现出其卓越的识别和预测能力。但深度学习模型的脆弱性和漏洞也逐渐暴露,以卷积神经网络为代表的深度学习技术对精心设计的对抗样本极为敏感,容易对模型的安全性和隐私性造成影响。首先,总结对抗攻击的概念、对抗样本产生的原因以及相关术语,概述数字域和物理域中几类经典的对抗攻击策略,对其优缺点进行分析;其次,专注计算机视觉,从数字域和物理域两个方面分别总结目标检测、人脸识别、目标跟踪、单目深度估计、光流估计中对抗攻击的最新研究进展以及常用于研究的各种数据集,简单介绍现阶段对抗样本的防御和检测方法,归纳对抗样本防御和检测方法的优缺点,阐述不同视觉任务对抗样本防御的应用实例;最后,基于对抗攻击方法的总结,探索并分析现有计算机视觉对抗攻击的不足和挑战。
  • 计算智能与模式识别
  • 郭天晟, 谢瑾奎
    计算机工程. 2026, 52(2): 69-78. https://doi.org/10.19678/j.issn.1000-3428.0070167
    摘要 ( ) PDF全文 ( )   可视化   收藏
    协同过滤(CF)被认为是一种有效的推荐方法,它可以通过学习用户和项目的表示来预测用户偏好。最近关于CF的一项研究从超球体对齐和均匀性的角度来提高表示质量,增强了推荐性能。该研究促进对齐以增加交互用户和项目的表示之间的相似性,并增强均匀性,使超球体内拥有更均匀分布的用户和项目表示。然而,仅使用监督数据进行对齐与均匀的表示优化会忽略行为噪声、数据稀疏和流行度差异等问题,这难免会损害表示的泛化性能和结构特性。为了解决这些问题,提出一种更准确的适应性对齐与均匀的推荐模型。将数据建模为用户-项目交互的二分图,并应用图神经网络(GNN)来学习用户和项目表示。模型对用户和项目表示进行自监督对比学习,从而捕获更多与监督数据无关的图结构模式。同时,在优化时根据流行度来适应性地调整对齐和均匀的优化目标,从而实现更广义的对齐和均匀。在3个真实世界数据集上进行大量实验,结果证明了所提模型相对基线模型的优越性和稳健性。
  • 陈振清, 万加富, 张锐
    计算机工程. 2026, 52(2): 79-88. https://doi.org/10.19678/j.issn.1000-3428.0069787
    摘要 ( ) PDF全文 ( )   可视化   收藏
    面对复杂多样的时序数据模式,单一的压缩算法难以保持高压缩比,亟需根据不同数据模式选择合适的压缩算法。针对现有自适应压缩方案在确定最佳压缩算法时准确性较低的问题,提出一种融合时序依赖性与数据特征的自适应无损分段压缩方法(ALSC-TDF)。该方法对时序数据进行分段压缩,并根据各段模式选择最合适的压缩算法。ALSC-TDF将压缩算法选择问题转化为时间序列分类任务,利用门控循环单元(GRU)捕捉时序依赖性,并考量了与数据压缩比密切相关的压缩效率特征,包括基本统计特征、排列和变化特征以及压缩程度特征。通过改进的GRU-全卷积网络(GRU-FCN)融合分析时序依赖性和数据特征,以提高分类准确性和稳健性,进而提升整体数据的压缩比。最后,利用多种数据集验证了ALSC-TDF的有效性与优势,其在分类准确率和F1值方面均优于对比模型,准确率达到88.86%。同时,ALSC-TDF的压缩比显著超越现有压缩算法,其总压缩比相较Elf算法提升15.62%。实验结果表明,综合分析时间序列的数据特征及其时序依赖性,可有效提高自适应压缩算法选择的准确性和稳健性,从而实现更高的压缩比。
  • 薛阳, 秦瑶, 张舒翔
    计算机工程. 2026, 52(2): 89-100. https://doi.org/10.19678/j.issn.1000-3428.0070127
    摘要 ( ) PDF全文 ( )   可视化   收藏
    基于图神经网络(GNN)的推荐系统可以提取用户与项目之间的高阶连通性。协同过滤(CF)是一种经典的推荐算法,在进行多层图卷积堆叠的过程中,由于用户和项目的嵌入会变得相似,导致出现过平滑问题。针对这一问题,提出一种采用双重图注意力机制生成子图的图神经网络协同过滤推荐算法(DAC-GCN)。将具有共同兴趣的用户聚类生成子图,以避免将高阶邻居的负面信息传播到嵌入学习中,并预先采用图注意力机制对节点嵌入进行预处理,提升对重要节点的关注度,以改善子图生成结果。另外,在子图传播过程中再次引入图注意力机制,强化子图内的节点区分度,从而改善子图内嵌入信息的传播,降低过平滑的影响,提升推荐效果。最后,以3个公开的数据集为测试对象,以归一化折损累积增益(NDCG)与召回率为评估指标,对所提算法进行测试,实验结果验证了该算法的有效性和优越性。
  • 马满福, 杨鑫, 李勇, 刘泽政
    计算机工程. 2026, 52(2): 101-109. https://doi.org/10.19678/j.issn.1000-3428.0069882
    摘要 ( ) PDF全文 ( )   可视化   收藏
    谣言源的准确识别能够抑制谣言的传播扩散,减少谣言对社会公众的影响。目前的谣言源识别模型忽略了节点之间影响力的差异性,导致在聚合邻居特征信息时权重相同,从而降低了谣言源识别的准确性。提出一种基于图注意力网络(GAT)的多谣言源识别模型——MRSDGAT。首先,在一个完成谣言传播的社交网络中,利用用户状态、谣言来源突出性和中心性将社交网络中的用户节点表示成向量,通过此向量构建出节点的特征矩阵。然后,通过GAT挖掘节点之间的相互影响力,计算节点的影响力权重,并按照节点间的影响力权重聚合节点特征信息。接着,在注意力层之间引入残差连接以缓解梯度消失问题,提高识别多个谣言源的能力。最后,模型输出的值为每个节点作为源节点的概率值,概率值越大,表明该节点作为源节点的可能性越大。实验结果表明,在Karate数据集上,MRSDGAT模型的F1值比基线GCNSI模型提升了14.09、13.32、13.10百分点,比基线LPSI模型提升了23.41、22.59、24.21百分点,识别性能更优。
  • 武子璇, 刘银华
    计算机工程. 2026, 52(2): 110-124. https://doi.org/10.19678/j.issn.1000-3428.0069495
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近年来,基于生理信号测量的情感识别研究逐渐兴起,其中,瞳孔直径(PD)被认为是一种有潜力的生理指标,可以直观反映出个体的情感状态变化。然而,瞳孔信号的降噪处理以及情感识别精度仍然面临挑战。为了解决上述问题,提出一种双重滤波的降噪方法以及一种基于机器学习的数字化分类方法,旨在对PD信号进行有效去噪的同时保留与情感相关的细微特征,以及提高对受试者不同情感状态评估的准确率。首先,设计基于听觉与视觉刺激的情感诱导实验,引导受试者的情感状态从平静到惊吓、压力以及愉悦,同时使用了眼动仪采集其PD信号在连续时间段内的数据。为应对数据中的噪声,采用三次样条插值法弥补由眨眼及设备系统噪声引起的信号缺失,再采用卡尔曼滤波与小波去噪对原始数据进行双重预处理。然后,利用从瞳孔数据中提取的4个关键特征,用5种分类算法对受试者的情感状态进行分类并比对了各个模型的性能指标,达到84.38%的平均准确率。其中,多层感知器(MLP)的效果最佳,达到了87.07%的最高准确率。最后,通过接收者操作特征(ROC)曲线对比了4种特征在区分不同情感状态方面的性能。
  • 王海玲, 姜廷威, 方志军, 高宇飞
    计算机工程. 2026, 52(2): 125-135. https://doi.org/10.19678/j.issn.1000-3428.0069633
    摘要 ( ) PDF全文 ( )   可视化   收藏
    情绪识别是人机交互(HCI)与情感智能领域的重要前沿课题之一。然而,目前基于脑电(EGG)信号的情绪识别方法主要提取静态特征,无法挖掘情绪的动态变化特性,难以提升情绪识别能力。在基于EGG构建动态脑功能网络的研究中,常采用滑动窗口方法,通过依次构建不同窗口内的功能连接网络以形成动态网络。但该方法存在主观设定窗长的问题,无法提取每个时间点情绪状态的连接模式,导致时间信息丢失和脑连接信息不完整。针对上述问题,提出动态线性相位测量(dyPLM)方法,该方法无需使用滑窗,即可自适应地在每个时间点构建情绪相关脑网络,更精准地刻画情绪的动态变化特性。此外,还提出一种卷积门控神经网络(CNGRU)情绪识别模型,该模型可进一步提取动态脑网络深层次特征,有效提高情绪识别准确性。在公开情绪识别脑电数据集DEAP(Database for Emotion Analysis using Physiological signals)上进行验证,所提方法四分类准确率高达99.71%,较MFBPST-3D-DRLF提高3.51百分点。在SEED(SJTU Emotion EEG Dataset)数据集上进行验证,所提方法三分类准确率达到99.99%,较MFBPST-3D-DRLF提高3.32百分点。实验结果证明了所提出的动态脑网络构建方法dyPLM和情绪识别模型CNGRU的有效性和实用性。
  • 计算机视觉与图形图像处理
  • 但崇鸿, 韦洪雷, 何舟, 吴贯锋
    计算机工程. 2026, 52(2): 136-147. https://doi.org/10.19678/j.issn.1000-3428.0070157
    摘要 ( ) PDF全文 ( )   可视化   收藏
    人体关键点检测在运动行为识别、人机交互等领域的应用越来越广泛。为进一步提高人体关键点检测的精度,减少计算量和参数量,以跳远运动为例,提出一种多尺度特征提取的关键点检测算法,并结合该算法实现智能距离检测。首先,构建LJDataset数据集,填补当下跳远运动数据集的不足;然后,基于YOLOv8训练框架提出一种参数量低、计算量小的新模型SRMpose,该模型使用StarBlock搭建骨干网络,设计MRB(Multi-channel Residual Block)、半耦合检测头SRMhead模块来提取特征,引入轻量化采样算子ADown和DySample提高特征图的处理效率;最后,在LJDataset、MPII、COCO数据集上进行实验验证。实验结果表明,与YOLOv8n-pose相比,SRMpose模型在3个数据集上的mAP@0.5和mAP@0.5∶0.95分别提高了2.2和1.4百分点、3.6和2.6百分点、1.9和1.2百分点,参数量平均提高了3.3%,GFLOPs平均减少了21.7%。此外,在COCO、LJDataset数据集上,与YOLOv8s相比,SRMpose的参数量平均减少了48.3%,GFLOPs平均减少了59.6%,而mAP@0.5分别降低了1.4百分点和提升了0.3百分点,证明SRMpose在保证模型性能的前提下有效减少了参数量和计算量。在LJDataset数据集上,将模型验证数据集调整为COCO验证集,结果表明,SRMpose与YOLOv8s的性能差距小于1百分点,证明了SRMpose的综合性能优势和泛化能力,也表明LJDataset数据集具有一定的复杂度,可以覆盖大部分人体关键点识别特征。
  • 张信佳, 王芳
    计算机工程. 2026, 52(2): 148-157. https://doi.org/10.19678/j.issn.1000-3428.0069729
    摘要 ( ) PDF全文 ( )   可视化   收藏
    无人机(UAV)航拍图像中的目标通常具有尺度密集、易被遮挡且多为小目标等特点,这导致检测过程中容易出现漏检和误检。为应对上述挑战,基于YOLOv5s提出了针对小目标检测的SNA-YOLOv5s算法。首先,引入空间深度转换卷积(SPD-Conv)模块替换原模型的跨步卷积层,避免细节信息丢失,增强小目标特征提取能力;其次,设计新型平均快速空间金字塔池化(AGSPPF)模块,引入平均池化操作缓解池化层在提取特征信息的同时会导致部分信息丢失的问题,提升模型的特征提取能力;再次,新增针对小目标的大尺度检测分支,捕捉浅层特征中丰富的细节信息,提升模型对小目标的检测能力;最后,将归一化注意力机制(NAM)嵌入骨干网络,对特征信息进行加权处理,抑制无效的特征信息。在VisDrone2019数据集和NWPU VHR-10数据集上的训练测试结果表明,该算法的均值平均精度(mAP)分别达到了42.3%和96.5%,与基线模型YOLOv5s相比分别提高了8.4和2.6百分点。通过与其他基于深度学习的主流模型对比实验,进一步验证了该模型的鲁棒性和精确性。
  • 文浪, 苟光磊, 白瑞峰, 缪宛谕
    计算机工程. 2026, 52(2): 158-166. https://doi.org/10.19678/j.issn.1000-3428.0070136
    摘要 ( ) PDF全文 ( )   可视化   收藏
    目前,细粒度图像分类任务面临着标注困难、样本数量稀缺以及类别差异微小等挑战。为了应对这些问题,提出一种基于邻域融合和特征增强的小样本细粒度图像分类方法。首先,利用离散余弦变换(DCT)和通道注意力机制分别捕获图像的全局信息和局部信息,并将这2种特征在通道维度上进行拼接,这种结合空间域和频率域的特征提取方法不仅增强了样本特征的多样化,还提高了模型的泛化能力;其次,引入特征增强模块计算查询样本与支持类原型之间的相关性,生成自适应权重,以指导查询信息,补充支持样本图像的细致学习,这一过程有效地捕捉了同类别图像之间的差异,同时抑制不同类别图像的局部相似性;最后,使用双相似性度量模块衡量支持类原型与待分类样本图像之间的相关分数,实现更精准的图像分类。实验结果表明,在Mini-ImageNet、CUB-200-2011、Stanford Dogs和Stanford Cars 4个公开数据集的5-shot任务中,该方法的准确率分别达到了79.22%、87.47%、79.23%和83.71%,相较于对比方法性能更优。
  • 宋朝琦, 刘颖, 何敬鲁, 李大湘
    计算机工程. 2026, 52(2): 167-176. https://doi.org/10.19678/j.issn.1000-3428.0070134
    摘要 ( ) PDF全文 ( )   可视化   收藏
    图像分类作为计算机视觉的基础任务,目前在大规模数据集上的研究已取得显著成效。然而,在低样本量数据条件下,传统的深度学习方法受制于过拟合问题,影响模型的泛化能力。为此,设计一种新颖的小样本图像分类方法,用于提升模型在样本数据稀缺时的分类性能。该方法基于显著位置相互作用Transformer与目标分类器,借鉴ViT(Vision Transformer)模型的结构和优势,引入具有显著位置选择的相互作用多头自注意力(HI-MHSA)模块,同时增加对多头自注意力模块中各个注意力头之间的交互,强化模型对输入图像中显著区域的关注,节省计算资源,并通过目标分类器的监督指导,进一步提升模型的学习效率和准确性。实验结果表明,在miniImageNet、tieredImageNet以及CUB数据集上,该方法在5-way 1-shot任务中分类准确率分别约为67.09%、72.07%和79.82%,在5-way 5-shot任务中分类准确率分别约为83.54%、85.62%和90.35%。实验结果显示,该方法在小样本图像分类任务中具有优秀的性能和高度的实用性。
  • 王少军, 王婷, 王超, 杨万扣, 陆柯宇
    计算机工程. 2026, 52(2): 177-185. https://doi.org/10.19678/j.issn.1000-3428.0070004
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对黑色素瘤的医学图像分割,以U-Net为骨干提出一种新的医学图像分割网络SEHC-Net。设计一个感知及边缘增强模块(SEBM)的新结构来处理分割形状不规则、大小多样和边界模糊的黑色素瘤图像。SEBM可以扩大特征的感受野,增强模型提取目标边缘信息和进一步捕捉像素之间联系的能力。此外,提出层级补偿模块(HCM)来解决信息拼接过程中长连接导致的信息冗余问题,以弥补主流分割网络在特征提取阶段不能在空间上下文信息和高级语义信息之间充分平衡的缺陷。同时,为了缓解由于引入以上两种结构导致的参数量增加问题,引入GoogleNet中的Inception思想,减小网络原始的编解码卷积模块中的卷积核尺寸,从而在降低模型参数量的同时增加模型的宽度和深度,并增强捕获像素间关联的能力,提升分割算法的性能。在ISIC2018黑色素瘤数据集上进行验证的结果表明,所提出的分割算法的交并比(IoU)、敏感度、精确率、Dice系数和准确率分别达到了79.54%、86.29%、90.92%、84.39%和94.83%,有效提升了黑色素瘤的分割性能。
  • 宋泉臻, 陈作钧, 秦品乐, 曾建潮
    计算机工程. 2026, 52(2): 186-196. https://doi.org/10.19678/j.issn.1000-3428.0070426
    摘要 ( ) PDF全文 ( )   可视化   收藏
    现有的低光图像去噪方法主要使用Transformer和卷积神经网络(CNN)的特征提取和去噪机制,会面临两个问题:基于局部窗口的自注意力机制未能充分捕捉图像中的非局部自相似性;通道维度上的自注意力计算未充分利用图像的空间关联性。针对上述问题,在基于窗口划分的视觉Transformer方法上提出一种超像素引导的策略,其可以自适应地选择相关窗口进行全局交互。首先,设计基于窗口交互的Top-N交叉注意力机制(TNCA),动态选择与目标图像窗口最相似的前N个窗口,并在通道维度上聚合图像窗口的信息,充分考虑图像非局部自相似性;其次,通过超像素分割引导的方式,显著提升窗口内局部特征的表达力,同时在通道维度上增强空间特征的关联性;最后,构建一个层次化的自适应交互超像素引导的Transformer去噪网络(AISGFormer)。实验结果表明,AISGFormer在SIDD和DND真实图像数据集上的峰值信噪比(PSNR)分别为39.98 dB和40.06 dB,与其他先进网络相比分别提升了0.02 dB~14.33 dB和0.02 dB~7.63 dB,AISGFormer更能交互局部与全局的信息和细节,自适应地利用自相似性来抑制区域相似噪声。
  • 刘惠临, 方琼, 王燕思, 张顺香, 苏树智
    计算机工程. 2026, 52(2): 197-208. https://doi.org/10.19678/j.issn.1000-3428.0069830
    摘要 ( ) PDF全文 ( )   可视化   收藏
    现有的真实图像风格迁移算法在追求提升图像的真实感和风格化强度的同时,通常未充分考虑算法模型尺寸和计算效率问题,因此很难适用于低算力设备。为解决这一问题,提出一种轻量级真实图像风格迁移算法。使用ShuffleNet V2轻量级网络替代VGG19作为特征提取器,并引入块式训练和跳跃连接技术,旨在大幅度减少参数量,提高图像的风格迁移速度。同时,为了更好地平衡迁移图像的内容和风格,设计混洗门控通道注意力机制(SGCAM)和通道对齐策略(CAWCT)。SGCAM将通道混洗和门控机制巧妙结合,不仅增强了生成图像的真实感,还进一步保持了算法轻量化的优势。CAWCT通过引入二值化操作对白化后的内容特征和风格特征进行相似性匹配,显著提升了生成图像的风格化强度。实验结果表明,所提算法的参数量仅为PhotoWCT2的14.8%,迁移一张1 000×750像素的图像只需4.22 s,比PhotoWCT2少0.79 s,同时生成图像的质量和风格化强度均得到明显提升,结构相似性(SSIM)和峰值信噪比(PSNR)指标分别提高0.031 dB和0.066 dB,内容损失(Content loss)、Gram损失(Gram loss)和风格损失(Style loss)指标分别降低0.227、0.138×10-5和0.116。
  • 许晓阳, 魏伟, 高重阳
    计算机工程. 2026, 52(2): 209-220. https://doi.org/10.19678/j.issn.1000-3428.0069919
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对红外场景下的船舶图像检测准确率低和计算量大的问题,提出一种用于红外船舶目标检测的改进YOLOv7-tiny模型。首先,在主干网络采用轻量级模型PP-LCNet,极大降低网络参数量与计算量。然后,改进Fused-MBConv模块和坐标注意力(CA)机制构建ELAN-FM-C模块,将其引入特征融合层,全面关注特征层的空间信息和通道信息,获取更大感受野。接着,使用基于最小点距离的边界框相似度比较的MDPIoU损失函数,简化了计算过程,提高了轻量级模型对红外目标的检测能力。然后,设计R-BiFPN结构来融合更多有效特征,提高了轻量级模型对不同尺度目标的检测效果。最后,利用知识蒸馏技术进一步提高了模型的检测精度。在艾睿光电红外海上船舶数据集上的验证结果表明,相比原始YOLOv7-tiny模型,改进模型检测的均值平均精度(mAP)提高了3.3百分点、参数量和计算量分别降低了23.0%和30.3%、模型大小减小了21.7%。在公开船舶数据集SeaShips和Ship Images上的验证结果表明,与主流和最新检测模型相比,改进模型具有良好的泛化性和鲁棒性,并且在检测精度和轻量化方面表现更优。
  • 网络空间安全
  • 崔竞松, 郭孟伟, 郭迟
    计算机工程. 2026, 52(2): 221-235. https://doi.org/10.19678/j.issn.1000-3428.0069858
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对目前基于硬件指纹的网络设备识别方法采集和提取特征效率低下以及基于流量特征的设备分类方法仅考虑已有类型而不能对异常设备进行检测的问题,提出基于设备时延和混合深度学习模型的网络设备检测方法。该方法基于全球导航卫星系统(GNSS)高精度授时技术提取纳秒级精度网络设备处理时延特征,构建贝叶斯卷积自动编码器模型BCNN-AE,包含特征提取模块、特征重构模块和复合预测模块,实现了对于已知网络设备类型的识别和未知网络设备类型的检测,具体为:首先采用GNSS高精度授时技术实现对于网络流量处理时延的纳秒级精度测量,并构建设备时延分布特征向量;接着特征提取模块使用贝叶斯卷积提取时延分布特征信息,特征重构模块使用自动编码器(AE)学习时延特征向量的压缩重构表示;最后复合预测模块基于不确定性阈值和重构误差阈值进行综合判断,实现已知类型识别和未知/异常设备类型检测。在实验室仿真环境下采集的数据集和公开数据集Aalto上的实验结果表明,采用设备时延能够实现不同网络设备类型的准确表示,并且BCNN-AE模型除了能取得比基线模型更高的识别准确率之外,还能够实现对于未知/异常设备类型的检测。
  • 齐峰毅, 张新有, 冯力, 邢焕来
    计算机工程. 2026, 52(2): 236-244. https://doi.org/10.19678/j.issn.1000-3428.0070198
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近年来无线网络在医疗、工业、教育、军事等领域得到广泛的应用,但同时也面临着更大的安全威胁。传统的密码学验证存在一系列问题,包括计算资源有限、量子计算威胁和身份验证信息易篡改等。为解决此类问题,提出一种基于物理层信息的设备指纹验证方案,利用基于信道状态信息(CSI)的指纹特征进行设备识别,防止恶意Wi-Fi连接。该方案综合考虑了静止设备和可移动设备两种不同终端状态的情况,旨在解决终端识别精度低和稳定性较差的问题。对于静止设备,由于认证情况的干扰较少,采用CSI幅值信息矩阵作为认证指纹;对于移动设备,由于CSI信息会随设备的移动而发生变化,直接提取指纹信息不再适用,通过提取I/Q相位误差构建特征指纹进行设备识别。采用自主设计的基于置信度的单分类支持向量机(SVM)串联模型(OSCL)、基于置信度的孤立森林(iForest)串联模型(IFCL)模型分别对两种方案构建的指纹进行训练,实现了对目标设备的识别。在静止设备识别中,所提方案准确率达到99%;在移动设备识别中,准确率达到74%。该方案可以起到对基于密码学的设备识别方案很好的补充作用,同时训练阶段仅使用正向数据对模型进行训练,很好地解决了异常设备指纹信息不可预测的情况。
  • 贾江浩, 张梓葳, 郜丽婷, 文娟, 薛一鸣
    计算机工程. 2026, 52(2): 245-252. https://doi.org/10.19678/j.issn.1000-3428.0069385
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对现有文本隐写分析模型难以学习和提取载密数据中真实存在的多层有效信息的问题,提出一种基于层次感知匹配的文本隐写分析方法HAM-Stega。该方法利用隐写数据中的文本信息与标签信息之间相对距离的匹配关系,以层次感知的方式获取文本与粗粒度、细粒度标签之间的特征匹配关系,以此设计联合嵌入损失函数和匹配学习损失函数,引导文本特征表示进行分类学习,得到最终的层次分类信息。实验结果表明,HAM-Stega在更符合现实场景的多分布混合数据集Large上的检测精度比对比模型提高了1.25~7.42百分点,表明该模型在混合数据集上具有有效的隐写分析检测能力。同时, HAM-Stega对于隐写数据中存在的其他多层有效信息(载密文本的隐写算法、嵌入率、语料类型等)可以进行提取和检测,其在层次分类指标Macro-F1和Micro-F1上相较于预训练的BERT模型分别提高了5.41和4.36百分点。
  • 陈先意, 糜慧, 何俊杰, 付章杰
    计算机工程. 2026, 52(2): 253-264. https://doi.org/10.19678/j.issn.1000-3428.0070029
    摘要 ( ) PDF全文 ( )   可视化   收藏
    由于参与联邦学习联合训练的客户端并非完全可信,从而带来联邦学习模型的版权泄露风险,而当前由中央服务器嵌入水印的方法面临许多难题,例如难以适用于安全联邦学习架构、溯源能力不足、服务器计算负担过重等。针对上述问题,提出一种基于正交约束的可溯源安全联邦学习版权保护方案FedSOW。首先,服务器复制待嵌入水印的卷积层形成双层通道,作为初始化水印层;然后,根据施密特正交化原理设计正交约束规则并以不同的规则约束局部模型水印层的输出特征;最后,客户端通过训练反向引导水印层形成具有不同正交结构的可溯源局部模型。实验结果表明,与现有的水印方案相比,FedSOW具有较好的水印持续性,确保能在安全联邦学习框架的训练过程中进行版权验证,在可溯源性、保真度和抗攻击能力等方面表现出卓越的性能。
  • 曹天涯, 张雨静, 贾俊杰, 张宇帆, 邓晓飞
    计算机工程. 2026, 52(2): 265-274. https://doi.org/10.19678/j.issn.1000-3428.0069644
    摘要 ( ) PDF全文 ( )   可视化   收藏
    联邦学习作为目前深度学习最为常用的隐私保护框架,被众多机构广泛应用。此框架中的各个参与方通过上传模型参数数据实现本地数据不离本地,达到共享数据的目的。但在联邦学习中各个参与方频繁上传及接收参数时易出现隐私泄露问题。为解决这一问题,提出一种基于个性化梯度裁剪的联邦学习隐私保护算法(AADP_FL)。该算法根据参与方不同网络层历史数据的L1范数计算出各层的裁剪阈值,对梯度数据进行裁剪以限制梯度范围,预防梯度爆炸及梯度消失。同时计算各层的贡献度,根据各层贡献度为每层分配隐私预算,进而添加个性化噪声。参与方在上传数据时加入适量的噪声,以掩盖上传数据的具体内容,进而隐藏各个参与者的贡献率,保护各个参与方的数据安全。经过一系列实验证明,AADP_FL算法的准确率相较于常用的个性化梯度裁剪方法提升3.5百分点以上,相比于传统的联邦学习框架也能保持较高的准确率。同时,该算法在保持较高准确率的同时能严格保护参与方数据的隐私安全,使得模型性能与数据隐私性达到均衡状态。
  • 董方和, 石琼, 师智斌
    计算机工程. 2026, 52(2): 275-286. https://doi.org/10.19678/j.issn.1000-3428.0069846
    摘要 ( ) PDF全文 ( )   可视化   收藏
    近年来,深度学习技术在恶意流量检测方面的应用越来越广泛。然而,对抗样本攻击给基于深度学习的恶意流量检测带来了巨大挑战。针对这一问题,提出一种基于集成学习与异常检测的对抗流量检测方法,用于发现针对恶意流量检测系统的对抗样本攻击。首先,为每一类恶意流量类别训练一个二分类集成学习器。对于集成学习器的每一个基模型,采用不同数据子集和特征子集训练,扩大基模型之间的差异性,以增加对抗样本跨越所有模型决策边界的难度。其次,将不同二分类集成学习器中基模型预测输入样本为正常样本的比例作为集成学习模型的信心得分,并将不同二分类集成学习器的信心得分输入孤立森林模型,通过孤立森林模型进行异常检测获得异常得分。最后,将获得的异常得分与在正常样本上获得的异常得分的阈值进行比较,判断样本是否为对抗样本。实验结果表明,该方法在NSL-KDD和CICIDS2017数据集的特征空间和受限空间上分别取得了最高0.986 9、0.989 6、0.999 1、0.999 8的受试者工作特征曲线下面积(AUC)值,优于对比方法。
  • 多模态与信息融合
  • 冉烔宇, 汤梦姿, 解庆, 刘永坚
    计算机工程. 2026, 52(2): 287-298. https://doi.org/10.19678/j.issn.1000-3428.0069814
    摘要 ( ) PDF全文 ( )   可视化   收藏
    有序分类属于分类的一种,其要求类标签存在自然顺序,在很多领域例如电影分级、年龄估计都得到了广泛的研究。目前,大部分有序分类方法假设所有样本都被标记。但由于数据的特殊性,在实践中往往难以收集大量的标记数据,影响有序分类的性能。针对以上问题,提出一种结合额外信息的半监督有序分类框架。首先,利用未标记样本的顺序关系生成额外的偏序信息,并将偏序信息构建为有向图网络;然后使用图神经网络(GNN)聚合邻居信息,丰富节点表示,同时捕捉节点间的顺序关系,利用学习到的表示恢复偏序信息间的全局排名;接着使用高斯混合加权的方法对数据特征根据全局排名进行加权,并使用聚类方法为全局排名赋予伪标签,从而将这些信息合并到有序信息中;最后,使用有监督学习的有序分类模型进行年龄估计。在FGNET、Adience、UTKFace 3个数据集上的实验结果表明,该框架使用较少的标记数据便能够取得可靠的性能,在平均绝对误差(MAE)、准确率(Accuracy) 2个指标上相较于半监督学习基线方法均有提升:MAE在3个数据集上分别降低了0.05、0.04、0.04,Accuracy在3个数据集上分别提高了4.8、4.5、3.5百分点。
  • 李健浪, 吴新电, 陈灵, 阳波, 唐文胜
    计算机工程. 2026, 52(2): 299-310. https://doi.org/10.19678/j.issn.1000-3428.0070113
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对自动驾驶场景中行人和车辆的目标识别与定位问题,提出一种四维(4D)毫米波雷达与视觉融合的CDCAM-BEV算法,以提高目标检测的精度。首先,设计雷达柱体网络,将4D雷达点云编码为伪图像,并通过正交特征变换(OFT)将单目图像转换为鸟瞰图(BEV)特征;其次,基于交叉注意力机制,设计共同信息提取模块(CICAM)和差异信息提取模块(DICAM),充分挖掘雷达和图像的公共信息和差异信息;最后,基于CICAM和DICAM设计BEV特征融合模块,实现图像信息和雷达信息在BEV空间的特征级融合。在VOD数据集上进行实验,将CDCAM-BEV算法与其他5种三维(3D)目标检测算法进行对比。实验结果表明,CDCAM-BEV在多个模式下检测性能均优于其他算法。在3D模式下,CDCAM-BEV的平均检测精度比排名第二的Part-A2高出3.65百分点;在BEV模式下,比排名第二的PointPillars高出5.04百分点;在平均方向相似度(AOS)模式下,比排名第二的Part-A2高出2.62百分点。结果显示,CDCAM-BEV在各模式下均表现出卓越性能,能够有效融合图像和4D雷达点云特征,显著提高目标检测的精度和可靠性。
  • 杨钰雪, 何甜, 樊京杭, 刘瑞英, 李腾
    计算机工程. 2026, 52(2): 311-321. https://doi.org/10.19678/j.issn.1000-3428.0070119
    摘要 ( ) PDF全文 ( )   可视化   收藏
    目前,图文检索已经成为跨模态领域的一个重要研究方向,但现有的将多种模态特征聚合的方式面临着模态间特征对齐不充分和模态内语义表征损失的两大挑战。针对跨模态检索领域模态内特征信息的表征问题,提出一种基于交叉注意力与特征聚合的跨模态图文检索模型。该模型包含图文特征提取、交叉注意力、特征池化、特征融合等模块,结合三元组损失函数挖掘图文局部信息,以获得具有深层次语义关系的图文特征表示。模型采用注意力融合策略,通过可学习权重参数调控图像与文本细粒度特征的融合。设计一种特征池化模块,分别聚合图像区域特征和文本序列特征,并通过神经网络学习权重参数,结合多重相似度共同指导模型学习,该模块可以灵活地处理图文变长序列的特征,增强模型对跨模态信息的捕捉能力。在公共数据集MS COCO和Flickr 30k上进行对比实验,结果表明,与多种图文检索模型相比,该模型在同类方法中检索性能更高,其在语义特征池化降维方面具有优势,为跨模态特征融合提供了新思路。
  • 孙圆, 王康平, 赵鸣博
    计算机工程. 2026, 52(2): 322-330. https://doi.org/10.19678/j.issn.1000-3428.0069773
    摘要 ( ) PDF全文 ( )   可视化   收藏
    随着多模态学习的不断发展,图像检索领域也面临新的机遇和挑战。现有的服装检索模型大多基于卷积神经网络或者Transformer的单模态模型实现,忽略了图像对应的丰富文本信息,模型能学习到的特征相对单一。为此,提出一种基于多提示和图文对比学习的服装检索方法。引入图像文本多提示学习,引导多模态大模型FashionCLIP学习服装的多维高语义多模态特征,为提高模型的检索能力以及充分挖掘多模态模型的检索潜力,分两阶段优化模型。第一阶段冻结图像和文本编码器,通过图像文本交叉熵损失函数优化文本提示;第二阶段冻结文本提示和文本编码器,通过三元组损失、分类损失和图像文本交叉熵损失函数优化图像提示和图像编码器。在淘宝直播多模态视频商品检索数据集WAB上的域内检索和跨域检索实验结果表明:该方法在域内检索的均值平均精度(mAP)和Rank-1相对于传统方法至少提升6.1和3.5百分点,在跨域检索的mAP和Rank-1相对于传统方法至少提升8.4和6.4百分点,检索性能得到了显著提升,证明了图文对比学习在服装检索领域的潜力。
  • 王庆荣, 郝福乐, 朱昌锋, 王俊杰
    计算机工程. 2026, 52(2): 331-341. https://doi.org/10.19678/j.issn.1000-3428.0070065
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对现有模型对车辆特征提取不足和预测场景单一的问题,提出了一种在多场景下融合多特征的车辆轨迹预测模型MTF-GRU-MTSHMA。该模型由编码器模块、多特征提取模块、多特征融合模块和轨迹预测模块组成。在编码器模块,利用门控循环单元(GRU)对车辆历史信息进行编码得到车辆的历史状态;在多特征提取模块,考虑目标车辆区域内周围车辆之间的空间关联性,通过多维度空间注意力机制挖掘周围车辆的深层特征,并引入三重注意力机制对编码后的状态向量进行特征提取;在多特征融合模块,将提取到的多种特征进行线性拼接,并输入到多特征融合网络中进行融合;在轨迹预测模块,对GRU进行改进,提出混合示教门控循环单元(MTF-GRU)并作为解码器,通过引入示教率来控制解码模式以提高解码性能,将融合后的特征输入到解码器中生成未来轨迹。在NGSIM数据集上进行的仿真实验结果表明,与最优基准模型相比,所提模型在直线道路、十字路口以及环岛道路场景下的均方根误差(RMSE)分别提高了8.16%、10.31%和8.37%,证明了所提模型的有效性。
  • 刘畅, 梁冰雪, 田荣坤, 秦玉华
    计算机工程. 2026, 52(2): 342-355. https://doi.org/10.19678/j.issn.1000-3428.0069817
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在医疗健康领域中,现有的问题分类方法存在文本特征表示能力弱的问题,并且对于多类别问题,忽视了不同关键词特征的权重,从而影响了分类的准确性。为了解决这些问题,提出一种基于多特征融合与混合神经网络的医疗健康问题分类方法(MPC-MFF-HNN),旨在提高医疗健康问题分类的准确性。首先,该方法结合RoBERTa-wwm-ex模型和Word2Vec模型对文本信息进行字符级和单词级的向量表示,以获得丰富的多特征信息,从而弥补单一特征表示方法的不足,使得模型在处理复杂的医疗健康文本时能够更全面地理解和表征文本语义;其次,通过多头注意力机制结合改进的文本卷积神经网络(TextCNN)和双向门控循环单元(BiGRU),设计了一种混合神经网络模型MHA-APTC-BiGRU,其采用多层次特征提取方法,能够有效提取包含关键词权重的深层次文本特征;最后,分类器将语义增强的特征向量作为输入,用于问题类别的分类。在真实公开数据集上的实验结果表明,与其他基线算法相比,该方法在精确率、召回率和F1值指标上均显著提升,在医疗健康问题分类方面表现出更优越的性能。
  • 大模型与生成式人工智能
  • 张骐薇, 林彬, 刘云龙
    计算机工程. 2026, 52(2): 356-371. https://doi.org/10.19678/j.issn.1000-3428.0069967
    摘要 ( ) PDF全文 ( )   可视化   收藏
    脓毒症是一种由感染导致的危重症,是重症监护室(ICU)中患者死亡的主要原因之一。然而,在脓毒症治疗环境中,实际数据较难获取,存在临床数据匮乏的问题。为克服这些挑战,提出一种具有梯度惩罚的顺序耦合医疗Wasserstein生成对抗网络(SC-med WGAN),与现有工作侧重单步生成不同,强调对脓毒症患者状态和药物剂量的顺序生成,以更好地模拟临床数据的生成过程。该模型由两个耦合生成器组成,在统一模型中协调患者状态和药物剂量的生成。模型采用混合损失技巧,引入特征匹配损失和皮尔逊相关系数作为附加项,既考虑单个变量的实际分布,也考虑变量之间随时间的相关性。在包含17 898位脓毒症患者信息的重症监护医疗信息标记(MIMIC-Ⅲ)数据集上测试,并在贫血数据上进行验证,证明模型的准确性和鲁棒性。实验结果表明,该模型顺序生成的数据在质量和真实性上优于其他模型,揭示了患者状态和药物剂量数据的生成具有明显的相互影响这一临床事实。
  • 李博, 季佰军, 段湘煜
    计算机工程. 2026, 52(2): 372-382. https://doi.org/10.19678/j.issn.1000-3428.0069767
    摘要 ( ) PDF全文 ( )   可视化   收藏
    大语言模型在机器翻译任务中已经展现出一定水平,通过提供翻译提示,模型能够生成译文。然而,受预训练语料质量和语言分布的限制,大语言模型生成的译文仍存在一些低质量翻译问题,如错译、漏译、幻觉和脱靶翻译等。为了减少大语言模型的低质量翻译,提出基于译文易错词纠正机制的大语言模型机器翻译方法。首先使用原始训练集的模型译文和参考译文定义大语言模型在特定语向的译文易错词,然后根据译文中的易错词及其纠正词构建易错词纠正数据集,利用易错词纠正数据集微调另外一个小型预训练模型得到纠正模型。在推理阶段,使用纠正模型对大语言模型译文中的易错词进行纠正,纠正后再由大语言模型完成自回归解码,最终得到更高质量的译文。实验采用Llama2-7B模型,在WMT2022测试集的中↔英、德↔英和俄↔英6个语向中进行了验证。结果显示,与未经纠正的译文相比,X-英翻译语向的平均COMET(Crosslingual Optimized Metric for Evaluation of Translation)和平均SacreBLEU(Bilingual Evaluation Understudy)分别提高了0.018 7和1.26分,英-X语向的平均COMET和平均SacreBLEU分别提高了0.087 9和7.67分。实验证明了易错词纠正机制能够有效提高文本翻译质量。
  • 王合庆, 魏杰, 景红雨, 宋晖, 徐波
    计算机工程. 2026, 52(2): 383-392. https://doi.org/10.19678/j.issn.1000-3428.0070415
    摘要 ( ) PDF全文 ( )   可视化   收藏
    大语言模型(LLM)在对话、推理和知识保留能力方面展现了显著优势,但在处理电力领域知识密集型任务时仍面临事实准确性不足、知识更新难以及高质量领域数据集匮乏的问题。针对这些挑战,引入一种改进的检索增强生成(RAG)策略,该策略融合了混合检索策略和经过微调的生成模型,提供了更高效的知识捕获和更新能力。基于对现有方法的深入分析,针对电力领域的知识问答(QA)任务,提出了元数据驱动的RAG框架Meta-RAG,该框架包含数据准备、模型微调和检索推理3个阶段。数据准备阶段包括文档转换、元信息抽取与增强及文档解析模块,在此阶段,借助元信息的提取与增强确保了电力规范文档的高效索引和结构化处理,并且构建了电力领域的EleQA(Electricity Question Answering)数据集,这是一个包含19 560个问答对的电力规范问答数据集。在模型微调阶段,通过多问题生成、思维链提示生成和监督指令微调数据集构建模块,优化了模型在特定电力问答任务上的推理能力。在检索推理阶段则采用混合编码和重排序策略,结合检索和生成模块,进一步提高了答案的准确性和合理性。通过一系列实验,Meta-RAG的有效性得到验证。与Self-RAG、Corrective-RAG、Adaptive-RAG、RA-ISF等基线模型相比,Meta-RAG具有更高的回答准确率和检索命中率,其中,基于Qwen1.5-14B-Chat模型的Meta-RAG达到了整体准确率0.804 3,高于其他方法。消融实验和文档召回实验结果表明文档检索对框架性能影响最大,失去检索能力整体准确率下降了0.292 8。
  • 陈诗航, 孙玉宝
    计算机工程. 2026, 52(2): 393-403. https://doi.org/10.19678/j.issn.1000-3428.0069992
    摘要 ( ) PDF全文 ( )   可视化   收藏
    语音生成说话人脸视频是当前一个研究热点,涉及音频和视觉两个模态的处理,需要着重解决说话时唇部运动和输入音频对齐的问题。针对该问题提出一种端到端的语音控制说话人脸视频生成对抗模型,主要包括模态仿射融合的生成器、视觉质量判别器和唇形同步判别器,基于仿射融合的生成器通过模态仿射融合模块(MAFBlock),在人脸特征解码过程中添加音频信息,有效地融合音频信息和人脸信息,使得音频能够更好地控制说话人脸视频生成。引入空间注意力和通道注意力机制,增强模型对于局部区域的关注。基于双判别器提高模型生成质量和唇形同步率,唇形同步判别器用于约束唇部运动,对音频和唇形进行相似性判断,在不改变整体轮廓和脸部细节的前提下更精细地控制唇部动作生成,视觉质量判别器判断生成图片的真实性,提高生成图片质量。在两个视听数据集上与多个现有的代表性模型进行对比实验,结果表明:该模型在LRS2验证集上具有8.128的LSE-C分数和6.112的LSE-D分数,相比于Baseline分别提升了4.3%和4.4%;在LRS3验证集上具有7.963的LSE-C分数和6.259的LSE-D分数,相比于Baseline分别提升了6.2%和6.9%。
  • 张成辉, 罗景, 涂新辉, 陈雨霖
    计算机工程. 2026, 52(2): 404-412. https://doi.org/10.19678/j.issn.1000-3428.0070118
    摘要 ( ) PDF全文 ( )   可视化   收藏
    语料库查询语言(CQL)是一种用于在语料库中进行检索和分析的查询语言,自然语言自动生成CQL指将用户以自然语言表达的查询需求自动转换为标准的CQL语句,大大降低了用户使用语料库的门槛。虽然大语言模型(LLM)可以较好地完成自然语言生成任务,但是在CQL生成任务中效果还不是很理想。为此,提出一种基于LLM上下文学习的语料库查询自动生成方法T2CQL。首先,基于CQL的编写规则总结出一套简洁全面的文本到CQL(Text-to-CQL)语法知识,作为LLM实现Text-to-CQL自动转换的基础,以弥补LLM在此领域知识储备的不足。然后,基于选定的嵌入模型,选取与当前自然语言查询最接近的前k个文本-CQL样本对,以帮助LLM理解语法知识并作为参照。最后,采用生成结果校准策略来减轻LLM在生成CQL时的偏差,通过校准模型偏差提升模型生成CQL语句的性能。实验使用多个LLM在包含1 177条数据的测试集上进行测试。实验结果表明,T2CQL方法显著提升了LLM在完成Text-to-CQL自动转换任务时的性能,最优的执行准确率(EX)达到了85.13%。
  • 马静, 车进, 孙末贤
    计算机工程. 2026, 52(2): 413-422. https://doi.org/10.19678/j.issn.1000-3428.0069611
    摘要 ( ) PDF全文 ( )   可视化   收藏
    文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像语义不一致。针对该问题,提出一种DXC-GAN文本生成图像方法。引入Transformer系列中的XLNet(Xtra Long Network)预训练模型替换原始文本编码器,捕获大量文本的先验知识,实现对上下文信息的深度挖掘。添加CBAM(Convolutional Block Attention Module)注意力模块,使生成器更加关注图像中的重要信息,从而解决生成图像细节不完整和空间结构错误问题。在判别器中引入对比损失,与模型中匹配感知梯度惩罚和单向输出结合,使得相同语义图像之间更加接近,不同语义图像之间更加疏远,从而增强文本与生成图像之间的语义一致性。实验结果表明:与DF-GAN相对比,DXC-GAN在CUB数据集上的IS(Inception Score)与FID(Fréchet Inception Distance)分别提升了4.42%和17.96%;在Oxford-102数据集上,IS为3.97,FID为37.82;相较于DF-GAN,DXC-GAN在鸟类图像生成方面有效避免了多头少脚等畸形问题,同时在花卉图像生成上也显著减少了花瓣残缺等图像质量问题;此外,DXC-GAN还增强了文本与图像的对齐性,显著提升了图像的完整度和生成效果。