作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 刘洲峰, 李慧敏, 丁淑敏, 徐艳芝, 李春雷
    录用日期: 2026-06-18
    弱监督语义分割通常利用类激活图(Class Activation Maps, CAMs)生成伪标签以训练分割网络。然而,由于CAM源于图像级分类任务,其响应往往集中在目标显著区域,导致前景激活不完整;同时,CAM在目标边界及复杂结构区域的响应不稳定,易引入伪标签噪声,从而限制分割性能的提升。针对上述问题,提出了一种语义不确定性区域增强的单阶段弱监督语义分割方法。首先,设计基于语义不确定性区域的对比学习模块,通过融合多种不确定性信息对CAM中语义不确定性区域进行细粒度建模,以增强前景激活完整性。其次,引入动态自适应高斯去噪模块,通过动态阈值调整与高斯混合去噪策略,对伪标签噪声进行自适应识别与逐步去除,从而抑制伪标签噪声。实验结果表明,在仅使用图像级标签监督的条件下,所提方法在PASCAL VOC 2012验证集和测试集上mIoU分别达到72.2%和72.8%,在MS COCO 2014数据集上达到42.5%。消融实验进一步表明,单独引入语义不确定性区域对比学习模块与动态自适应高斯去噪模块后,mIoU分别提升1.6%与2.5%,验证了两模块在增强前景完整性与抑制伪标签噪声的有效性,从而提升了模型整体分割性能。
  • 王凯源, 史彩娟, 高炜翔, 张艺琼, 张奕楠
    录用日期: 2026-06-17
    小样本目标检测(Few-Shot Object Detection, FSOD)旨在利用少量标注样本检测新类目标。现有基于元学习的FSOD方法虽通过查询与支持分支协同提升了性能,但仍面临三大瓶颈:一是固定的多尺度特征融合策略忽略了不同分辨率特征间的重要性差异,难以应对多尺度目标;二是基于简单平均池化的类级原型生成方式难以捕捉类内复杂结构,且易受噪声干扰;三是支持集语义匮乏导致查询特征与原型交互时易产生语义偏差,进而引发误检或漏检。针对上述挑战,本文提出了一种基于特征融合与语义增强(Feature Fusion and Semantic Enhancement, FFSE)的小样本目标检测模型。FFSE模型以Meta R-CNN为基础架构,通过设计三个协同互补的核心功能组件,从特征融合、原型表征及特征调制三个维度对小样本目标检测性能进行提升。首先,动态权重特征融合(Dynamic Weight based Feature Fusion, DWFF)模块通过自适应地为不同尺度特征分配权重,有效整合了局部纹理细节与全局语义信息,显著增强了模型对多尺度目标的感知能力。其次,原型图神经网络(Prototype Graph Network, PGN)机制为提升类级原型的质量,利用图神经网络的消息传递机制,实现了对原型的高阶语义增强。经PGN机制处理后的精炼原型具有更强的判别力和鲁棒性,能够更准确地代表目标类别的特征分布。最后,支持集驱动的特征调制(Feature Modulation Driven by Support set, FMDS)模块借鉴特征线性调制的思想,首先在内部对融合后的查询特征进行了多感受野分解,随后,利用精炼原型驱动生成动态缩放因子和偏移因子,通过仿射变换对查询特征进行通道级调制。缩放因子负责放大目标相关特征,而偏移因子则引导查询特征分布向支持集语义空间靠拢,从而有效校正了因类别信息不足引起的语义偏差,增强了目标的显著性。首先,所提方法FFSE在FSOD领域的PASCAL VOC和MS COCO基准数据集上进行了定量评估。在PASCAL VOC数据集上,FFSE在新类三种不同划分下的表现均优于基线方法,在新类三种不同划分的5-shot和10-shot设置下,FFSE模型的nAP50较基线方法提升了至少2.2%;在更复杂的MS COCO数据集上,FFSE模型的nAP较基线方法提升了至少5%;在两个数据集上运行多次实验的均值与标准差,与其他方法相比,所提FFSE模型能够在提升精度的同时,保持了较低的性能波动,表现出优异的鲁棒性。另外,对所提方法FFSE在PASCAL VOC数据集上进行了定性分析,并与其他相关方法进行了比较,实验结果进一步表明FFSE模型在面对复杂场景中的严重遮挡、多变微小目标以及高相似度背景干扰时,能够更准确地锁定并识别目标实例,大幅降低了跨类别的误检与漏检。综上,实验结果表明了所提FFSE模型的有效性。未来,研究工作将致力于探索更好的注意力机制,从更细粒度的像素层级有效抑制背景噪声的干扰,进一步提升小样本目标检测性能。
  • 林骏凯, 俞经虎, 王启蒙, 朱房勇, 许海凤
    录用日期: 2026-06-17
    口腔疾病严重影响民众健康,及时且有效的诊断与治疗对降低口腔疾病恶化风险具有重要意义。传统口腔疾病诊断依赖经验丰富的医生对影像资料进行人工判读,存在诊断耗时较长以及边界模糊病症易漏诊等问题,因此需要借助图像分割技术辅助临床牙齿病症的诊断。口腔全景片能够在单幅图像中呈现牙齿整体形态和颌骨结构,是临床牙科诊断中常用的医学影像资料。然而,由于口腔全景片中普遍存在灰度对比度低、病症边界模糊、噪声和伪影干扰等问题,龋齿、牙根尖周炎、根分叉病变和阻生齿等多类别牙齿病症分割仍面临较大挑战。针对上述问题,提出一种面向口腔全景片多类别牙齿病症分割网络Teeth-Net。该网络以TransUNet结构为基础,并在特征提取、特征重建和跳跃连接三个关键阶段进行针对性改进。在特征提取阶段引入跨尺度金字塔融合模块(Cross-Scale Pyramid Fusion Module, CPFM)优化原有编码器,通过不同感受野的并行群卷积提取多尺度特征,并利用跨尺度注意力机制建模不同尺度特征之间的相关性,从而增强模型对细小病症的捕捉能力,缓解细节特征丢失;在特征重建阶段设计并行多核池化模块(Parallel Multi-Kernel Pooling Module, PMKP),通过多尺度最大池化与平均池化并行提取局部细节和全局上下文信息,并经过通道压缩与特征融合为解码器提供更丰富的语义信息;在各级跳跃连接处嵌入空域-通道协同注意力模块(Spatial-Channel Collaborative Attention, SCCA),通过空间与通道注意力机制对编码器传递的浅层特征进行自适应筛选,抑制背景噪声的干扰,提高编码器与解码器之间的跨层特征融合质量。在自建口腔全景片数据集上进行对比实验与消融实验。实验结果表明,Teeth-Net的平均Dice系数、豪斯多夫距离(Hausdorff Distance, HD)、精确率和召回率分别达到84.22%、18.546mm、94.13%和95.96%。与基线模型TransUNet相比,平均Dice系数、精确率和召回率分别提升3.34、2.89和4.21个百分点,HD值降低6.869mm,表明该方法在整体分割精度、边界一致性和病症检出能力方面均取得明显改善。为进一步评估模型的泛化能力与跨数据集适应性,在两个公开来源数据集上开展外部测试。在重新标注的MICCAI 2023 STS外部测试集上,Teeth-Net的平均Dice系数、HD值、精确率和召回率分别为80.26%、19.520mm、92.58%和93.41%。与基线模型TransUNet相比,平均Dice系数、精确率和召回率分别提升3.32、4.33和3.89个百分点,HD值降低6.705mm。在公开多中心牙科全景影像数据集(Multi-Center Dental Panoramic Radiography Image, MCDP)上,Teeth-Net的平均Dice系数、HD值、精确率和召回率分别达到88.99%、12.126mm、90.61%和92.45%。与基线模型TransUNet相比,平均Dice系数、精确率和召回率分别提升3.83、4.03和3.33个百分点,HD值降低7.222mm。综合自建数据集和两组外部测试结果可知,Teeth-Net相较于基线模型TransUNet在不同数据来源和成像条件下均表现出更好的分割精度、边界刻画能力和跨域适应性,可为口腔全景片中多类别牙齿病症的辅助诊断提供有效的技术支持。
  • 杨本臣, 姚佳, 金海波, 任哲聪, 刘世琦
    录用日期: 2026-06-16
    图像隐写通过将秘密信息嵌入普通载体图像实现隐蔽通信,是信息安全与多媒体安全领域的重要研究方向。随着社交媒体平台压缩、格式转换、图像重采样以及主动隐写分析技术的发展,传统图像隐写方法面临更加复杂的应用环境。同时,现有深度隐写方法多集中于提升视觉不可感知性和嵌入容量,对提取后消息的内容机密性、完整性认证、误码容忍能力关注不足,导致隐蔽传输、内容保护与鲁棒恢复之间仍难以形成统一机制。针对上述问题,本文提出一种信息加密驱动的高安全性图像隐写模型,将认证加密、纠错编码、密钥控制置乱与深度隐写网络协同设计,以实现复杂信道下秘密消息的安全、隐蔽和可靠传输。载荷生成层面,构建“加密-纠错-置乱”主动防御体系:利用HKDF-SHA256派生加密密钥和置乱密钥,采用AES-GCM认证加密,生成兼具机密性与完整性校验能力的密文载荷;同时引入Reed-Solomon纠错编码,为隐写信道提供符号级误码修复能力。当反置乱后的码字符号错误数不超过RS纠错半径时,系统能够恢复正确数据包;若错误超出纠错能力或认证失败,则终止解密,避免错误明文输出。进一步采用CSPRNG驱动的位置置乱与比特置乱策略,打散载荷空间相关性和统计偏置,并生成稀疏位图控制嵌入位置,降低可被隐写分析器利用的结构线索。隐写嵌入层面,设计融合MS-DiSpAC与ViT的混合U-Net架构。MS-DiSpAC通过多尺度卷积提取纹理、边缘和局部结构信息,并利用膨胀空间注意力在保持分辨率的同时扩大感受野,引导高熵载荷嵌入复杂纹理区域;ViT补充全局上下文建模能力,弥补卷积结构对长距离依赖表达不足。网络输出残差扰动图和扰动强度图,通过加权残差调制生成隐写图像,在较高有效载荷下兼顾图像保真度与恢复稳定性。最后,引入WGAN判别器并采用Wasserstein距离进行对抗分布对齐,使隐写图像统计分布贴近载体图像,降低嵌入痕迹被SRNet、ZhuNet等隐写分析器捕获的概率。为验证方法有效性,本文在ImageNet、COCO和Visual Genome数据集上开展性能、泛化、载荷白化、鲁棒性及消融实验,并采用PSNR、MS-SSIM、LPIPS、BER、ESR、ACC.1、ACC.2和Dacc等指标评价。实验结果表明,在0.4bpp有效载荷条件下,本文方法在ImageNet上取得38.65dB的PSNR、0.975的MS-SSIM和0.036的LPIPS,提取端原始比特恢复准确率达到99.14%。载荷白化实验显示,原始消息经AES-GCM加密、RS编码和双重置乱后,单比特熵由0.8932提升至0.9998,平均绝对自相关由0.1285降至0.0028,最终载荷接近随机序列。与代表性方法相比,本文模型在视觉保真、信息恢复和抗隐写分析能力之间取得更优平衡;复杂失真条件下仍能在RS纠错能力范围内保持较高恢复成功率,为真实网络环境下的高安全图像隐写提供了可行方案。
  • 帅春燕, 郑顺元, 张小七, 欧阳鑫
    录用日期: 2026-06-16
    高速公路节假日期间的交通流具有显著的时空异质性,对起讫点(OD)流量进行精准短时预测是提升路网管理智能化水平的关键技术。针对OD数据的高维稀疏性、复杂时空依赖性及节假日模式偏移等问题,本文提出一种基于时空融合与节假日修正的高速公路OD流量短时预测方法,并构建双阶段时空融合网络(DSTF)模型。首先设计一种多源数据融合的时空特征提取架构:利用双分支图注意力网络(GAT)分别从OD层面与入口、出口流量层面提取并融合宏观出行关联与微观节点状态依赖的空间特征;进而通过门控融合的时间卷积网络(TCN)与卷积-长短期记忆网络(CNN-LSTM)组合模块,协同捕捉交通流的短时波动与长周期趋势;同时引入交叉注意力(Cross-Attention)机制实现入口流量、出口流量与基础OD流量的多任务协同预测。为适配节假日特殊出行模式,模型采用两阶段训练策略:第一阶段利用数据充足、模式稳定的非节假日数据训练基础预测模型;第二阶段引入轻量级的序列到序列(Seq2Seq)节假日修正模块,专注于学习节假日相对于基础模式的偏移量,对基础OD流量预测值进行自适应微调。基于真实高速公路收费数据的实验结果表明,所提DSTF模型在节假日OD短时预测任务中,在多项评价指标上均显著优于多种基线模型,在1步预测中MAE和RMSE较最优基线模型STGCN分别降低了11.7%和12.2%,展现了更高的预测精度、更强的鲁棒性以及更优秀的场景适应性。
  • 吴国栋, 郑阳, 谢东辰
    录用日期: 2026-06-16
    超图神经网络(Hypergraph Neural Network, HGNN)因其在建模高阶交互与融合多源异构信息方面的优势,已成为推荐系统领域的研究热点。与传统的图神经网络(Graph Neural Network, GNN)仅能建模二元关系不同,HGNN通过超边(Hyperedge)结构可以支持任意数量节点之间的高阶关联建模,能够更完整地保留推荐系统中用户—物品交互的多对多、群组化及多模态等复杂语义信息。本文首先从数据输入、超图构建、嵌入学习与推荐输出四个方面给出了HGNN推荐的主要流程;进而从构图策略与特征传播机制两个维度,系统分析了HGNN在序列推荐、多行为推荐、社交推荐、多模态推荐及群组推荐等场景中的研究进展。在HGNN序列推荐研究中,探讨了基于会话交互的局部关联建模、全局共现与跨会话协作建模及多尺度时空动态建模等构图策略,分析了结合超图注意力去噪与自监督对比学习增强的时序特征传播机制。该构图策略与特征传播机制有助于突破图神经网络的“邻居限制”,能更精准地捕捉用户的跳跃性兴趣与全局依赖。在HGNN多行为推荐研究中,分析了特定行为、统一行为及时序行为的超图建模策略,探讨了级联依赖传播、行为感知注意力及跨视图对比学习去噪等特征传播机制,在缓解目标行为稀疏性、促进跨行为语义对齐与知识迁移方面展现出明显优势。在HGNN社交推荐研究中,分析了同质性双视图、异质性语义及隐私保护等构图方法,探讨了融合信任感知注意力与双通道门控融合的传播机制,对拓宽传统二元社交限制、识别复杂群体影响力及高阶社交拓扑结构具有重要意义。在HGNN多模态推荐研究中,探讨了模态分离、协同语义关联及多模态超图优化等构图策略,分析了模态特定卷积聚合与跨模态对比学习对齐的传播机制,其优势在于能显式过滤模态噪声、支持统一语义空间内的高阶推理,从而有助于提升语义理解能力。在HGNN群组推荐研究中,分析了多视图层级对齐、群组结构关联优化及三元关系建模等构图策略,探讨了跨层级反馈与注意力聚合的传播机制,该方法在结构上能更好契合群组的“包含”逻辑,并为缓解偶发群组冷启动问题提供了有效途径。在此基础上,论文指出了现有HGNN推荐研究中存在的动态超图模型难以满足实时推荐的需求、高阶聚合过程中存在不可忽视的信息分辨率损失、超图伪超边结构引入的噪声会干扰模型的鲁棒性、超图计算与存储扩展性问题限制了其在大规模场景中的应用,以及推荐结果的可解释性与公平性不足等问题。针对上述问题,本文从基于生成式自监督解耦的表示学习、轻量化高效训练与推理设计、因果推断驱动的鲁棒性增强、场景感知的多模态融合,以及大语言模型协同增强等多个方面,对HGNN推荐的未来主要研究趋势进行了系统展望,以期为后续研究者提供一些有价值的参考与启发。
  • 潘言颉, 池明旻, 彭博
    录用日期: 2026-06-16
    视频虚拟试穿技术旨在将目标服装精准地迁移至视频中的人物主体,同时保持人物动作与服装外观的高度一致性,是电子商务、虚拟现实及短视频创作等领域的核心技术。然而,现有的技术框架在生成质量与计算效率的权衡上仍面临巨大挑战。传统的基于生成对抗网络(GAN)的方法往往依赖光流估计进行服装变形,在处理复杂运动时极易产生纹理失真和视觉伪影。近年来,基于U-Net的扩散模型通过引入服装参考分支实现了高保真生成,但此类双分支架构在迁移至参数量更庞大、表征能力更强的扩散Transformer(DiT)主干网络时,会引入巨大的参数冗余与显存开销。此外,现有方法通常在每一帧去噪过程中重复注入静态服装特征,这不仅显著加剧了计算负担,还因为静态特征缺乏天然的时序关联,导致模型在处理非刚性形变时难以维持时空连贯性,产生严重的闪烁现象。针对上述DiT架构在视频虚拟试穿任务中的适应性、训练效率及资源消耗挑战,本研究提出了一种名为OIE(Once is Enough)的轻量化视频虚拟试穿框架。OIE框架采用了首帧引导、单次注入的新型单分支策略,将服装编辑与时序生成任务解耦。首先,在服装外观注入阶段,利用预训练的高保真图像虚拟试穿模型Fitdit对视频初始帧进行精确编辑,获取集成细粒度服装纹理的结果。其次,为了最大限度保留DiT模型的时序先验,仅将编辑后的首帧作为潜在空间特征序列的起始token嵌入到主干网络中,避免了传统双分支架构中密集的跨分支特征交互模块,实现了主干网络架构的零修改。此外,为解决人体运动导致的背景布局信息丢失,本方法设计了一个轻量级背景编码器,通过掩码引导器平滑地将背景信息累加至主干特征中。最后,在微调阶段,将低秩自适应(LoRA)技术应用于DiT的所有自注意力、交叉注意力及前馈网络模块,以极低的可训练参数量实现了对大规模参数模型的动态调节。实验在ViViD和VVT数据集上进行,定量评估结果显示:在效率方面,OIE仅引入了0.50%的额外参数开销,且FLOPs和FPS几乎无显著变化,表现大幅优于MagicTryOn(参数增幅15.11%)和ViViD(参数增幅157.10%)等双分支方法。在质量指标方面,OIE在ViViD数据集的配对(paired)和非配对(unpaired)设置下均取得了较好的视频质量评分,其中VFIDp达到9.3983,VFIDu达到17.0831,显著领先于现有主流方法。消融实验证实,高质量的首帧引导能够有效抑制生成初期的错误产生,SSIM指标可提升至0.8466。OIE框架通过解耦策略有效解决了DiT架构在视频生成中的计算负担问题,实现了服装保真度、时序连贯性与计算效率的卓越平衡。该方法证明了在单分支架构下利用强大的时序先验知识可替代高频次的特征注入,为高分辨率、实时化的视频编辑任务提供了极具参考价值的轻量化路径。
  • 赵成俊, 徐贤
    录用日期: 2026-06-15
    钢铁表面缺陷的各向异性纹理特征显著,类内差异大,现有实时检测方法在特征金字塔网络融合阶段对此类方向性局部纹理的感知能力普遍不足。针对这一问题,以RT-DETR为基础框架,提出面向工业表面缺陷检测的方向感知异构卷积特征增强方法,包含三项核心设计:(1)提出方向感知稀疏卷积核DASC(Direction-Aware Sparse Convolution),将通道按方向分组并施加固定稀疏空间掩码,在FPN标准通道配置(C=256)下计算量约为等规格标准卷积的11.5%,可并行感知右、左、下、上及中心5个方向的局部纹理;(2)构建交互瓶颈DIR(Direction-aware Interaction and Refinement),采用扩展—激活—压缩的双层DASC结构,实现通道间方向特征的层次化融合,搭建LFEC3-RT(Lightweight Feature Enhancement module with Cross-stage 3 modules for RT-DETR)特征增强模块;(3)提出跨尺度特征金字塔一致性部署策略CFPD(Cross-scale FPN Consistent Deployment),将LFEC3-RT全局覆盖特征金字塔4个融合位置,消除选择性部署引起的跨尺度特征风格不一致现象。在NEU和GC10-DET两个钢铁表面缺陷基准上的实验表明:NEU上mAP@0.5为76.3%(较基线RT-DETR-R18提升2.2个百分点),GC10-DET上为64.4%(提升3.3个百分点),与YOLOv11m等主流方法性能相当或更优,计算量仅56.0 GFLOPs,参数量19.8M,在检测精度与计算效率间实现良好平衡。消融实验表明,方向数由1增至5时mAP从74.4%提升至76.3%,扩展比λ=4为最优,CFPD全局部署较选择性部署提升0.9%。
  • 范兴刚, 时雪刚, 廖思腾, 赵依依, 梁玉珠, 王田
    计算机工程. https://doi.org/260431
    录用日期: 2026-06-15
    大语言模型参数规模的激增与边缘终端受限的物理资源间存在深刻的结构性矛盾,制约了其规模化落地。传统的云端集中式推理高度依赖网络传输,面临较高通信延迟,难以满足自动驾驶、智能医疗等场景对极低迟延与严格数据隐私的双重诉求。然而,边缘物理硬件涵盖从微控制器到边缘网关,具有极大的异构性,云侧通用压缩方案难以直接平移。为此,本文立足于边缘设备的异构物理约束,系统性地综述了面向边缘侧的大模型高效压缩与软硬件协同部署技术体系。 首先,本文剖析了模型量化、参数剪枝与知识蒸馏三大核心压缩技术在边缘场景下的底层机制。量化方面,训练后量化虽具备部署敏捷性,但面临大语言模型长尾激活异常导致的表征坍塌难题;量化感知训练虽具一定鲁棒性,却受制于边缘重训算力匮乏的瓶颈。剪枝方面,本文论证了结构化剪枝在受限访存带宽硬件上的实际能效优势,指出非结构化剪枝的高理论压缩率易被通用边缘芯片的索引寻址开销所抵消。蒸馏方面,传统浅层参数对齐在跨越教师与边缘学生模型间的容量鸿沟时,存在特征丢失与偏见放大风险。综合来看,单一压缩技术在极端约束下已呈现出明显的边际收益递减效应。 其次,为缓解单一技术的性能瓶颈,本文归纳了受控于模型架构与物理场景双重驱动的多级混合压缩范式。系统梳理了三类核心优化链路:追求较高物理压缩率的串行流水线策略,适配边缘网关的实时推理;面向能效与精度严格折中的深度耦合联合优化流,将量化、剪枝与低秩分解置于同一框架内同步更新,适配功耗受限的移动终端;以及面向大参数模型部署的蒸馏驱动机制,利用教师先验引导结构重塑与量化。该多级范式有效拓展了模型规模、计算功耗与保真度之间的多维权衡空间。 进一步地,面对跨度极大的算力与能耗阶梯,本文构建了“系统-模型-算子-指令”四层软硬件协同设计机制。明确指出协同优化重心需依物理基座约束进行动态转移:系统级侧重云边环境的资源感知调度与任务分发;模型级依赖硬件感知架构搜索实现结构自适应;算子级推进跨层融合与访存局部性重构;指令级则聚焦特定微架构(如RISC-V)的定制扩展指令,以精准控制底层能耗。结合模型转换、编译重构与内存管理(如SwapNet)的全链条部署流程,该机制实现了压缩算法向底层物理执行的有效映射,提升了异构算力的综合利用效率。 最后,本文前瞻性地指出了边缘智能轻量化领域的未来研究挑战。强调超低位宽(4bit及以下)的鲁棒性补偿机制、硬件自适应动态半结构化剪枝,以及对大模型深层逻辑推理的有效知识转移,是克服当前轻量化瓶颈的核心方向。同时,亟需依托深度学习编译器构建硬件无感的统一工具链,消除碎片化异构设备的部署壁垒。本文通过体系化的技术梳理,为发展低延迟且强隐私的边缘智能生态提供了坚实的理论支撑与参考指南。
  • 仝松松, 杨奎武, 周刚, 丁梦迪
    录用日期: 2026-06-12
    针对机器学习即服务(MLaaS)黑盒场景下后门防御部署困难的问题,本文提出一种仅需自然图像统计先验的自适应图像预处理防御框架。该框架通过对输入图像进行多维度特征分析,构建后门风险量化指标;根据风险等级,动态选择并组合压缩-重建、几何变换、颜色扰动及动态随机序列等多层次处理操作,以破坏潜在后门触发器的激活条件,并引入质量反馈机制平衡防御效果与视觉可用性。在GTSRB、CIFAR-10和MINI-ImageNet数据集上的实验表明,面对BadNets、Blended、WaNet、反射攻击和WaveAttack五种涵盖显式补丁、全局混合、几何扭曲、物理反射及频域扰动的代表性攻击进行了评估,本方法在保持模型正常分类性能(平均准确率下降不超过3.5%)的同时,将攻击成功率平均降至10%以下,其中对WaveAttack攻击的抑制效果显著,成功率最低可降至2.38%。消融实验证实自适应策略与质量反馈机制对性能提升的关键作用,且在三个规模各异的数据集上均表现稳定,显示出良好的通用性。该研究为MLaaS黑盒服务提供了一种高效、实用的自适应后门防御新方案。
  • 赵一静, 秦 娜, 刘 远, 宋梦浩
    录用日期: 2026-06-12
    遥感图像变化检测旨在通过对比分析双时相影像包含的时空演变信息,精准定位地表覆盖的变化情况,已成为国土资源动态监测、城市扩张评估及灾害应急响应等领域的核心任务。然而,受复杂地形干扰、光照条件差异、季节植被更替以及传感器成像噪声等多重因素影响,变化区域常常呈现尺度跨度大、空间分布离散以及边界模糊等特性。现有变化检测模型存在对多尺度信息利用不充分以及深层全局语义关联提取不充分的问题,模型难以有效区分真实地表演变与伪变化,制约了其在开放场景下的判别精度。针对上述局限,提出一种面向遥感图像变化检测的多级损失辅助孪生网络(Multi-level loss-assisted Siamese-Network,MLLA_SiaNet)。该模型采用权值共享孪生架构分别提取双时相图像的多维特征,通过多级差分编码器生成层次化特征图。为了突破传统差分方法的线性局限,引入多角度差异表示策略并耦合通道-空间混合注意力机制,设计差分融合模块(Differential Fusion Module,DFM)获取高质量差异特征,实现背景干扰的自适应抑制与真实变化特征的精准聚焦。为了弥补全局语义缺失,将空间池化金字塔与高斯金字塔结合,提出深度语义提取模块(Deep Semantic Pyramid,DSP)构建多层级语义聚合特征,有效扩大感受野并强化长程上下文依赖建模。模型的解码阶段采用渐进式上采样与特征融合机制逐级恢复空间细节,实现高分辨率预测图像的重建。并引入深度监督的多级辅助损失(Multi-level Loss-assisted,MLA)优化训练过程,通过对解码器各层输出进行辅助约束,确保局部边缘信息与全局信息一致性,构建端到端特征学习模型。为系统验证模型有效性,在SYSU-CD与LEVIR-CD公开数据集上开展对比实验并分析结果。在SYSU-CD数据集上,MLLA_SiaNet以82.13%的F1分数优于其他七种对比方法,较次优方法SFEARNet提升1.3个百分点;其精确度与召回率分别达到最优值83.42%和80.88%,实现了查准率与查全率的同步提升。在LEVIR-CD数据集上,MLLA_SiaNet的精确度达到了89.48%,充分说明所提出的方法在抑制光照、阴影及植被季节性变化等伪变化因素方面的有效性;本模型在LEVIR-CD数据集上的F1分数为85.87%,优于SFEARNet(精确度84.89%)、BIT(精确度82.80%)与IFN(精确度82.29%)等其他方法。对实验结果的定量分析与定性分析说明,模型在不同分辨率与复杂地物条件下均展现出较好的鲁棒性。消融实验进一步证实了DFM、DSP与MLA模块在提升模型性能方面的优势,并通过分析模型的可视化响应特征图,验证了模型各个阶段的有效性。综上,本研究缓解了遥感图像变化检测任务中多尺度特征交互不足、全局语义信息关联性较弱以及对伪变化抑制困难等关键问题的影响。未来工作将聚焦于轻量化部署、多时相序列建模及自监督预训练技术,拓展模型鲁棒性的系统性评测。
  • 邹圣鹏, 马福利, 李云龙, 于勤思, 胡晓彦, 邹自明
    录用日期: 2026-06-12
    随着空间科学卫星数量的持续增加及科学载荷类型的多样化,下行科学数据规模不断增长,数据处理任务在数量、类型及处理流程等方面的复杂度显著提升,不同数据处理任务在时效性要求和计算资源占用特征方面存在显著差异,给地面数据处理系统带来了更高的计算与调度压力,因此需要结合空间科学卫星数据处理任务特点进行计算资源调度策略的研究,对卫星数据处理任务的执行顺序与计算资源进行更高效的调度与分配,从而提升整体处理效率与系统响应能力。本文提出了一种支持在线决策的深度强化学习资源调度算法DeepRL- Sched,该算法以近端策略优化(Proximal Policy Optimization,PPO)为核心,将卫星数据处理任务调度过程建模为马尔可夫决策过程。为了解决强化学习方法仅依赖当前系统状态进行决策而易产生短视性的问题,以及训练过程中收敛慢、稳定性差的挑战,设计了计算资源需求预测模块和模仿学习模块两个关键组件:前者通过预测未来任务负载与资源需求,构建扩展状态表示,从而增强策略对系统未来演化趋势的感知能力,缓解因局部观测导致的短视决策;后者则采用模仿学习方法,从高质量专家调度策略中提取先验知识,引导策略网络训练,从而有效提升算法的收敛速度与训练稳定性。实验结果表明,该算法能够有效提升空间科学卫星地面数据处理系统的调度效率,降低任务整体完成时间,并显著改善高时效性任务的处理及时性。
  • 李振雄, 黄庭宇, 曹敏, 杨靖, 徐凌桦, 邓波
    录用日期: 2026-06-11
    无人机目标检测技术在光伏电站生态修复监测中的应用潜力巨大,但在实际应用中面临背景干扰、特征模糊及目标尺寸小等挑战。针对上述关键问题,本文提出一种基于改进RT-DETR(Real-Time DEtection TRansformer)的目标检测模型MDS-DETR(MambaVision driven Dilated-attention Small-object DEtection TRansformer)。首先,设计改进型主干网络 CSP-MambaVision(Cross-Stage Partial and MambaVision Hybrid Backbone Network),通过将CSP的梯度分流特性与MambaVision的线性全局建模能力协同,并引入SFS-Conv和EMA对特征渐进式优化,增强对复杂环境的视觉语义建模能力;其次,将轻量化后的注意力转换块DTAB(Dilated Transformer Attention Block)替代原生AIFI(Attention-based Intrascale Feature Interaction)模块,依托分组通道控制与掩码空间约束,在扩大感受野捕捉多尺度上下文信息的同时优化模型对特征模糊类目标的感知与判别能力;最后,提出小目标检测模块SOEP-MFM(Small Object Enhance Pyramid with Modulation Fusion Module),利用跨尺度的特征重组与动态调整权重机制,实现小目标特征在网络中的多层次保持,有效增强小目标的表征能力,提升模型对小目标的检测精度。在公开数据集上的实验结果表明,MDS-DETR各项指标上较现有算法具有显著优势,其中Precision、Recall、mAP50%及mAP50-95%较基线模型分别提高了4.96%、3.04%、4.09%与3.58%,优于其他主流算法。此外,将基于迁移学习优化的MDS-DETR模型应用于光伏生态修复监测任务中,结果表明其测量的覆盖度与实测数据具有高度一致性,可为光伏电站的生态修复规划提供可靠的支撑。
  • 徐静雯, 唐堃, 杨梦龙, 王丽会
    录用日期: 2026-06-11
    多模态医学图像配准旨在实现不同成像模态间解剖结构的精确空间对齐,但由于成像机理差异,不同模态在灰度分布与纹理特征上存在显著不一致性,使得现有方法在复杂场景下仍面临配准精度与鲁棒性不足的问题。近年来,无监督特征解耦方法虽在一定程度上缓解了对配准标签的依赖,但由于缺乏显式约束,易导致模态信息抑制不充分及关键解剖结构信息损失。因此,如何在有效消除模态差异的同时保持结构信息的完整性,仍是多模态医学图像配准中的关键挑战。 针对上述问题,本文提出一种基于显式特征解耦与结构重建约束的多模态医学图像配准方法(Feature Decoupling and Structural Reconstruction Network,FDR-Net),构建了涵盖特征解耦、形变估计与重建验证的闭环学习框架。首先,通过引入全局自注意力机制的特征编码器,将输入图像显式分解为模态风格与解剖结构信息,并结合模态判别约束促进结构特征中风格信息的有效剥离。进一步地,设计跨模态特征混合机制,通过人为构造模态干扰,增强模型对模态变化的鲁棒性,从而学习更加稳定的结构表示。在配准阶段,以解耦后的结构特征为输入,利用U-Net预测密集形变场,并通过特征级与图像级相似性约束实现结构对齐,同时结合平滑正则化以保证形变的连续性与物理合理性。此外,引入循环一致性重建模块,该模块基于预测形变场动态生成重建目标,并通过由结构相似性(SSIM)与均方误差(MSE)构成的复合重建损失反向约束特征学习过程,从而在抑制模态差异的同时进一步强化关键结构信息的保持能力。 为验证所提方法的有效性,本文在 SR-Reg 与 BraTS2021 两个公开数据集上进行了系统评估。在 SR-Reg 数据集上,未配准时 Dice 为 62.24%,FDR-Net 达到 79.58%,较次优方法 BSF_Fusion(77.86%)提升 1.72 个百分点,HD95 为 2.89 mm,ASSD 为 0.90 mm,且在脑室等关键结构区域表现出更平滑稳定的形变场。在更具挑战的 BraTS2021 数据集上,FDR-Net 依然取得最佳性能,Dice 达 86.85%,较 BSF_Fusion(84.98%)提升 1.87 个百分点,HD95 与 ASSD 分别降至 4.12 mm 与 1.79 mm,表明其在肿瘤病灶引起的复杂形变条件下仍具有优异鲁棒性。消融实验进一步表明,移除跨模态混合机制、模态判别约束或循环一致性重建模块后,Dice 分别下降 5.3、4.8 和 6.1 个百分点,特征分析结果亦验证了模型能够有效降低结构特征的模态可分性,实现稳定的模态不变表示学习。 综上所述,本文提出的 FDR-Net 通过显式特征解耦、跨模态特征混合、多重判别约束及循环一致性重建机制,实现了模态风格信息与解剖结构信息的有效分离,在保证结构完整性的前提下显著提升了多模态医学图像配准的精度与鲁棒性。该方法无需依赖生成式图像转换或手工设计相似性度量,为复杂临床场景下的多模态医学图像配准提供了一种高效且具有良好泛化能力的解决方案。
  • 李 博, 刘首文, 袁梦霆
    录用日期: 2026-06-11
    混合专家(MoE)网络在资源受限的边缘FPGA部署时面临严峻的存储墙与负载不均衡挑战。现有动态调度或批处理方案难以满足流式推理的实时性要求。为此,提出一种基于负载感知的软硬件协同优化方法。利用专家激活的长尾分布特征,设计概率感知静态锁定(PASL)策略,通过分层存储机制在有限容量下最小化访存延迟;同时,构建统计驱动的自动化设计空间探索(DSE)引擎,实现计算资源的非均匀最优适配。此外,针对真实边缘场景中普遍存在的宏观分布漂移挑战,提出了一种面向负载演进的迟滞型软硬协同重构机制,有效屏蔽了微观语义噪声并避免了缓存震荡。实验表明,在单帧流式推理场景下,该方法相比均匀分配策略吞吐率最高可提升2.22倍,相比现有先进方案Edge-MoE的策略吞吐率最高可提升1.52倍;在各任务的能效比方面,最高可达CPU和GPU的2.9倍和3.1倍;在处理复杂视觉Transformer时端到端延迟低至16.33ms。在面临动态分布漂移时,相较于静态基线实现了17.3%的吞吐率提升,同时在稳态随机场景保持了零额外开销,有效解决了边缘端MoE网络部署的实时性、能效与动态环境适应性瓶颈。
  • 吴永庆, 张涵
    录用日期: 2026-06-05
    命名实体识别旨在从文本中准确识别具有特定语义类别及明确边界的实体。针对中文文本中缺乏显式词边界、语义表达复杂以及多音字、形近字广泛存在所带来的语义歧义问题,现有方法多依赖字符或词汇信息进行建模,对拼音、部首等关键语言学特征的利用仍显不足,同时在多源异构特征融合过程中多采用简单拼接或加权方式,难以充分挖掘不同特征之间的深层语义关联,进而限制了模型整体性能的进一步提升。本文提出一种基于多特征层次化融合(Multi-Feature Hierarchical Fusion,MFHF)的中文命名实体识别方法,以实现多维语言学特征的协同建模与深度语义融合。首先,在特征表示阶段构建字符、拼音、部首和词汇四类嵌入表示,其中字符嵌入基于预训练语言模型获取上下文语义信息并捕获长距离依赖关系,拼音嵌入通过编码拼音序列刻画语音差异,有助于缓解多音字歧义问题,部首嵌入利用卷积神经网络对汉字结构进行建模,从字形层面提取细粒度语义特征,词汇嵌入基于词典匹配机制引入词级信息,以增强模型对多字实体边界的感知能力,从而从语音、字形和词汇语义多个维度提升字符表示能力。其次,为解决多源特征融合过程中信息交互不足及融合粒度单一问题,设计层次化交叉注意力机制,在局部层面构建拼音—部首与字符—词汇两组交叉注意力,通过双向注意力交互分别建模音形之间的内在关联以及字级与词级语义之间的结构关系,使不同模态特征能够在细粒度层面实现信息对齐与互补,在全局层面,将经过局部增强的多源特征进行拼接,并引入多头自注意力机制对其进行统一建模,实现跨特征的深层语义整合,从而获得兼具多维信息的语义增强表示。在此基础上,引入多任务学习与对抗训练的联合优化策略,通过拼音预测和部首预测辅助任务强化特征学习,并在嵌入空间加入基于梯度的对抗扰动,以提升模型在复杂环境下的鲁棒性与泛化能力。最后,将融合后的特征表示输入BiLSTM进行序列建模,并通过条件随机场进行全局解码,从而获得实体识别结果。为验证所提方法的有效性,在MSRA、Weibo和Resume三个公开中文命名实体识别数据集上进行实验评估,并从整体性能与不同实体类型两个层面进行对比分析。实验结果表明,MFHF模型在MSRA、Resume和Weibo数据集上分别取得96.78%、96.14%和71.80%的F1值,整体性能优于多种代表性基线模型。其中,在MSRA数据集上相较于CPL-NER模型取得1.09个百分点的性能提升,在Weibo数据集上较GS-Lexicon模型提升1.55个百分点,在Resume数据集上相较于Lattice-LSTM模型取得1.68个百分点的提升。综上,本文方法通过多特征层次化融合与联合优化策略,有效提升了中文命名实体识别的语义建模能力与模型鲁棒性。
  • 赵超, 文进辉, 余果, 赵艳楠, 杜夏威, 胡辰, 刘伟, 尹泽明, 刘玉海
    录用日期: 2026-06-05
    面向大语言模型的低精度训练有助于降低训练成本并提升硬件利用率,但现有高效低精度训练框架大多依赖原生FP8硬件支持,难以直接迁移至缺乏FP8执行能力的国产加速卡平台。因此,如何在不依赖专用FP8硬件单元的条件下,重构适配国产加速卡的低精度训练路径,并在保持训练稳定性的同时获得实际的端到端性能收益,成为亟待解决的问题。针对这一问题,本文提出了一种基于INT8动态量化的Transformer Engine高效训练方案。该方案面向国产加速卡已有的整数矩阵乘能力,对原有FP8线性层计算流程进行重新设计,从而在无需专用FP8硬件支持的条件下实现大语言模型的低精度预训练。 在方法设计上,所提方案保留了Transformer Engine的动态尺度管理思想,并将原有依赖FP8硬件支持的线性层计算流程重构为“动态量化—INT8矩阵乘—INT32累加—融合反量化恢复”的跨精度执行通路,使计算最密集的矩阵乘操作能够映射到底层整数算力单元。为兼顾可实现性与执行效率,本文采用tensorwise粒度的动态量化策略,对激活与权重按照张量动态范围进行在线缩放,并结合国产SIMT架构加速卡对INT8×INT8整数矩阵乘和INT32累加的原生支持,实现了Transformer Engine核心线性层算子的国产化重构。进一步地,针对统一INT8量化下输入嵌入层和输出层等数值敏感模块易出现激活与梯度尺度失衡、量化误差放大及收敛退化的问题,本文从梯度传播与误差传播两个角度分析了相关层的数值特性,并据此提出分层精度量化策略:输入嵌入层与输出层保持BF16精度,以保证梯度传播的稳定性和参数更新的可靠性;注意力投影层及前馈网络等中间计算密集模块采用INT8低精度通路,以充分释放整数计算单元的吞吐能力;缩放因子及部分关键中间量采用较高精度保存,以兼顾数值稳定性与实际加速效果。在此基础上,本文将该方案集成至Megatron-lm分布式训练框架,并在国产加速卡上开展多模型预训练验证。 实验选取Llama2-7B、Llama2-13B、Llama3.1-8B、Qwen3-4B、Qwen3-8B以及基于Mixtral-8x7B架构裁剪得到的Mixtral-8x7B-8L模型作为评测对象,在统一训练轮次条件下,对BF16基线与所提INT8方案进行对比分析。结果表明,该方法在不同模型上均能够保持与BF16基线整体接近的训练损失下降趋势,训练过程中未出现明显震荡、发散或收敛停滞,说明重构后的INT8训练路径能够较好保持大模型预训练过程中的收敛稳定性。在端到端训练效率方面,Llama2-7B、Llama2-13B、Llama3.1-8B、Qwen3-4B、Qwen3-8B和Mixtral-8x7B-8L的训练加速比分别达到1.21、1.16、1.17、1.07、1.20和1.12,表明该方法在不同规模和不同结构的大语言模型上均具有较为稳定的效率收益。 综合来看,本文提出的方法在缺乏原生FP8硬件支持的国产加速卡上实现了Transformer Engine低精度训练路径的有效重构。通过动态量化、INT8计算通路和分层精度量化策略的协同设计,该方法在保持训练收敛稳定性的前提下获得了稳定的端到端加速效果。实验结果表明,在现有硬件条件下,基于软件层计算路径重构与模型结构感知的精度配置,能够有效释放整数计算单元潜力,为国产平台上的大模型高效预训练提供可行方案。
  • 方安然, 朝乐门
    录用日期: 2026-06-03
    本研究旨在探究生成式人工智能(Generative Artificial Intelligence, GAI)在自训练循环中的模型退化风险,重点聚焦内容同质化与人机文本差异两大核心现象。研究选取两种结构具有代表性的生成模型,构建自训练迭代实验框架,以人类数据在训练集中的占比α为核心超参数,在α不同取值下并结合线性递减、指数衰减两类典型动态策略开展对照实验,通过多维度性能指标系统评估生成内容的质量、多样性及与人类文本的差异程度。结果显示,GAI在自训练过程中性能呈持续下降趋势,生成内容多样性显著弱化,人机文本差异逐步扩大;线性递减策略可有效延缓信息熵下降、维持内容多样性,但后期易受模型生成数据污染的累积影响;指数衰减策略虽初期性能波动较明显,但其长期稳定性更优。此外,轻量级单向语言模型(GPT2)在自训练中更易陷入噪声放大的恶性循环,而具备更强全局建模能力的双向编码器模型(BART)在面对生成数据污染时,展现出更优异的鲁棒性。本研究为优化GAI自训练的动态数据配比策略提供了重要实证支撑。
  • 王立辉, 李 元 , 刘泽峰 , 魏雅川
    录用日期: 2026-06-03
    针对无人机电力巡检图像背景杂乱及目标尺度多变导致检索精度受限的问题,提出一种基于频域坐标协同与多尺度门控的电力图像检索网络Swin-FMG。该方法以Swin Transformer为骨干架构,首先,提出频域坐标协同注意力机制(FCCA),通过结合全局频谱滤波与正交空间投影有效抑制环境噪声并恢复目标几何特征的物理连续性。其次,设计语义引导的多尺度门控融合模块(MSCGF),利用深层语义自适应筛选浅层多尺度纹理并构建双流检索表征,增强模型应对跨视角尺度变化的感知能力。最后,引入低秩适配微调与难样本三元组联合损失函数,在缓解小样本过拟合风险的同时进一步优化特征度量空间的类间可分性。在自建电力巡检图像检索数据集上的实验结果表明,Swin-FMG的平均精度均值达到63.15%,首位召回率达到71.04%。与基准Swin Transformer相比,其平均精度均值提升了4.19%。实验结果表明,Swin-FMG能有效剥离复杂环境干扰并捕获尺度不变特征,在兼顾计算效率的前提下显著提升了电力设备的图像检索性能,验证了所提方法的有效性。
  • 胡昀霏, 谷飞, 韩朴宇
    录用日期: 2026-06-03
    在动态类型语言的编译优化过程中,受运行时类型不确定性的影响,编译器需要插入大量合法性检查节点。现有的基于可达性分析的冗余代码消除(Redundant Code Elimination, RCE)算法通常将所有控制流节点视为可能产生副作用的节点,从而在分析过程中保留了与这些检查节点相关联的计算与控制流结构,导致部分语义上无效的计算与控制流难以被安全删除。针对这一问题,以方舟运行时为研究平台,系统分析其编译优化流程与中间表示(Intermediate Representation, IR)结构,提出了一种语义驱动的RCE方法。该方法首先从程序的可观测语义出发,构建形式化语义模型,将程序行为抽象为由输入输出、抛出异常、系统调用及以特定返回值退出构成的可观测事件序列,并据此将RCE问题转化为以不改变程序的可观测语义为前提的IR子图删除问题。在此基础上,提出合法性检查删除判定准则:当检查节点及其依赖的计算不产生副作用,且其结果不被任何影响程序可观测行为的节点使用时,该检查及相关计算可被安全删除。该准则突破了合法性检查对RCE的干扰,将部分被传统方法保留但语义上无效的计算及其检查视为可删除节点。围绕该准则,设计了基于语义约束的有效节点传播机制:首先初始化包含副作用节点的有效节点集合,然后沿数据依赖关系扩展该集合,在集合中保存可能影响程序可观测行为的节点,从而识别并删除冗余计算及其附属检查。进一步地,针对传统方法无法处理的冗余控制流问题,结合控制流图构建、支配关系分析与循环结构识别算法,提出冗余循环与冗余分支的检测与删除方法,实现对空循环、空分支等结构的整体消除。该方法已在方舟运行时编译框架中完成集成,在IR层实现了对冗余计算与控制流的优化。相关实验表明,在指令数量方面,优化后所有测试程序的平均执行指令减少比例为3.4%,在存在冗余控制流的典型用例中,平均减少27.4%,最高达到98.26%;在执行时间方面,各测试用例平均降低3.4%,典型用例平均降低26.4%,少数循环密集型程序的执行时间降低达99.99%;在编译开销方面,算法的运行时间平均仅占总编译时间的2.28%,其额外开销较低;在整体性能评估中,多数典型用例的编译与执行总时间均呈下降趋势,最高降低94.55%。此外,经过913个运行时单元测试用例及19749个test262标准测试验证,算法未引入语义变化。对比源码级RCE工具,该算法在更细粒度的计算与控制流层面仍能进一步获得性能收益,体现出了IR层优化的独特优势。该方法在保证程序语义等价的前提下,有效突破了动态类型语言中合法性检查对RCE的限制,显著提升了编译产物的执行效率,同时保持较低的编译开销,为动态类型语言运行时的编译优化提供了一种新的思路。
  • 郑诚, 陶文浩
    录用日期: 2026-06-02
    方面级情感分析旨在对文本中特定方面的情感极性做出判断。现有的方法往往采用图神经网络和注意力机制来编码句子的句法依赖信息和语义信息,然而,句法依赖树仅能捕获词语之间的依存关系,无法表达短语级句法结构,限制了模型对短语级句法信息的利用;并且在使用常规softmax注意力机制捕获句子的语义特征时,通常会受到无关上下文的干扰,从而产生过多语义噪声。因此,本文提出一个基于句法增强和语义降噪的方面级情感分析模型。在句法分支中,引入句法成分树构建句法成分图,以补充短语级句法信息,利用句法成分图和句法依赖图分别编码两种句法信息,并通过句法融合机制动态整合两种信息,得到句法增强表征;在语义分支中,引入差分注意力机制降低无关上下文的注意力权重,从而降低语义噪声,得到降噪后的语义表征;另外,通过在词嵌入末端拼接外部知识嵌入得到融合外部知识的表征,以帮助模型更好地理解句子语义;最后利用多特征融合模块将三种特征进行充分融合。实验结果表明,相较于S2GSL等基线模型,本文模型在Laptop、Restaurant和Twitter数据集上的准确率分别提高至少0.36、0.83和3.13个百分点,在Laptop和Twitter数据集上的F1分数分别提高至少0.56和2.96个百分点,验证了本文模型句法增强和语义降噪方法的有效性。
  • 王朝, 王怡静, 代成
    录用日期: 2026-06-02
    持续异常检测侧重于增量学习新类别的同时保持历史记忆。然而,生成式回放面临的频谱偏差与高频伪影严重制约了微小异常的精细分割。为此,该研究提出了DenoiseCAD,一种基于级联纯化体系的抗噪框架,为消除生成伪影导致的特征偏移,防止模型捕捉与缺陷无关的虚假特征。首先,该研究提出了一种基于特征原型引导的潜空间校正机制,在模型扩散反向过程中利用正常类别的特征原型作为语义锚点,通过计算特征度量梯度来迭代修正潜变量,从源头抑制分布偏移噪声。其次,基于参数敏感性实验构建任务驱动型频率滤波,实施针对数据来源特性的多粒度频谱联合约束策略,有效阻断高频伪影的传播。最后,实施基于锚点的权重固化,通过各向同性的参数距离约束,防止模型对残留噪声过拟合。至此构建了从源头到末端的全链路去噪框架,从而有效平衡了模型的可塑性与稳定性,缓解了灾难性遗忘难题,为复杂工业智能质检场景提供了可靠的新框架。实验表明,DenoiseCAD 在 VisA 和 MVTec 数据集上均取得 SOTA 性能,其像素级异常分割精度较现有最优方法分别提升了 2.8% 和 1.5%。
  • 彭晏飞, 白一卉, 王子莹, 陈笑竹
    录用日期: 2026-06-02
    无人机目标检测在智能交通、环境监控等领域发挥着重要作用,然而受目标尺寸大小、拍摄角度等多种因素限制,使航拍小目标检测面临尺度变化剧烈与特征易衰减的问题。针对上述问题,提出一种改进YOLOv11n的无人机航拍视角下的目标检测算法:DBD-YOLO。在特征提取阶段引入融合多膨胀率空洞卷积与自适应通道分配的DWR多尺度结构,在低计算开销下有效扩展感受野并增强小目标上下文表征;在颈部网络中新增P2特征层参与特征融合流程,采用BiFPN实现跨尺度双向加权融合,以提升浅层细节与深层语义协同效率,并以Dysample点重采样替代传统上采样,在降低显存与时延的同时保持细粒度特征;最终引入动态自适应检测头DynamicHead,将尺度感知、空间感知和任务感知融合到一个统一的框架中,并在目标检测头中有效地应用注意力机制,整体提升航拍小目标检测的分类与定位性能。所提算法在VisDrone2019-DET数据集上的mAP50、mAP50-95分别达到了45.2%、27.4%,相较于基准算法分别提升了12.1%、8.1%,同时模型参数量基本保持同一水平,实现了精度与效率的双重突破。
  • 王进, 张建成, 徐成, 徐冰心, 张铖, 李天赐
    录用日期: 2026-05-29
    针对课堂场景中学生行为尺度差异较大、分布密集以及后排学生行为识别精度不足等问题,本文在YOLO11n基线模型的基础上提出了一种改进的课堂学生行为识别算法:MSD-YOLO。首先,在Backbone部分引入多尺度行为感知模块,增强网络对不同尺度行为特征的感知能力,在特征提取阶段缓解前后排学生尺度不一致带来的影响。其次,在Neck部分设计语义-空间深度融合模块,从而加强高层语义信息与低层空间细节之间的交互,提升密集场景下特征表达的判别性。最后,在Head部分的每个检测头前引入双尺度上下文聚合模块,通过整合全局上下文信息与特征重标定机制,进一步增强网络对目标较小学生的行为区分能力,从而在检测阶段提升网络对后排学生行为的识别精准度。实验结果表明,与YOLO11n 基线模型相比,MSD-YOLO在自建数据集上的mAP@0.5和mAP@0.5:0.95分别提升了3.2%和3.7%;在公开数据集STBD-08上相较于基线模型,mAP@0.5和mAP@0.5:0.95分别提升2.4%和2.6%。同时,在引入较少计算量和参数的前提下,算法仍保持良好的实时性能,验证了改进算法在课堂学生行为识别任务中的有效性与实用价值。
  • 何瑶杰, 付晓东
    录用日期: 2026-05-29
    在线服务信誉度量通过聚合用户反馈形成服务信誉,帮助用户在缺乏充分信息的情况下判断服务可信度。然而,由于服务环境的动态演变,服务质量、用户数量及其偏好等会随时间持续变化,只关注单一时间点的信誉度量方法难以及时准确反映这些变化。此外,未考虑用户群体满意度最大化的服务信誉度量机制难以吸引用户群体做出符合其真实体验的评价,从而导致某些服务被赋予不实信誉值。为此,提出了一种最大化用户群体满意度的在线服务信誉度量方法。首先,将动态环境下在线服务信誉度量建模为用户群体满意度最大化的部分可观测马尔科夫决策(Partially Observable Markov Decision Process, POMDP)优化问题。其次,针对用户群体评价标准不一致的情况,采用大语言模型计算奖励函数并以此度量用户群体满意度。最后,通过Rainbow DQN算法求解该优化问题。实验在Movielens与Yelp两个公开数据集上进行,并采用多种LLM进行评测。结果显示提出的方法能够给出符合多数用户偏好的信誉度量结果,从而实现用户群体满意度最大化,验证了所提方法的有效性。
  • 王才智, 王阳, 杨观赐
    录用日期: 2026-05-29
    随机配置网络(Stochastic configuration networks, SCNs)在神经网络训练过程中引入随机化学习机制以提升建模效率,并提出一种数据驱动的监督机制保证模型的通用逼近能力。然而,其增量构建过程中,每次新增隐藏层节点后对隐藏层输出权重的计算依赖于隐藏层输出矩阵伪逆的重复求解,这在一定程度上制约了模型的训练效率。此外,随机化学习方法在提升建模效率的同时,不可避免地会引入潜在冗余的隐藏层节点。为此,本文提出一种增量正则化随机配置网络的组稀疏学习方法(GSL-IRSCN)。首先,为提升正则化SCNs在增量建模过程中的训练效率,基于Woodbury分块矩阵求逆公式提出了带L2正则化项SCNs的输出权重增量更新策略,从而避免了对正则化正规矩阵逆的重复计算,有效降低了模型的计算开销。然后,针对随机化学习机制导致的冗余隐藏层节点问题,引入具有更强稀疏效果的组L1/2正则化并结合交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)进行优化,实现了对模型中冗余节点的高效稀疏,简化了模型的网络结构。在4个UCI和KEEL数据集的实验结果表明,提出的GSL-IRSCN在训练效率和模型紧凑性方面均取得了优于现有对比方法的性能。
  • 许涵, 叶杉, 戴秋菊, 丁亚军, 王润民
    录用日期: 2026-05-29
    参考伪装目标检测(Ref-COD)旨在依托参考图像或文本,精准分割指定伪装目标,是伪装目标检测领域的新型任务。大部分现有方法仅采用单一模态参考信息,在多源参考信息融合及跨模态特征适配方面存在明显局限,难以充分发挥参考指导价值。为此,本文提出一种基于文本-图像多模态融合的Ref-COD网络(TIFNet),实现多源信息高效利用与精细检测。首先,通过金字塔视觉Transformer(PVT)编码器、冻结显著目标检测(SOD)编码器及对比语言-图像预训练(CLIP)编码器,分别提取输入图像、参考图像及参考文本的多阶段特征;设计多键值参考融合模块(MRFM),完成跨模态特征对齐与深度融合,强化参考信息定向指导作用;引入参考空间通道增强模块(RSCM),从双维度实现融合特征与参考特征的双向互增强,消解模态差异;最后利用参考自适应归一化模块(RANM),聚焦关键像素细节,提升模型对多样化伪装场景的自适应能力。大量实验结果表明,该方法相较于近年来主流最优(SOTA)方法,已在R2C7K数据集上的 、 、 、 评价指标上分别取得了0.869、0.929、0.786、0.022的结果,展现出了显著的优势,有效提升了复杂场景下指定伪装目标的分割精度与鲁棒性,为多源信息驱动的伪装目标检测提供了新思路。
  • 付苏, 王帅群
    录用日期: 2026-05-29
    :针对甲状腺超声结节分割中边界模糊、对比度低及小体积多变等难题,提出改进模型MAD-UNet,通过强化跨层特征传递一致性与形变上下文建模提升轮廓刻画能力。在编码器与解码器的跳跃连接处嵌入多方向可分离注意力模块(Multi-Directional Separable Attention Module,MDSAM),通过方向感知的通道—空间联合注意力对关键边缘响应进行重加权,增强浅层空间细节与深层语义信息的一致性,从而强化边界定位并缓解深层网络训练中的梯度衰减问题。其次,将Transformer编码器深度扩展至24层,以更充分地建模长程依赖与全局上下文。进一步地,引入形变自适应多尺度上下文模块(Deformable Adaptive Multi-Scale Context Module,DAMCM),结合形变建模与多尺度上下文聚合,实现局部结构对齐与全局语境补充的自适应融合,增强对不规则轮廓与细小目标的表达能力。模型在TN3K、DDTI与上海第六人民医院THN-L数据集上的Dice系数分别达到89.10%、90.53%和91.17%。整体性能均优于TransUNet基线;复杂度评估显示,模型参数量为215.27M、浮点运算量(floating-point operations,FLOPs)为65.96G、推理速度为111帧每秒(frames per second,FPS)。可视化分析显示在复杂超声条件下对结节轮廓具有更强鲁棒性。实验结果验证了该模型在精细边界刻画与小病灶识别方面的有效性,为后续面向临床应用场景的部署与优化提供了方法基础。
  • 王晗, 李燊, 杜夏威, 舒燕君, 胡辰, 余果, 刘玉海
    录用日期: 2026-05-29
    针对国产通用图形处理器(GPGPU)平台集合通信中静态策略适应性差、策略规模膨胀及性能抖动等问题,提出一种面向国产异构算力平台的离线集合通信自动调优与通信策略优化及固化方法。该方法通过对通信原语、消息规模及节点规模构建多维性能空间模型,并结合系统化离线基准测试获取性能数据。在此基础上,为降低异构环境下系统噪声的影响,设计了一种基于默认策略性能对比与显著性阈值判定的筛选机制,先以默认策略为基准进行性能差异评估,再通过统计分析识别具备显著性能优势的通信策略组合,从而实现集合通信过程中的通信策略优化。进一步地,构建基于消息规模区间的策略模型,将离散采样点映射为连续区间,并将优化后的策略映射逻辑集成至RCCL通信库内部决策模块中。实验结果表明,在国产异构集群环境下,该方法无需引入额外运行时开销即可实现通信策略的自动匹配。相较默认策略,规约(Reduce)与全规约(AllReduce)的带宽利用率平均提升分别达到22.4%和24%。该方法通过离线调优与策略固化,有效规避动态搜索带来的开销与稳定性问题,为大规模分布式训练系统提供了一种高效且可工程化的通信优化方案。
  • 崔丽群, 王小涵, 金海波
    录用日期: 2026-05-26
    针对现有基于CycleGAN的无监督图像去雾方法中存在的生成器训练混淆、图像细节恢复不足和雾效去除不彻底问题,提出了基于高频信息增强的无监督图像去雾网络(HIE-Net)。首先,构建多分支去雾网络(MBDN),通过共享编码模块对图像特征空间进行统一编码,同时采用多分支解码模块针对不同雾浓度特征实现差异化适配与精准解码,并结合大气散射模型(ASM)构建无监督约束,规范生成器的训练过程;其次,设计高频多尺度增强模块(HMEM),基于大核分组注意力门构建双向引导机制,通过雾区特征与增强后高频信息的双向交互,同步完成雾区特征与图像纹理、边缘等高频信息的多尺度增强;最后,引入通道特征提纯模块(CFPM),通过通道交叉注意力机制精准筛选雾敏感通道,抑制特征融合阶段的雾残留干扰,优化通道特征空间分配,借助空间交叉注意力机制捕获不同区域的雾浓度关联与空间依赖关系,实现深度特征的精细化提纯。实验结果表明,HIE-Net在BeDDE数据集上,PSNR、SSIM和LPIPS分别达21.20 dB、0.779和0.198,为图像去雾领域提供了一种新思路。
  • 唐智文, 胡星辰, 胡意晖, 郭天翔, 李硕豪, 黄金才
    录用日期: 2026-05-26
    在交通监测与公共安全场景中,仅依赖地面或空中单一视角的车辆重识别往往难以满足广域、复杂、多场景的识别需求。地面视角虽然图像细节丰富,但视野受限且易受遮挡;空中视角具备大范围监视优势,却常因目标尺寸小、细节不足而造成识别性能下降。因此,融合地空视角开展跨视角车辆重识别,已成为提升大规模交通感知能力的研究热点。然而,该任务同时面临尺度变化剧烈、跨视角外观差异大、类内距离显著大于类间距离以及跨场景数据有限等挑战。为此,本文提出一种面向跨视角车辆重识别的大模型语义增强方法。方法基于CLIP-ReID多模态框架,首先利用Qwen-VL-Plus多模态大模型生成车辆图像的细粒度结构化描述,并借助Qwen-Max语言大模型融合来自地面与空中不同视角的语义信息,形成统一、稳定的跨视角语义表示。随后,将这一语义表示显式注入到两阶段图文对比学习中,以增强模型在跨场景、跨平台条件下的域泛化能力。为推动该方向的工程落地与后续研究,本文还构建了覆盖多种飞行高度、采集设备与场景条件的跨视角地空车辆图像数据集,并设计跨场景域泛化的数据划分与评测方案,为研究者提供新的标准测试基准。实验结果显示,所提方法在多项指标上显著优于纯视觉基线模型,特别是在跨场景域泛化测试中的表现领先于现有先进算法,验证了语义增强在跨视角识别任务中的有效性。该方法在智能交通监控、无人机巡查、区域安防等场景具有良好的应用前景和工程价值。
  • 陈昕, 孙溢成, 谈诚
    录用日期: 2026-05-26
    随着以高性能计算系统、嵌入式系统为代表的复杂智能系统规模与复杂度攀升,日志作为核心运维数据,其自动化异常检测已成为保障系统可靠运行的关键。传统机器学习与深度学习驱动的日志异常检测方法,多侧重日志序列建模,存在语义理解能力不足、泛化性能受限的问题。大语言模型凭借卓越的语义理解与上下文推理能力,有效突破了这一局限,自大语言模型技术兴起以来相关研究快速涌现,但成果分散于多条技术路径,尚未形成系统性梳理。本文针对基于大语言模型的日志异常检测方法开展全面综述,筛选纳入35篇核心文献,构建统一的技术分类框架,将现有方法归纳为提示工程、检索增强生成、领域微调、强化学习与大小模型协作五类技术路线。研究分析发现监督微调是当前应用最广泛的技术路线,而大小模型协同架构作为新兴范式,正推动研究重心从单纯追求检测精度向兼顾推理效率与工业可部署性转变;现有评估体系高度集中于检测性能指标,对效率开销与可解释性的关注存在不足。最后,本文揭示了大语言模型在处理超长海量日志流时的推理延迟瓶颈与数据隐私挑战,并针对轻量化部署与在线持续学习等前沿方向提出了见解。
  • 刘朔含, 武优西, 张雅杰, 刘靖宇, 李艳
    录用日期: 2026-05-26
    因果关系挖掘旨在从复杂数据中揭示潜在的因果机制。现有研究多依赖贝叶斯网络框架或对关联规则进行简单过滤,普遍面临挖掘效率低下及未观测混杂变量难以控制等瓶颈,严重制约了因果识别的准确性与鲁棒性。鉴于此,本文提出了一种快速因果规则挖掘算法。该算法基于前缀树结构优化频繁模式挖掘过程,并融合多种剪枝策略显著提升计算效率;同时,引入协变量机制与匹配事务对技术,有效消除混杂因素干扰,从而增强因果规则的可靠性。实验结果表明,该算法的计算效率较基准算法提升了3至4个数量级;在大规模数据集上,其运行时间较同类变体进一步缩短了30%–50%。在准确性方面,相较于基准因果发现方法,该算法的精确率稳定在0.69–0.90区间,F1分数普遍提升40%–60%以上。上述结果充分验证了该算法在大规模因果规则挖掘任务中的高效性与优越性。
  • 王胜明, 杨威威, 马燕, 陈矛
    录用日期: 2026-05-26
    题意理解是实现几何自动证明的关键前提。然而,现有方法普遍存在对特征工程依赖过重、泛化能力有限等问题,难以有效支撑自动解题的需求。针对这一挑战,本文在微调Qwen2.5基座模型的基础上,结合思维链推理与K近邻检索增强技术,提出了一种基于大语言模型的几何题意理解方法。为进一步提升语义翻译的准确性,本文还引入了一种基于智能体的幻觉检测与纠错机制,以缓解题意理解过程中的幻觉问题。实验结果表明,该方法在自建数据集上的准确率与召回率分别达到88.85%和89.12%,性能显著优于多种基线模型;在公开基准Geometry3K上的准确率与召回率分别为94.86%与94.18%,同样优于Inter-GPS等现有方法。此外,通过系统的消融实验与多参数配置对比分析,进一步验证了所提出的多策略融合方法在性能与适应性方面的优越性。
  • 刘畅, 王国宇, 朱国强, 刘少禹, 李永超, 乔俊鹏
    录用日期: 2026-05-22
    水下光学成像面临的核心挑战在于水体散射效应,尤其是后向散射会在成像过程中形成近似均匀的雾化背景,严重掩盖目标结构信息,从而限制水下视觉系统在高浊度环境中的有效应用。针对这一问题,本文构建了一种物理过程与计算成像方法深度融合的水下成像框架,其核心思想在于通过物理扫描与光场冗余约束,将原本难以建模的全局强散射问题转化为具有明确几何与统计特性的局部可分离问题。在具体实现上,首先利用线结构光扫描将广域散射分解为序列帧中的局部散射;随后结合虚拟孔径技术,对光场数据进行基于结构光几何先验的预处理以约束散射区域;进一步利用光场角度冗余性构建极平面图像(Epipolar Plane Image, EPI),并通过低秩分解分离具有低秩特性的后向散射分量与具有稀疏特性的目标信号;最后,通过序列帧拼接与亮度均匀化处理获得完整的高质量水下图像。系统实验在10–30 浊度单位(NTU)范围内开展。实验结果表明,所提出的方法在不同浑浊度条件下均显著优于对比方法,在峰值信噪比、结构相似性及无参考质量评价指标上均取得稳定提升。尤其在高浊度条件下,该方法表现出更强的性能鲁棒性,其成像质量随浊度增加的衰减幅度明显低于对比方法,验证了该物理–计算协同成像框架在复杂散射环境中的有效性。
  • 孙坦博, 钟帅, 胡欣骜, 王丽萍
    录用日期: 2026-05-22
    随着数字图像在社交媒体中的广泛应用,其已成为信息传播的核心载体。功能强大且易于使用的图像编辑软件与生成式人工智能技术的兴起,在降低创作门槛的同时,也为图像恶意篡改提供了更隐蔽的途径,导致虚假信息加速扩散。篡改行为会在图像中留下具有特异性的篡改特征,构成了图像篡改检测技术的核心依据。面对日益复杂且多样化的篡改手段,现有综述多聚焦于单一技术路线,缺乏对图像篡改检测技术系统性对比与整合分析。为此,本文构建“特征溯源—提取方式—检测任务”三维分类体系,基于篡改特征将图像篡改检测技术归纳为基于手工特征和基于深度学习特征两大类,并进行以下工作:其一,系统重构基于手工特征的图像篡改检测技术分类框架,将传统研究中分散的手工特征整合为相机系统特征、像素级特征与格式相关特征三大类,深入剖析14种典型图像篡改检测技术的性能优化策略物理机理与改进效果,弥补现有综述在基于手工特征的图像篡改检测技术系统性分析方面的不足;其二,架构化梳理基于深度学习特征的图像篡改检测技术,并针对生成式图像篡改检测技术进行着重分析;其三,对现有篡改图像数据集的构成、特点及其局限性进行归纳与评述,为数据集选择提供可选择的依据;最后,总结展望该领域在未来的研究方向和发展趋势,指出若干亟待解决的关键科学问题,以期为后续研究提供参考与借鉴。
  • 申艺翔, 孙永奇, 赵思聪, 胡从刚
    录用日期: 2026-05-21
    针对现有说话人脸动画生成模型(Talking Face Generation)在身份一致性与音频一致性方面存在的问题,提出一种基于Transformer的说话人脸动画扩散生成方法。首先,为提升身份一致性,设计了一种全局-局部协同的身份对齐模块,该模块利用注意力池化机制聚合全局身份表征,同时引入可学习的位置编码矩阵以精确捕捉局部面部几何结构,从而显著增强了对身份信息的保持能力。其次,为提升音频一致性,提出了一种基于扩散Transformer的多层级特征交错融合方法,在每一层Transformer中深度融合音频与身份特征,并结合多阶段训练策略使生成的口型更加自然。在公开数据集LRS3、HDTF上的实验结果表明,相较于现有方法,所提出的模型在Sync-C和CSIM指标上取得了较好的效果。
  • 杨心怡, 马建敏, 马玉坡
    录用日期: 2026-05-21
    多标签模糊数据中存在着特征冗余、交互关系复杂及特征重要度差异大等问题,制约了多标签学习的分类性能。为此,提出ReliefF-β算法对特征赋权,给出基于特征加权交互的多标签特征选择方法。首先,针对多标签模糊数据,构造特征相似度和标签相似度,引入调节参数β融合两类相似度,构建全局样本相似度,提出ReliefF-β算法为特征赋权。其次,基于特征权重引入多标签加权模糊粗糙集,定义加权模糊熵及加权模糊互信息等不确定性度量,研究其性质和关系。接着,综合考虑特征的相关性、冗余性和交互性,定义特征加权评价函数,给出基于特征加权交互的多标签特征选择算法。最后,在两种分类器下对所提算法进行对比实验分析,结果表明,相比其他对比算法,在ML-KNN下,平均精度(AP)平均提升8.79%,汉明损失(HL)、排序损失(RL)、覆盖率(CV)和1-错误率(OE)分别平均降低5.06%、15.33%、10.97%和23.06%;在BRDT下,AP平均提升4.06%,HL、RL、CV和OE分别平均降低8.60%、10.28%、7.19%和5.89%,消融实验与统计检验进一步验证了所提方法的有效性。
  • 谢斌红, 孙晓松, 张睿
    录用日期: 2026-05-20
    复杂场景下的小目标检测任务长期面临两大技术瓶颈:一是微弱目标特征在深层神经网络中极易衰减,二是环境背景噪声干扰严重。针对上述瓶颈,本研究提出一种端到端实时小目标检测模型WF-DETR。特征提取阶段设计特征交织网络,摒弃简单层级堆叠方式,采用异构特征交织策略;借助跨层级特征互校正机制,将深层语义信息与浅层几何细节紧密交织并双向校准,在保证高层语义强度的同时,有效抑制特征传递过程中的空间信息衰减,缓解小目标特征丢失问题。颈部网络部分受人类视觉生理机制启发,提出FoveaFormer模块,通过自适应稀疏注意力机制与门控单元模拟人眼中央凹成像机制,动态过滤背景冗余噪声,聚焦高价值目标区域,显著提升特征纯度。此外,引入哈尔小波下采样算子重构下采样过程,从频域角度克服传统池化导致的高频纹理细节不可逆丢失弊端,进一步增强小目标特征辨识度。在VisDrone2019基准数据集上的实验结果表明,模型mAP@0.5:0.95达23.7%,推理速度高达166.3 FPS。实验结果充分验证WF-DETR在复杂背景小目标检测任务中的实时性与优越性。
  • 何睿颖, 田有亮, 向阿新, 周凤, 刘开祺
    录用日期: 2026-05-20
    云计算因其高效的数据存储与管理能力,使数据共享和访问变得更加便捷,而如何在开放的云环境中保障数据安全与用户隐私成为关键问题。为了对存储在云服务器上的数据进行细粒度的访问控制,密文策略属性基加密(CP-ABE)得到了广泛的应用。然而,现有方案在处理层次化数据和追溯恶意密文方面仍存在不足,难以同时满足高效分级访问和数据来源可信性的需求。为解决这一问题,本文提出一种支持密文可追溯的分层属性基访问控制方案。首先,基于分层CP-ABE框架构建高效的分级访问机制,通过统一具有层次关系的访问策略树,实现不同级别数据在统一访问结构下的加密与解密,显著降低加解密过程中的计算开销。其次,引入基于零知识证明的签名机制,在保障数据拥有者匿名性的前提下,保证密文与其生成者身份进行安全绑定,从而能够准确恢复恶意密文的真实来源。最后,安全性分析表明本方案能有效抵抗选择明文攻击。实验评估表明本方案与现有方案相比具有较低的加解密计算开销,更适用于云环境下安全、高效且可追溯的数据共享场景。
  • 朱彦斌, 张汗灵, 王润民
    录用日期: 2026-05-20
    微表情是一种转瞬即逝、不受主观意识支配的面部肌肉运动,能够揭示个体试图隐藏的真实情绪。然而,微表情识别任务面临持续时间短、运动强度低、局部特征细微、公开数据规模有限以及个体差异明显等诸多挑战,限制了传统方法的识别准确率与泛化能力。为此,该研究提出一种基于动态路由专家的单流细粒度微表情识别方法。受混合专家模型启发,该方法以动态路由专家替代Transformer中传统的多头自注意力层,通过稀疏激活策略动态筛选专家网络,并借助专家间的协作机制增强特征表示能力,从而在保持计算效率的同时,提升模型表征容量。此外,设计了一种多粒度非对称聚合模块,该模块结合方向感知卷积与通道注意力,能够有效解耦空间特征并在不同网络层次自适应调整特征粒度,从而更精准地捕捉微表情的细微定向运动与局部纹理变化。在SAMM、SMIC和CASME II三个公开数据集上的实验表明,所提方法性能显著优于主流方法。在复合数据集上,未加权平均召回率与未加权F1分数分别达到87.65%和87.21%。实验结果验证了该方法在捕捉微表情细微动态特征方面的有效性,为复杂场景下的情感识别提供了可靠的技术支持。
  • 聂泽莉, 孙丹枫, 赵建勇, 邬惠峰
    录用日期: 2026-05-19
    机器人以及视觉系统在工厂的大量应用推动了小批量、多品种的混线生产,也使得产品目标尺寸规格的多样化及到达时序的不确定性急剧增加,导致产线大量衔接段存在的堆叠任务仍然极具挑战。随着序列中目标数量增加,堆叠任务的求解时间及解精度难以保障。针对上述问题,提出一种面向序列堆叠任务的刺激记忆混合寻优算法,该算法将序列堆叠任务分解为组合块知识库构建与堆叠决策优化两个子任务。首先,在初始待堆叠目标序列中搜索满足质量阈值的基础目标组合以构建组合块知识库,该过程引入刺激记忆机制来动态更新现有组合知识。其次,将组合块等效处理为一个宏目标后对所有目标的放置顺序及放置姿态进行联合优化。基于不同尺寸分布数据集上的对比实验结果表明,相较于基线算法,所提算法在实现最优堆叠空间平均填充率的情况下至少能够减少 4.94% 的堆叠方案求解时间,验证了其在序列堆叠任务中的有效性。消融实验结果表明,所提完整算法在求解时间上表现最优,验证了该算法结构设计的合理性。
  • 鲁世博, 李京
    录用日期: 2026-05-19
    针对雷达辐射源个体识别中单一连续脉冲模型难以兼顾整体时序信息与单脉冲细粒度特征、单脉冲模型缺乏全局动态信息,导致复杂电磁环境下识别性能受限的问题,本文提出一种双分支轻量融合识别方法。首先,通过连续脉冲切分将原始脉冲序列划分为连续脉冲序列与单脉冲两类数据,构建脉间序列分支与单脉冲分支对应的数据集,并分别训练连续序列模型和单脉冲模型,以提取脉间时序特征和细粒度脉内特征,实现两类信息的互补建模。随后,分别设计特征级融合与决策级融合两种策略:在特征级融合中引入门控机制,通过学习不同分支特征的重要性权重,对连续脉冲特征与单脉冲特征进行自适应加权并构建联合特征表示;在决策级融合中,基于两模型的概率输出采用软投票方式整合预测结果,以提高识别稳定性。为验证方法有效性,在实测雷达数据集上开展对比实验与消融实验。结果表明,两种融合策略均优于单一模型,其中决策级融合较单一连续脉冲模型识别准确率提升约8个百分点,较单一单脉冲模型提升约3个百分点;特征级融合在模型参数量较基准模型降低两个数量级的情况下仍取得最优识别性能。研究结果表明,所提方法在保证识别精度的同时具备良好的轻量化优势与工程应用潜力。
  • 康盼盼, 曹月成, 滕立平, 陈俊杰, 李洪均
    录用日期: 2026-05-19
    近年来,自监督骨架动作识别虽取得进展,但在强增强条件下仍面临两类训练偏差:局部扰动分配失衡易导致关键运动片段过扰动、低动态区域差异不足;多正样本对比中非目标正样本参与归一化竞争,易引发目标冲突并削弱表示聚合。为此,本文提出一种面向视图构造与目标构造协同优化的自监督对比学习框架DCD-CLR,从增强分配与对比目标两个层面共同提升骨架表征学习质量。视图端设计连续动态显著性调度增强,融合帧间差分能量与数据级关节运动先验,构建帧-关节级动态强度图,对时空扰动幅度进行连续、区域级、样本自适应调度,在保留关键运动片段的同时提升视图差异性。目标端提出目标隔离的多正样本去偏对比目标,在计算目标正样本归一化项时移除其余正样本,以降低正样本竞争干扰并提升表征分布边界清晰度。在线性评估设置下,该方法在NTU60 xsub、NTU120 xset和PKU-MMD I上分别取得85.9%、79.6%和92.6%的识别精度;结合表示分布可视化、迁移评估与噪声干扰实验结果表明,所提方法具有较好的稳定性、泛化能力与鲁棒性。
  • 陈 虹, 王金炜, 金海波, 武 聪, 杨 梓
    录用日期: 2026-05-19
    随着网络攻击手段日益复杂和隐蔽,提升入侵检测模型对复杂流量模式的表征与识别能力已成为重要研究问题。现有入侵检测方法虽在一定程度上提升了检测性能,但面对复杂网络流量数据,直接建模仍存在特征表达不足的问题。为强化特征间的局部关联与结构信息,现有研究常将一维流量特征映射为二维类图像表示,以便利用深度模型进行学习。然而,受特征维度及编码方式限制,流量图像通常存在尺寸较小、结构表达受限等问题,固定增强方式难以适应不同攻击模式的表征差异;同时,攻击类别分布不均衡也进一步制约了模型对少数类攻击的识别能力。针对上述问题,本文提出一种基于动态选择性特征增强的网络流量入侵检测方法。该方法以动态选择机制为主线,在表征层通过多尺度特征增强模块按输入内容自适应融合不同感受野特征,以缓解小尺寸流量图像的表征受限问题;在判别层通过动态自适应模块结合少数类注意力,对关键响应进行差异化强化,以提升模型对少数类攻击的识别能力。实验结果表明,该方法在NSL-KDD数据集上取得了96.49%的准确率、95.11%的精确率、96.32%的召回率和95.50%的F1分数;在UNSW-NB15数据集上的实验结果验证了所提方法的良好泛化能力;在TON-IoT-Network数据集构建的模拟流式环境中,模型在连续输入条件下表现出较稳定的检测效果,说明其在在线入侵检测场景中具有一定的适应能力。
  • 曹麒, 李少东, 卢帅延, 张哲浩, 杨国凯
    录用日期: 2026-05-15
    近年来,基于RGB图像的手部网格重建受到广泛关注。现有方法主要依赖堆叠复杂视觉模块来提升重建精度,但会导致较高的计算开销,难以满足实时应用需求。针对这一问题,本文在训练阶段引入自然语言信息,将高层先验知识注入网络,从而增强视觉特征表达能力。由于文本分支仅在训练阶段参与监督,因此不会增加主体网络的参数量,保证模型的实时性。为更有效地增强视觉表征,本文提出双尺度文本生成模块,从全局与局部两个层面对手部特征进行描述。全局文本提示基于各手指弯曲程度对手部整体姿态进行建模,局部文本提示则依据各关节点的空间位置信息对手部局部特征进行描述,并利用对比学习约束多尺度文本特征与图像特征在公共语义空间中的一致性。考虑到CLIP模型对文本表述较为敏感,手工设计提示词往往需要大量调试,且难以保证其能够充分匹配图像特征。为此,本文设计“固定文本提示+可学习词向量”的组合方式,其中固定文本提示用于概括主要语义信息,可学习词向量用于对提示进行自适应微调,以提高文本描述对手部网格重建任务的适配性。实验结果表明,与实时性方法相比,本文方法在保持实时性的同时取得了出色的重建精度。在 FreiHAND 数据集上,PA-MPJPE和PA-MPVPE指标分别达到5.5mm和5.8mm;在DexYCB数据集上,分别达到5.4mm和5.2mm;推理速度达到68fps。消融实验表明,双尺度文本提示在手部网格重建中发挥了关键作用。
  • 宋承臣, 吴琪, 苗旺
    录用日期: 2026-05-15
    随着数字平台的普及,攻击性模因的形态日趋复杂多样,加剧了高质量标注数据的匮乏,使得小样本条件下的模态语义对齐偏差成为制约检测性能的核心问题。为此,提出融合跨模态元学习与单模态修正的攻击性模因检测方法(CMML-UR)。所提方法首先设计跨模态双梯度元学习框架,利用图像粗细粒度分层特征所提供的多层次视觉语义,结合多正则文本建模生成的低噪声文本表征,实现跨模态语义的稳定对齐与快速适应,提升小样本下的泛化能力。在决策融合阶段,进一步引入单模态置信度门控修正机制,基于对各模态输出置信度的样本级评估,自适应抑制不可靠模态噪声,并对预测结果进行动态校准。实验结果表明,所提方法在MultiOFF数据集上的加权F1值达到74.6%,较SOTA模型提升4.3个百分点,在小样本泛化性实验中加权F1值仍保持69.3%,较基线模型(63.7%)提升5.6个百分点,充分验证了其在小样本场景下复杂跨模态语义理解的高效性与噪声抑制的鲁棒性。
  • 云健, 王松楠, 张雪怡
    录用日期: 2026-05-15
    本文针对联邦学习在医学影像分类任务中面临的系统异构性与数据异构性双重挑战,提出一种基于强化学习的自适应联邦优化算法SEFedProX。该算法在异构环境下采用Soft Actor-Critic算法,基于客户端数据分布、性能反馈等关键状态特征,在连续动作空间中动态调整近端项系数,有效克服离散动作空间引发的量化误差与模型振荡问题,实现了对本地训练强度的精准平滑控制。同时,引入在ImageNet上预训练的EfficientNetV2B2作为特征提取网络,在提升模型表征效率与判别能力的同时,显著降低对资源受限医疗边缘设备的部署要求,缓解了小规模医学数据下的过拟合风险。在四种不同系统异构性设置下,基于四个医学影像数据集和一个通用数据集的系统性实验结果表明,SEFedProX在分类精度、收敛速度、稳定性与鲁棒性方面均显著优于现有基线方法。消融实验进一步验证了SAC连续调控机制与EfficientNetV2B2网络各自的有效性及其在算法中的协同增强作用。本研究为异构医疗环境下分布式智能诊断系统的构建提供了一种稳定、高效且具备强自适应能力的技术方案。
  • 张可冬, 钱旭升, 周志勇, 戴亚康
    录用日期: 2026-05-15
    多模态视觉-语言基础模型在医学领域展现出重要应用潜力,但由于医学数据语义结构复杂、跨模态关系建模困难,现有方法仍存在明显不足:一方面,基于患者的刚性对齐策略忽略语义相似性,导致不合理的负样本排斥,影响模型学习能力;另一方面,缺乏对报告与影像多层级语义结构的统一建模,难以实现细粒度的跨模态层次化对齐。针对上述问题,该文提出了一种语义驱动的全局–局部层级对齐的医学视觉语言分类模型(GLCA),通过全局–局部协同对齐实现更优的医学视觉语言分类模型。具体而言,GLCA包括语义驱动的患者间软全局对齐和渐进式三粒度患者内局部对齐两部分。语义驱动的患者间软全局对齐利用跨患者语义样本对挖掘和相关性加权对比惩罚来构建更连续、更符合真实语义关系的特征空间。渐进式三粒度患者内局部对齐通过渐进式查询融合策略在三个层次上对齐视觉与文本特征:粗粒度(报告–图像)、中粒度(句子–区域)、细粒度(词语–图块),实现跨模态与跨粒度的有效交互。其中,全局–局部协同对齐首先利用患者间的软全局对齐构建符合真实语义关系的特征空间,进而通过患者内的渐进式三粒度局部对齐实现视觉与文本特征的逐层匹配,两者协同优化,确保跨模态语义的连续嵌入与精准对应。在四个胸部X光数据集上进行的大量实验表明,GLCA在零样本预测分类和少样本微调分类任务中均显著优于现有方法。其中,对于公开的14分类胸部X光片数据集ChestXray14上的零样本预测分类实验,在AUC、F1和ACC指标上分别较次优方法提升了1.2%、2.0%和2.2%。
  • 钟杭, 张清华, 罗南方, 郭芮利
    录用日期: 2026-05-15
    多模态对话情感识别通过融合语言、声学和视觉等多源信息,实现对话情绪的自动识别,从而增强人机交互的自然性与情感理解。然而,现有方法在建模情感的多层上下文依赖方面仍存在不足,模态融合易引入冗余或噪声,且难以刻画情感的不确定性,限制复杂情绪识别。针对上述问题,提出了一种融合混合编码与模糊建模的多模态对话情感识别模型。该模型通过混合编码模块同时建模情感的全局对话上下文与局部依赖关系,从而增强情感时序特征的表达能力,并在此基础上引入分层门控融合机制,对不同层次和不同模态特征进行动态加权融合,以有效抑制冗余信息与噪声干扰。在情感分类阶段,采用线性等间距初始化的模糊神经网络,通过模糊隶属函数对情感类别边界进行建模,以刻画情绪表达中的不确定性与模糊性。实验结果显示,该模型在 IEMOCAP、MELD 和 CMU-MOSEI 三个数据集上的各项指标均优于基线方法,在 IEMOCAP 上准确率达到 72.67%,MELD 上为 67.37%,CMU-MOSEI 七分类与二分类准确率分别为 54.96% 和 86.78%,验证了所提方法在多模态情感分析中的有效性。