作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 赵成俊, 徐贤
    录用日期: 2026-06-15
    钢铁表面缺陷的各向异性纹理特征显著,类内差异大,现有实时检测方法在特征金字塔网络融合阶段对此类方向性局部纹理的感知能力普遍不足。针对这一问题,以RT-DETR为基础框架,提出面向工业表面缺陷检测的方向感知异构卷积特征增强方法,包含三项核心设计:(1)提出方向感知稀疏卷积核DASC(Direction-Aware Sparse Convolution),将通道按方向分组并施加固定稀疏空间掩码,在FPN标准通道配置(C=256)下计算量约为等规格标准卷积的11.5%,可并行感知右、左、下、上及中心5个方向的局部纹理;(2)构建交互瓶颈DIR(Direction-aware Interaction and Refinement),采用扩展—激活—压缩的双层DASC结构,实现通道间方向特征的层次化融合,搭建LFEC3-RT(Lightweight Feature Enhancement module with Cross-stage 3 modules for RT-DETR)特征增强模块;(3)提出跨尺度特征金字塔一致性部署策略CFPD(Cross-scale FPN Consistent Deployment),将LFEC3-RT全局覆盖特征金字塔4个融合位置,消除选择性部署引起的跨尺度特征风格不一致现象。在NEU和GC10-DET两个钢铁表面缺陷基准上的实验表明:NEU上mAP@0.5为76.3%(较基线RT-DETR-R18提升2.2个百分点),GC10-DET上为64.4%(提升3.3个百分点),与YOLOv11m等主流方法性能相当或更优,计算量仅56.0 GFLOPs,参数量19.8M,在检测精度与计算效率间实现良好平衡。消融实验表明,方向数由1增至5时mAP从74.4%提升至76.3%,扩展比λ=4为最优,CFPD全局部署较选择性部署提升0.9%。
  • 范兴刚, 时雪刚, 廖思腾, 赵依依, 梁玉珠, 王田
    计算机工程. https://doi.org/260431
    录用日期: 2026-06-15
    大语言模型参数规模的激增与边缘终端受限的物理资源间存在深刻的结构性矛盾,制约了其规模化落地。传统的云端集中式推理高度依赖网络传输,面临较高通信延迟,难以满足自动驾驶、智能医疗等场景对极低迟延与严格数据隐私的双重诉求。然而,边缘物理硬件涵盖从微控制器到边缘网关,具有极大的异构性,云侧通用压缩方案难以直接平移。为此,本文立足于边缘设备的异构物理约束,系统性地综述了面向边缘侧的大模型高效压缩与软硬件协同部署技术体系。 首先,本文剖析了模型量化、参数剪枝与知识蒸馏三大核心压缩技术在边缘场景下的底层机制。量化方面,训练后量化虽具备部署敏捷性,但面临大语言模型长尾激活异常导致的表征坍塌难题;量化感知训练虽具一定鲁棒性,却受制于边缘重训算力匮乏的瓶颈。剪枝方面,本文论证了结构化剪枝在受限访存带宽硬件上的实际能效优势,指出非结构化剪枝的高理论压缩率易被通用边缘芯片的索引寻址开销所抵消。蒸馏方面,传统浅层参数对齐在跨越教师与边缘学生模型间的容量鸿沟时,存在特征丢失与偏见放大风险。综合来看,单一压缩技术在极端约束下已呈现出明显的边际收益递减效应。 其次,为缓解单一技术的性能瓶颈,本文归纳了受控于模型架构与物理场景双重驱动的多级混合压缩范式。系统梳理了三类核心优化链路:追求较高物理压缩率的串行流水线策略,适配边缘网关的实时推理;面向能效与精度严格折中的深度耦合联合优化流,将量化、剪枝与低秩分解置于同一框架内同步更新,适配功耗受限的移动终端;以及面向大参数模型部署的蒸馏驱动机制,利用教师先验引导结构重塑与量化。该多级范式有效拓展了模型规模、计算功耗与保真度之间的多维权衡空间。 进一步地,面对跨度极大的算力与能耗阶梯,本文构建了“系统-模型-算子-指令”四层软硬件协同设计机制。明确指出协同优化重心需依物理基座约束进行动态转移:系统级侧重云边环境的资源感知调度与任务分发;模型级依赖硬件感知架构搜索实现结构自适应;算子级推进跨层融合与访存局部性重构;指令级则聚焦特定微架构(如RISC-V)的定制扩展指令,以精准控制底层能耗。结合模型转换、编译重构与内存管理(如SwapNet)的全链条部署流程,该机制实现了压缩算法向底层物理执行的有效映射,提升了异构算力的综合利用效率。 最后,本文前瞻性地指出了边缘智能轻量化领域的未来研究挑战。强调超低位宽(4bit及以下)的鲁棒性补偿机制、硬件自适应动态半结构化剪枝,以及对大模型深层逻辑推理的有效知识转移,是克服当前轻量化瓶颈的核心方向。同时,亟需依托深度学习编译器构建硬件无感的统一工具链,消除碎片化异构设备的部署壁垒。本文通过体系化的技术梳理,为发展低延迟且强隐私的边缘智能生态提供了坚实的理论支撑与参考指南。
  • 仝松松, 杨奎武, 周刚, 丁梦迪
    录用日期: 2026-06-12
    针对机器学习即服务(MLaaS)黑盒场景下后门防御部署困难的问题,本文提出一种仅需自然图像统计先验的自适应图像预处理防御框架。该框架通过对输入图像进行多维度特征分析,构建后门风险量化指标;根据风险等级,动态选择并组合压缩-重建、几何变换、颜色扰动及动态随机序列等多层次处理操作,以破坏潜在后门触发器的激活条件,并引入质量反馈机制平衡防御效果与视觉可用性。在GTSRB、CIFAR-10和MINI-ImageNet数据集上的实验表明,面对BadNets、Blended、WaNet、反射攻击和WaveAttack五种涵盖显式补丁、全局混合、几何扭曲、物理反射及频域扰动的代表性攻击进行了评估,本方法在保持模型正常分类性能(平均准确率下降不超过3.5%)的同时,将攻击成功率平均降至10%以下,其中对WaveAttack攻击的抑制效果显著,成功率最低可降至2.38%。消融实验证实自适应策略与质量反馈机制对性能提升的关键作用,且在三个规模各异的数据集上均表现稳定,显示出良好的通用性。该研究为MLaaS黑盒服务提供了一种高效、实用的自适应后门防御新方案。
  • 赵一静, 秦 娜, 刘 远, 宋梦浩
    录用日期: 2026-06-12
    遥感图像变化检测旨在通过对比分析双时相影像包含的时空演变信息,精准定位地表覆盖的变化情况,已成为国土资源动态监测、城市扩张评估及灾害应急响应等领域的核心任务。然而,受复杂地形干扰、光照条件差异、季节植被更替以及传感器成像噪声等多重因素影响,变化区域常常呈现尺度跨度大、空间分布离散以及边界模糊等特性。现有变化检测模型存在对多尺度信息利用不充分以及深层全局语义关联提取不充分的问题,模型难以有效区分真实地表演变与伪变化,制约了其在开放场景下的判别精度。针对上述局限,提出一种面向遥感图像变化检测的多级损失辅助孪生网络(Multi-level loss-assisted Siamese-Network,MLLA_SiaNet)。该模型采用权值共享孪生架构分别提取双时相图像的多维特征,通过多级差分编码器生成层次化特征图。为了突破传统差分方法的线性局限,引入多角度差异表示策略并耦合通道-空间混合注意力机制,设计差分融合模块(Differential Fusion Module,DFM)获取高质量差异特征,实现背景干扰的自适应抑制与真实变化特征的精准聚焦。为了弥补全局语义缺失,将空间池化金字塔与高斯金字塔结合,提出深度语义提取模块(Deep Semantic Pyramid,DSP)构建多层级语义聚合特征,有效扩大感受野并强化长程上下文依赖建模。模型的解码阶段采用渐进式上采样与特征融合机制逐级恢复空间细节,实现高分辨率预测图像的重建。并引入深度监督的多级辅助损失(Multi-level Loss-assisted,MLA)优化训练过程,通过对解码器各层输出进行辅助约束,确保局部边缘信息与全局信息一致性,构建端到端特征学习模型。为系统验证模型有效性,在SYSU-CD与LEVIR-CD公开数据集上开展对比实验并分析结果。在SYSU-CD数据集上,MLLA_SiaNet以82.13%的F1分数优于其他七种对比方法,较次优方法SFEARNet提升1.3个百分点;其精确度与召回率分别达到最优值83.42%和80.88%,实现了查准率与查全率的同步提升。在LEVIR-CD数据集上,MLLA_SiaNet的精确度达到了89.48%,充分说明所提出的方法在抑制光照、阴影及植被季节性变化等伪变化因素方面的有效性;本模型在LEVIR-CD数据集上的F1分数为85.87%,优于SFEARNet(精确度84.89%)、BIT(精确度82.80%)与IFN(精确度82.29%)等其他方法。对实验结果的定量分析与定性分析说明,模型在不同分辨率与复杂地物条件下均展现出较好的鲁棒性。消融实验进一步证实了DFM、DSP与MLA模块在提升模型性能方面的优势,并通过分析模型的可视化响应特征图,验证了模型各个阶段的有效性。综上,本研究缓解了遥感图像变化检测任务中多尺度特征交互不足、全局语义信息关联性较弱以及对伪变化抑制困难等关键问题的影响。未来工作将聚焦于轻量化部署、多时相序列建模及自监督预训练技术,拓展模型鲁棒性的系统性评测。
  • 邹圣鹏, 马福利, 李云龙, 于勤思, 胡晓彦, 邹自明
    录用日期: 2026-06-12
    随着空间科学卫星数量的持续增加及科学载荷类型的多样化,下行科学数据规模不断增长,数据处理任务在数量、类型及处理流程等方面的复杂度显著提升,不同数据处理任务在时效性要求和计算资源占用特征方面存在显著差异,给地面数据处理系统带来了更高的计算与调度压力,因此需要结合空间科学卫星数据处理任务特点进行计算资源调度策略的研究,对卫星数据处理任务的执行顺序与计算资源进行更高效的调度与分配,从而提升整体处理效率与系统响应能力。本文提出了一种支持在线决策的深度强化学习资源调度算法DeepRL- Sched,该算法以近端策略优化(Proximal Policy Optimization,PPO)为核心,将卫星数据处理任务调度过程建模为马尔可夫决策过程。为了解决强化学习方法仅依赖当前系统状态进行决策而易产生短视性的问题,以及训练过程中收敛慢、稳定性差的挑战,设计了计算资源需求预测模块和模仿学习模块两个关键组件:前者通过预测未来任务负载与资源需求,构建扩展状态表示,从而增强策略对系统未来演化趋势的感知能力,缓解因局部观测导致的短视决策;后者则采用模仿学习方法,从高质量专家调度策略中提取先验知识,引导策略网络训练,从而有效提升算法的收敛速度与训练稳定性。实验结果表明,该算法能够有效提升空间科学卫星地面数据处理系统的调度效率,降低任务整体完成时间,并显著改善高时效性任务的处理及时性。
  • 李振雄, 黄庭宇, 曹敏, 杨靖, 徐凌桦, 邓波
    录用日期: 2026-06-11
    无人机目标检测技术在光伏电站生态修复监测中的应用潜力巨大,但在实际应用中面临背景干扰、特征模糊及目标尺寸小等挑战。针对上述关键问题,本文提出一种基于改进RT-DETR(Real-Time DEtection TRansformer)的目标检测模型MDS-DETR(MambaVision driven Dilated-attention Small-object DEtection TRansformer)。首先,设计改进型主干网络 CSP-MambaVision(Cross-Stage Partial and MambaVision Hybrid Backbone Network),通过将CSP的梯度分流特性与MambaVision的线性全局建模能力协同,并引入SFS-Conv和EMA对特征渐进式优化,增强对复杂环境的视觉语义建模能力;其次,将轻量化后的注意力转换块DTAB(Dilated Transformer Attention Block)替代原生AIFI(Attention-based Intrascale Feature Interaction)模块,依托分组通道控制与掩码空间约束,在扩大感受野捕捉多尺度上下文信息的同时优化模型对特征模糊类目标的感知与判别能力;最后,提出小目标检测模块SOEP-MFM(Small Object Enhance Pyramid with Modulation Fusion Module),利用跨尺度的特征重组与动态调整权重机制,实现小目标特征在网络中的多层次保持,有效增强小目标的表征能力,提升模型对小目标的检测精度。在公开数据集上的实验结果表明,MDS-DETR各项指标上较现有算法具有显著优势,其中Precision、Recall、mAP50%及mAP50-95%较基线模型分别提高了4.96%、3.04%、4.09%与3.58%,优于其他主流算法。此外,将基于迁移学习优化的MDS-DETR模型应用于光伏生态修复监测任务中,结果表明其测量的覆盖度与实测数据具有高度一致性,可为光伏电站的生态修复规划提供可靠的支撑。
  • 徐静雯, 唐堃, 杨梦龙, 王丽会
    录用日期: 2026-06-11
    多模态医学图像配准旨在实现不同成像模态间解剖结构的精确空间对齐,但由于成像机理差异,不同模态在灰度分布与纹理特征上存在显著不一致性,使得现有方法在复杂场景下仍面临配准精度与鲁棒性不足的问题。近年来,无监督特征解耦方法虽在一定程度上缓解了对配准标签的依赖,但由于缺乏显式约束,易导致模态信息抑制不充分及关键解剖结构信息损失。因此,如何在有效消除模态差异的同时保持结构信息的完整性,仍是多模态医学图像配准中的关键挑战。 针对上述问题,本文提出一种基于显式特征解耦与结构重建约束的多模态医学图像配准方法(Feature Decoupling and Structural Reconstruction Network,FDR-Net),构建了涵盖特征解耦、形变估计与重建验证的闭环学习框架。首先,通过引入全局自注意力机制的特征编码器,将输入图像显式分解为模态风格与解剖结构信息,并结合模态判别约束促进结构特征中风格信息的有效剥离。进一步地,设计跨模态特征混合机制,通过人为构造模态干扰,增强模型对模态变化的鲁棒性,从而学习更加稳定的结构表示。在配准阶段,以解耦后的结构特征为输入,利用U-Net预测密集形变场,并通过特征级与图像级相似性约束实现结构对齐,同时结合平滑正则化以保证形变的连续性与物理合理性。此外,引入循环一致性重建模块,该模块基于预测形变场动态生成重建目标,并通过由结构相似性(SSIM)与均方误差(MSE)构成的复合重建损失反向约束特征学习过程,从而在抑制模态差异的同时进一步强化关键结构信息的保持能力。 为验证所提方法的有效性,本文在 SR-Reg 与 BraTS2021 两个公开数据集上进行了系统评估。在 SR-Reg 数据集上,未配准时 Dice 为 62.24%,FDR-Net 达到 79.58%,较次优方法 BSF_Fusion(77.86%)提升 1.72 个百分点,HD95 为 2.89 mm,ASSD 为 0.90 mm,且在脑室等关键结构区域表现出更平滑稳定的形变场。在更具挑战的 BraTS2021 数据集上,FDR-Net 依然取得最佳性能,Dice 达 86.85%,较 BSF_Fusion(84.98%)提升 1.87 个百分点,HD95 与 ASSD 分别降至 4.12 mm 与 1.79 mm,表明其在肿瘤病灶引起的复杂形变条件下仍具有优异鲁棒性。消融实验进一步表明,移除跨模态混合机制、模态判别约束或循环一致性重建模块后,Dice 分别下降 5.3、4.8 和 6.1 个百分点,特征分析结果亦验证了模型能够有效降低结构特征的模态可分性,实现稳定的模态不变表示学习。 综上所述,本文提出的 FDR-Net 通过显式特征解耦、跨模态特征混合、多重判别约束及循环一致性重建机制,实现了模态风格信息与解剖结构信息的有效分离,在保证结构完整性的前提下显著提升了多模态医学图像配准的精度与鲁棒性。该方法无需依赖生成式图像转换或手工设计相似性度量,为复杂临床场景下的多模态医学图像配准提供了一种高效且具有良好泛化能力的解决方案。
  • 李 博, 刘首文, 袁梦霆
    录用日期: 2026-06-11
    混合专家(MoE)网络在资源受限的边缘FPGA部署时面临严峻的存储墙与负载不均衡挑战。现有动态调度或批处理方案难以满足流式推理的实时性要求。为此,提出一种基于负载感知的软硬件协同优化方法。利用专家激活的长尾分布特征,设计概率感知静态锁定(PASL)策略,通过分层存储机制在有限容量下最小化访存延迟;同时,构建统计驱动的自动化设计空间探索(DSE)引擎,实现计算资源的非均匀最优适配。此外,针对真实边缘场景中普遍存在的宏观分布漂移挑战,提出了一种面向负载演进的迟滞型软硬协同重构机制,有效屏蔽了微观语义噪声并避免了缓存震荡。实验表明,在单帧流式推理场景下,该方法相比均匀分配策略吞吐率最高可提升2.22倍,相比现有先进方案Edge-MoE的策略吞吐率最高可提升1.52倍;在各任务的能效比方面,最高可达CPU和GPU的2.9倍和3.1倍;在处理复杂视觉Transformer时端到端延迟低至16.33ms。在面临动态分布漂移时,相较于静态基线实现了17.3%的吞吐率提升,同时在稳态随机场景保持了零额外开销,有效解决了边缘端MoE网络部署的实时性、能效与动态环境适应性瓶颈。
  • 吴永庆, 张涵
    录用日期: 2026-06-05
    命名实体识别旨在从文本中准确识别具有特定语义类别及明确边界的实体。针对中文文本中缺乏显式词边界、语义表达复杂以及多音字、形近字广泛存在所带来的语义歧义问题,现有方法多依赖字符或词汇信息进行建模,对拼音、部首等关键语言学特征的利用仍显不足,同时在多源异构特征融合过程中多采用简单拼接或加权方式,难以充分挖掘不同特征之间的深层语义关联,进而限制了模型整体性能的进一步提升。本文提出一种基于多特征层次化融合(Multi-Feature Hierarchical Fusion,MFHF)的中文命名实体识别方法,以实现多维语言学特征的协同建模与深度语义融合。首先,在特征表示阶段构建字符、拼音、部首和词汇四类嵌入表示,其中字符嵌入基于预训练语言模型获取上下文语义信息并捕获长距离依赖关系,拼音嵌入通过编码拼音序列刻画语音差异,有助于缓解多音字歧义问题,部首嵌入利用卷积神经网络对汉字结构进行建模,从字形层面提取细粒度语义特征,词汇嵌入基于词典匹配机制引入词级信息,以增强模型对多字实体边界的感知能力,从而从语音、字形和词汇语义多个维度提升字符表示能力。其次,为解决多源特征融合过程中信息交互不足及融合粒度单一问题,设计层次化交叉注意力机制,在局部层面构建拼音—部首与字符—词汇两组交叉注意力,通过双向注意力交互分别建模音形之间的内在关联以及字级与词级语义之间的结构关系,使不同模态特征能够在细粒度层面实现信息对齐与互补,在全局层面,将经过局部增强的多源特征进行拼接,并引入多头自注意力机制对其进行统一建模,实现跨特征的深层语义整合,从而获得兼具多维信息的语义增强表示。在此基础上,引入多任务学习与对抗训练的联合优化策略,通过拼音预测和部首预测辅助任务强化特征学习,并在嵌入空间加入基于梯度的对抗扰动,以提升模型在复杂环境下的鲁棒性与泛化能力。最后,将融合后的特征表示输入BiLSTM进行序列建模,并通过条件随机场进行全局解码,从而获得实体识别结果。为验证所提方法的有效性,在MSRA、Weibo和Resume三个公开中文命名实体识别数据集上进行实验评估,并从整体性能与不同实体类型两个层面进行对比分析。实验结果表明,MFHF模型在MSRA、Resume和Weibo数据集上分别取得96.78%、96.14%和71.80%的F1值,整体性能优于多种代表性基线模型。其中,在MSRA数据集上相较于CPL-NER模型取得1.09个百分点的性能提升,在Weibo数据集上较GS-Lexicon模型提升1.55个百分点,在Resume数据集上相较于Lattice-LSTM模型取得1.68个百分点的提升。综上,本文方法通过多特征层次化融合与联合优化策略,有效提升了中文命名实体识别的语义建模能力与模型鲁棒性。
  • 赵超, 文进辉, 余果, 赵艳楠, 杜夏威, 胡辰, 刘伟, 尹泽明, 刘玉海
    录用日期: 2026-06-05
    面向大语言模型的低精度训练有助于降低训练成本并提升硬件利用率,但现有高效低精度训练框架大多依赖原生FP8硬件支持,难以直接迁移至缺乏FP8执行能力的国产加速卡平台。因此,如何在不依赖专用FP8硬件单元的条件下,重构适配国产加速卡的低精度训练路径,并在保持训练稳定性的同时获得实际的端到端性能收益,成为亟待解决的问题。针对这一问题,本文提出了一种基于INT8动态量化的Transformer Engine高效训练方案。该方案面向国产加速卡已有的整数矩阵乘能力,对原有FP8线性层计算流程进行重新设计,从而在无需专用FP8硬件支持的条件下实现大语言模型的低精度预训练。 在方法设计上,所提方案保留了Transformer Engine的动态尺度管理思想,并将原有依赖FP8硬件支持的线性层计算流程重构为“动态量化—INT8矩阵乘—INT32累加—融合反量化恢复”的跨精度执行通路,使计算最密集的矩阵乘操作能够映射到底层整数算力单元。为兼顾可实现性与执行效率,本文采用tensorwise粒度的动态量化策略,对激活与权重按照张量动态范围进行在线缩放,并结合国产SIMT架构加速卡对INT8×INT8整数矩阵乘和INT32累加的原生支持,实现了Transformer Engine核心线性层算子的国产化重构。进一步地,针对统一INT8量化下输入嵌入层和输出层等数值敏感模块易出现激活与梯度尺度失衡、量化误差放大及收敛退化的问题,本文从梯度传播与误差传播两个角度分析了相关层的数值特性,并据此提出分层精度量化策略:输入嵌入层与输出层保持BF16精度,以保证梯度传播的稳定性和参数更新的可靠性;注意力投影层及前馈网络等中间计算密集模块采用INT8低精度通路,以充分释放整数计算单元的吞吐能力;缩放因子及部分关键中间量采用较高精度保存,以兼顾数值稳定性与实际加速效果。在此基础上,本文将该方案集成至Megatron-lm分布式训练框架,并在国产加速卡上开展多模型预训练验证。 实验选取Llama2-7B、Llama2-13B、Llama3.1-8B、Qwen3-4B、Qwen3-8B以及基于Mixtral-8x7B架构裁剪得到的Mixtral-8x7B-8L模型作为评测对象,在统一训练轮次条件下,对BF16基线与所提INT8方案进行对比分析。结果表明,该方法在不同模型上均能够保持与BF16基线整体接近的训练损失下降趋势,训练过程中未出现明显震荡、发散或收敛停滞,说明重构后的INT8训练路径能够较好保持大模型预训练过程中的收敛稳定性。在端到端训练效率方面,Llama2-7B、Llama2-13B、Llama3.1-8B、Qwen3-4B、Qwen3-8B和Mixtral-8x7B-8L的训练加速比分别达到1.21、1.16、1.17、1.07、1.20和1.12,表明该方法在不同规模和不同结构的大语言模型上均具有较为稳定的效率收益。 综合来看,本文提出的方法在缺乏原生FP8硬件支持的国产加速卡上实现了Transformer Engine低精度训练路径的有效重构。通过动态量化、INT8计算通路和分层精度量化策略的协同设计,该方法在保持训练收敛稳定性的前提下获得了稳定的端到端加速效果。实验结果表明,在现有硬件条件下,基于软件层计算路径重构与模型结构感知的精度配置,能够有效释放整数计算单元潜力,为国产平台上的大模型高效预训练提供可行方案。
  • 方安然, 朝乐门
    录用日期: 2026-06-03
    本研究旨在探究生成式人工智能(Generative Artificial Intelligence, GAI)在自训练循环中的模型退化风险,重点聚焦内容同质化与人机文本差异两大核心现象。研究选取两种结构具有代表性的生成模型,构建自训练迭代实验框架,以人类数据在训练集中的占比α为核心超参数,在α不同取值下并结合线性递减、指数衰减两类典型动态策略开展对照实验,通过多维度性能指标系统评估生成内容的质量、多样性及与人类文本的差异程度。结果显示,GAI在自训练过程中性能呈持续下降趋势,生成内容多样性显著弱化,人机文本差异逐步扩大;线性递减策略可有效延缓信息熵下降、维持内容多样性,但后期易受模型生成数据污染的累积影响;指数衰减策略虽初期性能波动较明显,但其长期稳定性更优。此外,轻量级单向语言模型(GPT2)在自训练中更易陷入噪声放大的恶性循环,而具备更强全局建模能力的双向编码器模型(BART)在面对生成数据污染时,展现出更优异的鲁棒性。本研究为优化GAI自训练的动态数据配比策略提供了重要实证支撑。
  • 王立辉, 李 元 , 刘泽峰 , 魏雅川
    录用日期: 2026-06-03
    针对无人机电力巡检图像背景杂乱及目标尺度多变导致检索精度受限的问题,提出一种基于频域坐标协同与多尺度门控的电力图像检索网络Swin-FMG。该方法以Swin Transformer为骨干架构,首先,提出频域坐标协同注意力机制(FCCA),通过结合全局频谱滤波与正交空间投影有效抑制环境噪声并恢复目标几何特征的物理连续性。其次,设计语义引导的多尺度门控融合模块(MSCGF),利用深层语义自适应筛选浅层多尺度纹理并构建双流检索表征,增强模型应对跨视角尺度变化的感知能力。最后,引入低秩适配微调与难样本三元组联合损失函数,在缓解小样本过拟合风险的同时进一步优化特征度量空间的类间可分性。在自建电力巡检图像检索数据集上的实验结果表明,Swin-FMG的平均精度均值达到63.15%,首位召回率达到71.04%。与基准Swin Transformer相比,其平均精度均值提升了4.19%。实验结果表明,Swin-FMG能有效剥离复杂环境干扰并捕获尺度不变特征,在兼顾计算效率的前提下显著提升了电力设备的图像检索性能,验证了所提方法的有效性。
  • 胡昀霏, 谷飞, 韩朴宇
    录用日期: 2026-06-03
    在动态类型语言的编译优化过程中,受运行时类型不确定性的影响,编译器需要插入大量合法性检查节点。现有的基于可达性分析的冗余代码消除(Redundant Code Elimination, RCE)算法通常将所有控制流节点视为可能产生副作用的节点,从而在分析过程中保留了与这些检查节点相关联的计算与控制流结构,导致部分语义上无效的计算与控制流难以被安全删除。针对这一问题,以方舟运行时为研究平台,系统分析其编译优化流程与中间表示(Intermediate Representation, IR)结构,提出了一种语义驱动的RCE方法。该方法首先从程序的可观测语义出发,构建形式化语义模型,将程序行为抽象为由输入输出、抛出异常、系统调用及以特定返回值退出构成的可观测事件序列,并据此将RCE问题转化为以不改变程序的可观测语义为前提的IR子图删除问题。在此基础上,提出合法性检查删除判定准则:当检查节点及其依赖的计算不产生副作用,且其结果不被任何影响程序可观测行为的节点使用时,该检查及相关计算可被安全删除。该准则突破了合法性检查对RCE的干扰,将部分被传统方法保留但语义上无效的计算及其检查视为可删除节点。围绕该准则,设计了基于语义约束的有效节点传播机制:首先初始化包含副作用节点的有效节点集合,然后沿数据依赖关系扩展该集合,在集合中保存可能影响程序可观测行为的节点,从而识别并删除冗余计算及其附属检查。进一步地,针对传统方法无法处理的冗余控制流问题,结合控制流图构建、支配关系分析与循环结构识别算法,提出冗余循环与冗余分支的检测与删除方法,实现对空循环、空分支等结构的整体消除。该方法已在方舟运行时编译框架中完成集成,在IR层实现了对冗余计算与控制流的优化。相关实验表明,在指令数量方面,优化后所有测试程序的平均执行指令减少比例为3.4%,在存在冗余控制流的典型用例中,平均减少27.4%,最高达到98.26%;在执行时间方面,各测试用例平均降低3.4%,典型用例平均降低26.4%,少数循环密集型程序的执行时间降低达99.99%;在编译开销方面,算法的运行时间平均仅占总编译时间的2.28%,其额外开销较低;在整体性能评估中,多数典型用例的编译与执行总时间均呈下降趋势,最高降低94.55%。此外,经过913个运行时单元测试用例及19749个test262标准测试验证,算法未引入语义变化。对比源码级RCE工具,该算法在更细粒度的计算与控制流层面仍能进一步获得性能收益,体现出了IR层优化的独特优势。该方法在保证程序语义等价的前提下,有效突破了动态类型语言中合法性检查对RCE的限制,显著提升了编译产物的执行效率,同时保持较低的编译开销,为动态类型语言运行时的编译优化提供了一种新的思路。
  • 郑诚, 陶文浩
    录用日期: 2026-06-02
    方面级情感分析旨在对文本中特定方面的情感极性做出判断。现有的方法往往采用图神经网络和注意力机制来编码句子的句法依赖信息和语义信息,然而,句法依赖树仅能捕获词语之间的依存关系,无法表达短语级句法结构,限制了模型对短语级句法信息的利用;并且在使用常规softmax注意力机制捕获句子的语义特征时,通常会受到无关上下文的干扰,从而产生过多语义噪声。因此,本文提出一个基于句法增强和语义降噪的方面级情感分析模型。在句法分支中,引入句法成分树构建句法成分图,以补充短语级句法信息,利用句法成分图和句法依赖图分别编码两种句法信息,并通过句法融合机制动态整合两种信息,得到句法增强表征;在语义分支中,引入差分注意力机制降低无关上下文的注意力权重,从而降低语义噪声,得到降噪后的语义表征;另外,通过在词嵌入末端拼接外部知识嵌入得到融合外部知识的表征,以帮助模型更好地理解句子语义;最后利用多特征融合模块将三种特征进行充分融合。实验结果表明,相较于S2GSL等基线模型,本文模型在Laptop、Restaurant和Twitter数据集上的准确率分别提高至少0.36、0.83和3.13个百分点,在Laptop和Twitter数据集上的F1分数分别提高至少0.56和2.96个百分点,验证了本文模型句法增强和语义降噪方法的有效性。
  • 王朝, 王怡静, 代成
    录用日期: 2026-06-02
    持续异常检测侧重于增量学习新类别的同时保持历史记忆。然而,生成式回放面临的频谱偏差与高频伪影严重制约了微小异常的精细分割。为此,该研究提出了DenoiseCAD,一种基于级联纯化体系的抗噪框架,为消除生成伪影导致的特征偏移,防止模型捕捉与缺陷无关的虚假特征。首先,该研究提出了一种基于特征原型引导的潜空间校正机制,在模型扩散反向过程中利用正常类别的特征原型作为语义锚点,通过计算特征度量梯度来迭代修正潜变量,从源头抑制分布偏移噪声。其次,基于参数敏感性实验构建任务驱动型频率滤波,实施针对数据来源特性的多粒度频谱联合约束策略,有效阻断高频伪影的传播。最后,实施基于锚点的权重固化,通过各向同性的参数距离约束,防止模型对残留噪声过拟合。至此构建了从源头到末端的全链路去噪框架,从而有效平衡了模型的可塑性与稳定性,缓解了灾难性遗忘难题,为复杂工业智能质检场景提供了可靠的新框架。实验表明,DenoiseCAD 在 VisA 和 MVTec 数据集上均取得 SOTA 性能,其像素级异常分割精度较现有最优方法分别提升了 2.8% 和 1.5%。
  • 彭晏飞, 白一卉, 王子莹, 陈笑竹
    录用日期: 2026-06-02
    无人机目标检测在智能交通、环境监控等领域发挥着重要作用,然而受目标尺寸大小、拍摄角度等多种因素限制,使航拍小目标检测面临尺度变化剧烈与特征易衰减的问题。针对上述问题,提出一种改进YOLOv11n的无人机航拍视角下的目标检测算法:DBD-YOLO。在特征提取阶段引入融合多膨胀率空洞卷积与自适应通道分配的DWR多尺度结构,在低计算开销下有效扩展感受野并增强小目标上下文表征;在颈部网络中新增P2特征层参与特征融合流程,采用BiFPN实现跨尺度双向加权融合,以提升浅层细节与深层语义协同效率,并以Dysample点重采样替代传统上采样,在降低显存与时延的同时保持细粒度特征;最终引入动态自适应检测头DynamicHead,将尺度感知、空间感知和任务感知融合到一个统一的框架中,并在目标检测头中有效地应用注意力机制,整体提升航拍小目标检测的分类与定位性能。所提算法在VisDrone2019-DET数据集上的mAP50、mAP50-95分别达到了45.2%、27.4%,相较于基准算法分别提升了12.1%、8.1%,同时模型参数量基本保持同一水平,实现了精度与效率的双重突破。
  • 王进, 张建成, 徐成, 徐冰心, 张铖, 李天赐
    录用日期: 2026-05-29
    针对课堂场景中学生行为尺度差异较大、分布密集以及后排学生行为识别精度不足等问题,本文在YOLO11n基线模型的基础上提出了一种改进的课堂学生行为识别算法:MSD-YOLO。首先,在Backbone部分引入多尺度行为感知模块,增强网络对不同尺度行为特征的感知能力,在特征提取阶段缓解前后排学生尺度不一致带来的影响。其次,在Neck部分设计语义-空间深度融合模块,从而加强高层语义信息与低层空间细节之间的交互,提升密集场景下特征表达的判别性。最后,在Head部分的每个检测头前引入双尺度上下文聚合模块,通过整合全局上下文信息与特征重标定机制,进一步增强网络对目标较小学生的行为区分能力,从而在检测阶段提升网络对后排学生行为的识别精准度。实验结果表明,与YOLO11n 基线模型相比,MSD-YOLO在自建数据集上的mAP@0.5和mAP@0.5:0.95分别提升了3.2%和3.7%;在公开数据集STBD-08上相较于基线模型,mAP@0.5和mAP@0.5:0.95分别提升2.4%和2.6%。同时,在引入较少计算量和参数的前提下,算法仍保持良好的实时性能,验证了改进算法在课堂学生行为识别任务中的有效性与实用价值。
  • 何瑶杰, 付晓东
    录用日期: 2026-05-29
    在线服务信誉度量通过聚合用户反馈形成服务信誉,帮助用户在缺乏充分信息的情况下判断服务可信度。然而,由于服务环境的动态演变,服务质量、用户数量及其偏好等会随时间持续变化,只关注单一时间点的信誉度量方法难以及时准确反映这些变化。此外,未考虑用户群体满意度最大化的服务信誉度量机制难以吸引用户群体做出符合其真实体验的评价,从而导致某些服务被赋予不实信誉值。为此,提出了一种最大化用户群体满意度的在线服务信誉度量方法。首先,将动态环境下在线服务信誉度量建模为用户群体满意度最大化的部分可观测马尔科夫决策(Partially Observable Markov Decision Process, POMDP)优化问题。其次,针对用户群体评价标准不一致的情况,采用大语言模型计算奖励函数并以此度量用户群体满意度。最后,通过Rainbow DQN算法求解该优化问题。实验在Movielens与Yelp两个公开数据集上进行,并采用多种LLM进行评测。结果显示提出的方法能够给出符合多数用户偏好的信誉度量结果,从而实现用户群体满意度最大化,验证了所提方法的有效性。
  • 王才智, 王阳, 杨观赐
    录用日期: 2026-05-29
    随机配置网络(Stochastic configuration networks, SCNs)在神经网络训练过程中引入随机化学习机制以提升建模效率,并提出一种数据驱动的监督机制保证模型的通用逼近能力。然而,其增量构建过程中,每次新增隐藏层节点后对隐藏层输出权重的计算依赖于隐藏层输出矩阵伪逆的重复求解,这在一定程度上制约了模型的训练效率。此外,随机化学习方法在提升建模效率的同时,不可避免地会引入潜在冗余的隐藏层节点。为此,本文提出一种增量正则化随机配置网络的组稀疏学习方法(GSL-IRSCN)。首先,为提升正则化SCNs在增量建模过程中的训练效率,基于Woodbury分块矩阵求逆公式提出了带L2正则化项SCNs的输出权重增量更新策略,从而避免了对正则化正规矩阵逆的重复计算,有效降低了模型的计算开销。然后,针对随机化学习机制导致的冗余隐藏层节点问题,引入具有更强稀疏效果的组L1/2正则化并结合交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)进行优化,实现了对模型中冗余节点的高效稀疏,简化了模型的网络结构。在4个UCI和KEEL数据集的实验结果表明,提出的GSL-IRSCN在训练效率和模型紧凑性方面均取得了优于现有对比方法的性能。
  • 许涵, 叶杉, 戴秋菊, 丁亚军, 王润民
    录用日期: 2026-05-29
    参考伪装目标检测(Ref-COD)旨在依托参考图像或文本,精准分割指定伪装目标,是伪装目标检测领域的新型任务。大部分现有方法仅采用单一模态参考信息,在多源参考信息融合及跨模态特征适配方面存在明显局限,难以充分发挥参考指导价值。为此,本文提出一种基于文本-图像多模态融合的Ref-COD网络(TIFNet),实现多源信息高效利用与精细检测。首先,通过金字塔视觉Transformer(PVT)编码器、冻结显著目标检测(SOD)编码器及对比语言-图像预训练(CLIP)编码器,分别提取输入图像、参考图像及参考文本的多阶段特征;设计多键值参考融合模块(MRFM),完成跨模态特征对齐与深度融合,强化参考信息定向指导作用;引入参考空间通道增强模块(RSCM),从双维度实现融合特征与参考特征的双向互增强,消解模态差异;最后利用参考自适应归一化模块(RANM),聚焦关键像素细节,提升模型对多样化伪装场景的自适应能力。大量实验结果表明,该方法相较于近年来主流最优(SOTA)方法,已在R2C7K数据集上的 、 、 、 评价指标上分别取得了0.869、0.929、0.786、0.022的结果,展现出了显著的优势,有效提升了复杂场景下指定伪装目标的分割精度与鲁棒性,为多源信息驱动的伪装目标检测提供了新思路。
  • 付苏, 王帅群
    录用日期: 2026-05-29
    :针对甲状腺超声结节分割中边界模糊、对比度低及小体积多变等难题,提出改进模型MAD-UNet,通过强化跨层特征传递一致性与形变上下文建模提升轮廓刻画能力。在编码器与解码器的跳跃连接处嵌入多方向可分离注意力模块(Multi-Directional Separable Attention Module,MDSAM),通过方向感知的通道—空间联合注意力对关键边缘响应进行重加权,增强浅层空间细节与深层语义信息的一致性,从而强化边界定位并缓解深层网络训练中的梯度衰减问题。其次,将Transformer编码器深度扩展至24层,以更充分地建模长程依赖与全局上下文。进一步地,引入形变自适应多尺度上下文模块(Deformable Adaptive Multi-Scale Context Module,DAMCM),结合形变建模与多尺度上下文聚合,实现局部结构对齐与全局语境补充的自适应融合,增强对不规则轮廓与细小目标的表达能力。模型在TN3K、DDTI与上海第六人民医院THN-L数据集上的Dice系数分别达到89.10%、90.53%和91.17%。整体性能均优于TransUNet基线;复杂度评估显示,模型参数量为215.27M、浮点运算量(floating-point operations,FLOPs)为65.96G、推理速度为111帧每秒(frames per second,FPS)。可视化分析显示在复杂超声条件下对结节轮廓具有更强鲁棒性。实验结果验证了该模型在精细边界刻画与小病灶识别方面的有效性,为后续面向临床应用场景的部署与优化提供了方法基础。
  • 王晗, 李燊, 杜夏威, 舒燕君, 胡辰, 余果, 刘玉海
    录用日期: 2026-05-29
    针对国产通用图形处理器(GPGPU)平台集合通信中静态策略适应性差、策略规模膨胀及性能抖动等问题,提出一种面向国产异构算力平台的离线集合通信自动调优与通信策略优化及固化方法。该方法通过对通信原语、消息规模及节点规模构建多维性能空间模型,并结合系统化离线基准测试获取性能数据。在此基础上,为降低异构环境下系统噪声的影响,设计了一种基于默认策略性能对比与显著性阈值判定的筛选机制,先以默认策略为基准进行性能差异评估,再通过统计分析识别具备显著性能优势的通信策略组合,从而实现集合通信过程中的通信策略优化。进一步地,构建基于消息规模区间的策略模型,将离散采样点映射为连续区间,并将优化后的策略映射逻辑集成至RCCL通信库内部决策模块中。实验结果表明,在国产异构集群环境下,该方法无需引入额外运行时开销即可实现通信策略的自动匹配。相较默认策略,规约(Reduce)与全规约(AllReduce)的带宽利用率平均提升分别达到22.4%和24%。该方法通过离线调优与策略固化,有效规避动态搜索带来的开销与稳定性问题,为大规模分布式训练系统提供了一种高效且可工程化的通信优化方案。
  • 崔丽群, 王小涵, 金海波
    录用日期: 2026-05-26
    针对现有基于CycleGAN的无监督图像去雾方法中存在的生成器训练混淆、图像细节恢复不足和雾效去除不彻底问题,提出了基于高频信息增强的无监督图像去雾网络(HIE-Net)。首先,构建多分支去雾网络(MBDN),通过共享编码模块对图像特征空间进行统一编码,同时采用多分支解码模块针对不同雾浓度特征实现差异化适配与精准解码,并结合大气散射模型(ASM)构建无监督约束,规范生成器的训练过程;其次,设计高频多尺度增强模块(HMEM),基于大核分组注意力门构建双向引导机制,通过雾区特征与增强后高频信息的双向交互,同步完成雾区特征与图像纹理、边缘等高频信息的多尺度增强;最后,引入通道特征提纯模块(CFPM),通过通道交叉注意力机制精准筛选雾敏感通道,抑制特征融合阶段的雾残留干扰,优化通道特征空间分配,借助空间交叉注意力机制捕获不同区域的雾浓度关联与空间依赖关系,实现深度特征的精细化提纯。实验结果表明,HIE-Net在BeDDE数据集上,PSNR、SSIM和LPIPS分别达21.20 dB、0.779和0.198,为图像去雾领域提供了一种新思路。
  • 唐智文, 胡星辰, 胡意晖, 郭天翔, 李硕豪, 黄金才
    录用日期: 2026-05-26
    在交通监测与公共安全场景中,仅依赖地面或空中单一视角的车辆重识别往往难以满足广域、复杂、多场景的识别需求。地面视角虽然图像细节丰富,但视野受限且易受遮挡;空中视角具备大范围监视优势,却常因目标尺寸小、细节不足而造成识别性能下降。因此,融合地空视角开展跨视角车辆重识别,已成为提升大规模交通感知能力的研究热点。然而,该任务同时面临尺度变化剧烈、跨视角外观差异大、类内距离显著大于类间距离以及跨场景数据有限等挑战。为此,本文提出一种面向跨视角车辆重识别的大模型语义增强方法。方法基于CLIP-ReID多模态框架,首先利用Qwen-VL-Plus多模态大模型生成车辆图像的细粒度结构化描述,并借助Qwen-Max语言大模型融合来自地面与空中不同视角的语义信息,形成统一、稳定的跨视角语义表示。随后,将这一语义表示显式注入到两阶段图文对比学习中,以增强模型在跨场景、跨平台条件下的域泛化能力。为推动该方向的工程落地与后续研究,本文还构建了覆盖多种飞行高度、采集设备与场景条件的跨视角地空车辆图像数据集,并设计跨场景域泛化的数据划分与评测方案,为研究者提供新的标准测试基准。实验结果显示,所提方法在多项指标上显著优于纯视觉基线模型,特别是在跨场景域泛化测试中的表现领先于现有先进算法,验证了语义增强在跨视角识别任务中的有效性。该方法在智能交通监控、无人机巡查、区域安防等场景具有良好的应用前景和工程价值。
  • 陈昕, 孙溢成, 谈诚
    录用日期: 2026-05-26
    随着以高性能计算系统、嵌入式系统为代表的复杂智能系统规模与复杂度攀升,日志作为核心运维数据,其自动化异常检测已成为保障系统可靠运行的关键。传统机器学习与深度学习驱动的日志异常检测方法,多侧重日志序列建模,存在语义理解能力不足、泛化性能受限的问题。大语言模型凭借卓越的语义理解与上下文推理能力,有效突破了这一局限,自大语言模型技术兴起以来相关研究快速涌现,但成果分散于多条技术路径,尚未形成系统性梳理。本文针对基于大语言模型的日志异常检测方法开展全面综述,筛选纳入35篇核心文献,构建统一的技术分类框架,将现有方法归纳为提示工程、检索增强生成、领域微调、强化学习与大小模型协作五类技术路线。研究分析发现监督微调是当前应用最广泛的技术路线,而大小模型协同架构作为新兴范式,正推动研究重心从单纯追求检测精度向兼顾推理效率与工业可部署性转变;现有评估体系高度集中于检测性能指标,对效率开销与可解释性的关注存在不足。最后,本文揭示了大语言模型在处理超长海量日志流时的推理延迟瓶颈与数据隐私挑战,并针对轻量化部署与在线持续学习等前沿方向提出了见解。
  • 刘朔含, 武优西, 张雅杰, 刘靖宇, 李艳
    录用日期: 2026-05-26
    因果关系挖掘旨在从复杂数据中揭示潜在的因果机制。现有研究多依赖贝叶斯网络框架或对关联规则进行简单过滤,普遍面临挖掘效率低下及未观测混杂变量难以控制等瓶颈,严重制约了因果识别的准确性与鲁棒性。鉴于此,本文提出了一种快速因果规则挖掘算法。该算法基于前缀树结构优化频繁模式挖掘过程,并融合多种剪枝策略显著提升计算效率;同时,引入协变量机制与匹配事务对技术,有效消除混杂因素干扰,从而增强因果规则的可靠性。实验结果表明,该算法的计算效率较基准算法提升了3至4个数量级;在大规模数据集上,其运行时间较同类变体进一步缩短了30%–50%。在准确性方面,相较于基准因果发现方法,该算法的精确率稳定在0.69–0.90区间,F1分数普遍提升40%–60%以上。上述结果充分验证了该算法在大规模因果规则挖掘任务中的高效性与优越性。
  • 王胜明, 杨威威, 马燕, 陈矛
    录用日期: 2026-05-26
    题意理解是实现几何自动证明的关键前提。然而,现有方法普遍存在对特征工程依赖过重、泛化能力有限等问题,难以有效支撑自动解题的需求。针对这一挑战,本文在微调Qwen2.5基座模型的基础上,结合思维链推理与K近邻检索增强技术,提出了一种基于大语言模型的几何题意理解方法。为进一步提升语义翻译的准确性,本文还引入了一种基于智能体的幻觉检测与纠错机制,以缓解题意理解过程中的幻觉问题。实验结果表明,该方法在自建数据集上的准确率与召回率分别达到88.85%和89.12%,性能显著优于多种基线模型;在公开基准Geometry3K上的准确率与召回率分别为94.86%与94.18%,同样优于Inter-GPS等现有方法。此外,通过系统的消融实验与多参数配置对比分析,进一步验证了所提出的多策略融合方法在性能与适应性方面的优越性。
  • 刘畅, 王国宇, 朱国强, 刘少禹, 李永超, 乔俊鹏
    录用日期: 2026-05-22
    水下光学成像面临的核心挑战在于水体散射效应,尤其是后向散射会在成像过程中形成近似均匀的雾化背景,严重掩盖目标结构信息,从而限制水下视觉系统在高浊度环境中的有效应用。针对这一问题,本文构建了一种物理过程与计算成像方法深度融合的水下成像框架,其核心思想在于通过物理扫描与光场冗余约束,将原本难以建模的全局强散射问题转化为具有明确几何与统计特性的局部可分离问题。在具体实现上,首先利用线结构光扫描将广域散射分解为序列帧中的局部散射;随后结合虚拟孔径技术,对光场数据进行基于结构光几何先验的预处理以约束散射区域;进一步利用光场角度冗余性构建极平面图像(Epipolar Plane Image, EPI),并通过低秩分解分离具有低秩特性的后向散射分量与具有稀疏特性的目标信号;最后,通过序列帧拼接与亮度均匀化处理获得完整的高质量水下图像。系统实验在10–30 浊度单位(NTU)范围内开展。实验结果表明,所提出的方法在不同浑浊度条件下均显著优于对比方法,在峰值信噪比、结构相似性及无参考质量评价指标上均取得稳定提升。尤其在高浊度条件下,该方法表现出更强的性能鲁棒性,其成像质量随浊度增加的衰减幅度明显低于对比方法,验证了该物理–计算协同成像框架在复杂散射环境中的有效性。
  • 孙坦博, 钟帅, 胡欣骜, 王丽萍
    录用日期: 2026-05-22
    随着数字图像在社交媒体中的广泛应用,其已成为信息传播的核心载体。功能强大且易于使用的图像编辑软件与生成式人工智能技术的兴起,在降低创作门槛的同时,也为图像恶意篡改提供了更隐蔽的途径,导致虚假信息加速扩散。篡改行为会在图像中留下具有特异性的篡改特征,构成了图像篡改检测技术的核心依据。面对日益复杂且多样化的篡改手段,现有综述多聚焦于单一技术路线,缺乏对图像篡改检测技术系统性对比与整合分析。为此,本文构建“特征溯源—提取方式—检测任务”三维分类体系,基于篡改特征将图像篡改检测技术归纳为基于手工特征和基于深度学习特征两大类,并进行以下工作:其一,系统重构基于手工特征的图像篡改检测技术分类框架,将传统研究中分散的手工特征整合为相机系统特征、像素级特征与格式相关特征三大类,深入剖析14种典型图像篡改检测技术的性能优化策略物理机理与改进效果,弥补现有综述在基于手工特征的图像篡改检测技术系统性分析方面的不足;其二,架构化梳理基于深度学习特征的图像篡改检测技术,并针对生成式图像篡改检测技术进行着重分析;其三,对现有篡改图像数据集的构成、特点及其局限性进行归纳与评述,为数据集选择提供可选择的依据;最后,总结展望该领域在未来的研究方向和发展趋势,指出若干亟待解决的关键科学问题,以期为后续研究提供参考与借鉴。
  • 申艺翔, 孙永奇, 赵思聪, 胡从刚
    录用日期: 2026-05-21
    针对现有说话人脸动画生成模型(Talking Face Generation)在身份一致性与音频一致性方面存在的问题,提出一种基于Transformer的说话人脸动画扩散生成方法。首先,为提升身份一致性,设计了一种全局-局部协同的身份对齐模块,该模块利用注意力池化机制聚合全局身份表征,同时引入可学习的位置编码矩阵以精确捕捉局部面部几何结构,从而显著增强了对身份信息的保持能力。其次,为提升音频一致性,提出了一种基于扩散Transformer的多层级特征交错融合方法,在每一层Transformer中深度融合音频与身份特征,并结合多阶段训练策略使生成的口型更加自然。在公开数据集LRS3、HDTF上的实验结果表明,相较于现有方法,所提出的模型在Sync-C和CSIM指标上取得了较好的效果。
  • 杨心怡, 马建敏, 马玉坡
    录用日期: 2026-05-21
    多标签模糊数据中存在着特征冗余、交互关系复杂及特征重要度差异大等问题,制约了多标签学习的分类性能。为此,提出ReliefF-β算法对特征赋权,给出基于特征加权交互的多标签特征选择方法。首先,针对多标签模糊数据,构造特征相似度和标签相似度,引入调节参数β融合两类相似度,构建全局样本相似度,提出ReliefF-β算法为特征赋权。其次,基于特征权重引入多标签加权模糊粗糙集,定义加权模糊熵及加权模糊互信息等不确定性度量,研究其性质和关系。接着,综合考虑特征的相关性、冗余性和交互性,定义特征加权评价函数,给出基于特征加权交互的多标签特征选择算法。最后,在两种分类器下对所提算法进行对比实验分析,结果表明,相比其他对比算法,在ML-KNN下,平均精度(AP)平均提升8.79%,汉明损失(HL)、排序损失(RL)、覆盖率(CV)和1-错误率(OE)分别平均降低5.06%、15.33%、10.97%和23.06%;在BRDT下,AP平均提升4.06%,HL、RL、CV和OE分别平均降低8.60%、10.28%、7.19%和5.89%,消融实验与统计检验进一步验证了所提方法的有效性。
  • 谢斌红, 孙晓松, 张睿
    录用日期: 2026-05-20
    复杂场景下的小目标检测任务长期面临两大技术瓶颈:一是微弱目标特征在深层神经网络中极易衰减,二是环境背景噪声干扰严重。针对上述瓶颈,本研究提出一种端到端实时小目标检测模型WF-DETR。特征提取阶段设计特征交织网络,摒弃简单层级堆叠方式,采用异构特征交织策略;借助跨层级特征互校正机制,将深层语义信息与浅层几何细节紧密交织并双向校准,在保证高层语义强度的同时,有效抑制特征传递过程中的空间信息衰减,缓解小目标特征丢失问题。颈部网络部分受人类视觉生理机制启发,提出FoveaFormer模块,通过自适应稀疏注意力机制与门控单元模拟人眼中央凹成像机制,动态过滤背景冗余噪声,聚焦高价值目标区域,显著提升特征纯度。此外,引入哈尔小波下采样算子重构下采样过程,从频域角度克服传统池化导致的高频纹理细节不可逆丢失弊端,进一步增强小目标特征辨识度。在VisDrone2019基准数据集上的实验结果表明,模型mAP@0.5:0.95达23.7%,推理速度高达166.3 FPS。实验结果充分验证WF-DETR在复杂背景小目标检测任务中的实时性与优越性。
  • 何睿颖, 田有亮, 向阿新, 周凤, 刘开祺
    录用日期: 2026-05-20
    云计算因其高效的数据存储与管理能力,使数据共享和访问变得更加便捷,而如何在开放的云环境中保障数据安全与用户隐私成为关键问题。为了对存储在云服务器上的数据进行细粒度的访问控制,密文策略属性基加密(CP-ABE)得到了广泛的应用。然而,现有方案在处理层次化数据和追溯恶意密文方面仍存在不足,难以同时满足高效分级访问和数据来源可信性的需求。为解决这一问题,本文提出一种支持密文可追溯的分层属性基访问控制方案。首先,基于分层CP-ABE框架构建高效的分级访问机制,通过统一具有层次关系的访问策略树,实现不同级别数据在统一访问结构下的加密与解密,显著降低加解密过程中的计算开销。其次,引入基于零知识证明的签名机制,在保障数据拥有者匿名性的前提下,保证密文与其生成者身份进行安全绑定,从而能够准确恢复恶意密文的真实来源。最后,安全性分析表明本方案能有效抵抗选择明文攻击。实验评估表明本方案与现有方案相比具有较低的加解密计算开销,更适用于云环境下安全、高效且可追溯的数据共享场景。
  • 朱彦斌, 张汗灵, 王润民
    录用日期: 2026-05-20
    微表情是一种转瞬即逝、不受主观意识支配的面部肌肉运动,能够揭示个体试图隐藏的真实情绪。然而,微表情识别任务面临持续时间短、运动强度低、局部特征细微、公开数据规模有限以及个体差异明显等诸多挑战,限制了传统方法的识别准确率与泛化能力。为此,该研究提出一种基于动态路由专家的单流细粒度微表情识别方法。受混合专家模型启发,该方法以动态路由专家替代Transformer中传统的多头自注意力层,通过稀疏激活策略动态筛选专家网络,并借助专家间的协作机制增强特征表示能力,从而在保持计算效率的同时,提升模型表征容量。此外,设计了一种多粒度非对称聚合模块,该模块结合方向感知卷积与通道注意力,能够有效解耦空间特征并在不同网络层次自适应调整特征粒度,从而更精准地捕捉微表情的细微定向运动与局部纹理变化。在SAMM、SMIC和CASME II三个公开数据集上的实验表明,所提方法性能显著优于主流方法。在复合数据集上,未加权平均召回率与未加权F1分数分别达到87.65%和87.21%。实验结果验证了该方法在捕捉微表情细微动态特征方面的有效性,为复杂场景下的情感识别提供了可靠的技术支持。
  • 聂泽莉, 孙丹枫, 赵建勇, 邬惠峰
    录用日期: 2026-05-19
    机器人以及视觉系统在工厂的大量应用推动了小批量、多品种的混线生产,也使得产品目标尺寸规格的多样化及到达时序的不确定性急剧增加,导致产线大量衔接段存在的堆叠任务仍然极具挑战。随着序列中目标数量增加,堆叠任务的求解时间及解精度难以保障。针对上述问题,提出一种面向序列堆叠任务的刺激记忆混合寻优算法,该算法将序列堆叠任务分解为组合块知识库构建与堆叠决策优化两个子任务。首先,在初始待堆叠目标序列中搜索满足质量阈值的基础目标组合以构建组合块知识库,该过程引入刺激记忆机制来动态更新现有组合知识。其次,将组合块等效处理为一个宏目标后对所有目标的放置顺序及放置姿态进行联合优化。基于不同尺寸分布数据集上的对比实验结果表明,相较于基线算法,所提算法在实现最优堆叠空间平均填充率的情况下至少能够减少 4.94% 的堆叠方案求解时间,验证了其在序列堆叠任务中的有效性。消融实验结果表明,所提完整算法在求解时间上表现最优,验证了该算法结构设计的合理性。
  • 鲁世博, 李京
    录用日期: 2026-05-19
    针对雷达辐射源个体识别中单一连续脉冲模型难以兼顾整体时序信息与单脉冲细粒度特征、单脉冲模型缺乏全局动态信息,导致复杂电磁环境下识别性能受限的问题,本文提出一种双分支轻量融合识别方法。首先,通过连续脉冲切分将原始脉冲序列划分为连续脉冲序列与单脉冲两类数据,构建脉间序列分支与单脉冲分支对应的数据集,并分别训练连续序列模型和单脉冲模型,以提取脉间时序特征和细粒度脉内特征,实现两类信息的互补建模。随后,分别设计特征级融合与决策级融合两种策略:在特征级融合中引入门控机制,通过学习不同分支特征的重要性权重,对连续脉冲特征与单脉冲特征进行自适应加权并构建联合特征表示;在决策级融合中,基于两模型的概率输出采用软投票方式整合预测结果,以提高识别稳定性。为验证方法有效性,在实测雷达数据集上开展对比实验与消融实验。结果表明,两种融合策略均优于单一模型,其中决策级融合较单一连续脉冲模型识别准确率提升约8个百分点,较单一单脉冲模型提升约3个百分点;特征级融合在模型参数量较基准模型降低两个数量级的情况下仍取得最优识别性能。研究结果表明,所提方法在保证识别精度的同时具备良好的轻量化优势与工程应用潜力。
  • 康盼盼, 曹月成, 滕立平, 陈俊杰, 李洪均
    录用日期: 2026-05-19
    近年来,自监督骨架动作识别虽取得进展,但在强增强条件下仍面临两类训练偏差:局部扰动分配失衡易导致关键运动片段过扰动、低动态区域差异不足;多正样本对比中非目标正样本参与归一化竞争,易引发目标冲突并削弱表示聚合。为此,本文提出一种面向视图构造与目标构造协同优化的自监督对比学习框架DCD-CLR,从增强分配与对比目标两个层面共同提升骨架表征学习质量。视图端设计连续动态显著性调度增强,融合帧间差分能量与数据级关节运动先验,构建帧-关节级动态强度图,对时空扰动幅度进行连续、区域级、样本自适应调度,在保留关键运动片段的同时提升视图差异性。目标端提出目标隔离的多正样本去偏对比目标,在计算目标正样本归一化项时移除其余正样本,以降低正样本竞争干扰并提升表征分布边界清晰度。在线性评估设置下,该方法在NTU60 xsub、NTU120 xset和PKU-MMD I上分别取得85.9%、79.6%和92.6%的识别精度;结合表示分布可视化、迁移评估与噪声干扰实验结果表明,所提方法具有较好的稳定性、泛化能力与鲁棒性。
  • 陈 虹, 王金炜, 金海波, 武 聪, 杨 梓
    录用日期: 2026-05-19
    随着网络攻击手段日益复杂和隐蔽,提升入侵检测模型对复杂流量模式的表征与识别能力已成为重要研究问题。现有入侵检测方法虽在一定程度上提升了检测性能,但面对复杂网络流量数据,直接建模仍存在特征表达不足的问题。为强化特征间的局部关联与结构信息,现有研究常将一维流量特征映射为二维类图像表示,以便利用深度模型进行学习。然而,受特征维度及编码方式限制,流量图像通常存在尺寸较小、结构表达受限等问题,固定增强方式难以适应不同攻击模式的表征差异;同时,攻击类别分布不均衡也进一步制约了模型对少数类攻击的识别能力。针对上述问题,本文提出一种基于动态选择性特征增强的网络流量入侵检测方法。该方法以动态选择机制为主线,在表征层通过多尺度特征增强模块按输入内容自适应融合不同感受野特征,以缓解小尺寸流量图像的表征受限问题;在判别层通过动态自适应模块结合少数类注意力,对关键响应进行差异化强化,以提升模型对少数类攻击的识别能力。实验结果表明,该方法在NSL-KDD数据集上取得了96.49%的准确率、95.11%的精确率、96.32%的召回率和95.50%的F1分数;在UNSW-NB15数据集上的实验结果验证了所提方法的良好泛化能力;在TON-IoT-Network数据集构建的模拟流式环境中,模型在连续输入条件下表现出较稳定的检测效果,说明其在在线入侵检测场景中具有一定的适应能力。
  • 曹麒, 李少东, 卢帅延, 张哲浩, 杨国凯
    录用日期: 2026-05-15
    近年来,基于RGB图像的手部网格重建受到广泛关注。现有方法主要依赖堆叠复杂视觉模块来提升重建精度,但会导致较高的计算开销,难以满足实时应用需求。针对这一问题,本文在训练阶段引入自然语言信息,将高层先验知识注入网络,从而增强视觉特征表达能力。由于文本分支仅在训练阶段参与监督,因此不会增加主体网络的参数量,保证模型的实时性。为更有效地增强视觉表征,本文提出双尺度文本生成模块,从全局与局部两个层面对手部特征进行描述。全局文本提示基于各手指弯曲程度对手部整体姿态进行建模,局部文本提示则依据各关节点的空间位置信息对手部局部特征进行描述,并利用对比学习约束多尺度文本特征与图像特征在公共语义空间中的一致性。考虑到CLIP模型对文本表述较为敏感,手工设计提示词往往需要大量调试,且难以保证其能够充分匹配图像特征。为此,本文设计“固定文本提示+可学习词向量”的组合方式,其中固定文本提示用于概括主要语义信息,可学习词向量用于对提示进行自适应微调,以提高文本描述对手部网格重建任务的适配性。实验结果表明,与实时性方法相比,本文方法在保持实时性的同时取得了出色的重建精度。在 FreiHAND 数据集上,PA-MPJPE和PA-MPVPE指标分别达到5.5mm和5.8mm;在DexYCB数据集上,分别达到5.4mm和5.2mm;推理速度达到68fps。消融实验表明,双尺度文本提示在手部网格重建中发挥了关键作用。
  • 宋承臣, 吴琪, 苗旺
    录用日期: 2026-05-15
    随着数字平台的普及,攻击性模因的形态日趋复杂多样,加剧了高质量标注数据的匮乏,使得小样本条件下的模态语义对齐偏差成为制约检测性能的核心问题。为此,提出融合跨模态元学习与单模态修正的攻击性模因检测方法(CMML-UR)。所提方法首先设计跨模态双梯度元学习框架,利用图像粗细粒度分层特征所提供的多层次视觉语义,结合多正则文本建模生成的低噪声文本表征,实现跨模态语义的稳定对齐与快速适应,提升小样本下的泛化能力。在决策融合阶段,进一步引入单模态置信度门控修正机制,基于对各模态输出置信度的样本级评估,自适应抑制不可靠模态噪声,并对预测结果进行动态校准。实验结果表明,所提方法在MultiOFF数据集上的加权F1值达到74.6%,较SOTA模型提升4.3个百分点,在小样本泛化性实验中加权F1值仍保持69.3%,较基线模型(63.7%)提升5.6个百分点,充分验证了其在小样本场景下复杂跨模态语义理解的高效性与噪声抑制的鲁棒性。
  • 云健, 王松楠, 张雪怡
    录用日期: 2026-05-15
    本文针对联邦学习在医学影像分类任务中面临的系统异构性与数据异构性双重挑战,提出一种基于强化学习的自适应联邦优化算法SEFedProX。该算法在异构环境下采用Soft Actor-Critic算法,基于客户端数据分布、性能反馈等关键状态特征,在连续动作空间中动态调整近端项系数,有效克服离散动作空间引发的量化误差与模型振荡问题,实现了对本地训练强度的精准平滑控制。同时,引入在ImageNet上预训练的EfficientNetV2B2作为特征提取网络,在提升模型表征效率与判别能力的同时,显著降低对资源受限医疗边缘设备的部署要求,缓解了小规模医学数据下的过拟合风险。在四种不同系统异构性设置下,基于四个医学影像数据集和一个通用数据集的系统性实验结果表明,SEFedProX在分类精度、收敛速度、稳定性与鲁棒性方面均显著优于现有基线方法。消融实验进一步验证了SAC连续调控机制与EfficientNetV2B2网络各自的有效性及其在算法中的协同增强作用。本研究为异构医疗环境下分布式智能诊断系统的构建提供了一种稳定、高效且具备强自适应能力的技术方案。
  • 张可冬, 钱旭升, 周志勇, 戴亚康
    录用日期: 2026-05-15
    多模态视觉-语言基础模型在医学领域展现出重要应用潜力,但由于医学数据语义结构复杂、跨模态关系建模困难,现有方法仍存在明显不足:一方面,基于患者的刚性对齐策略忽略语义相似性,导致不合理的负样本排斥,影响模型学习能力;另一方面,缺乏对报告与影像多层级语义结构的统一建模,难以实现细粒度的跨模态层次化对齐。针对上述问题,该文提出了一种语义驱动的全局–局部层级对齐的医学视觉语言分类模型(GLCA),通过全局–局部协同对齐实现更优的医学视觉语言分类模型。具体而言,GLCA包括语义驱动的患者间软全局对齐和渐进式三粒度患者内局部对齐两部分。语义驱动的患者间软全局对齐利用跨患者语义样本对挖掘和相关性加权对比惩罚来构建更连续、更符合真实语义关系的特征空间。渐进式三粒度患者内局部对齐通过渐进式查询融合策略在三个层次上对齐视觉与文本特征:粗粒度(报告–图像)、中粒度(句子–区域)、细粒度(词语–图块),实现跨模态与跨粒度的有效交互。其中,全局–局部协同对齐首先利用患者间的软全局对齐构建符合真实语义关系的特征空间,进而通过患者内的渐进式三粒度局部对齐实现视觉与文本特征的逐层匹配,两者协同优化,确保跨模态语义的连续嵌入与精准对应。在四个胸部X光数据集上进行的大量实验表明,GLCA在零样本预测分类和少样本微调分类任务中均显著优于现有方法。其中,对于公开的14分类胸部X光片数据集ChestXray14上的零样本预测分类实验,在AUC、F1和ACC指标上分别较次优方法提升了1.2%、2.0%和2.2%。
  • 钟杭, 张清华, 罗南方, 郭芮利
    录用日期: 2026-05-15
    多模态对话情感识别通过融合语言、声学和视觉等多源信息,实现对话情绪的自动识别,从而增强人机交互的自然性与情感理解。然而,现有方法在建模情感的多层上下文依赖方面仍存在不足,模态融合易引入冗余或噪声,且难以刻画情感的不确定性,限制复杂情绪识别。针对上述问题,提出了一种融合混合编码与模糊建模的多模态对话情感识别模型。该模型通过混合编码模块同时建模情感的全局对话上下文与局部依赖关系,从而增强情感时序特征的表达能力,并在此基础上引入分层门控融合机制,对不同层次和不同模态特征进行动态加权融合,以有效抑制冗余信息与噪声干扰。在情感分类阶段,采用线性等间距初始化的模糊神经网络,通过模糊隶属函数对情感类别边界进行建模,以刻画情绪表达中的不确定性与模糊性。实验结果显示,该模型在 IEMOCAP、MELD 和 CMU-MOSEI 三个数据集上的各项指标均优于基线方法,在 IEMOCAP 上准确率达到 72.67%,MELD 上为 67.37%,CMU-MOSEI 七分类与二分类准确率分别为 54.96% 和 86.78%,验证了所提方法在多模态情感分析中的有效性。
  • 刘相滨, 朱游华, 彭峰
    录用日期: 2026-05-15
    手写数学表达式识别作为计算机视觉领域的重要任务之一,在智能教育、工业应用等诸多方面均发挥着重要作用。现有基于编码器-解码器结构的手写数学表达式识别模型通常采用普通卷积和传统注意力机制来提取特征。然而,普通卷积的固定网格采样忽略了手写字符的几何变形,导致形近字符误识率较高;此外,传统注意力机制的单一交互导致对长程结构依赖的捕捉能力不足。为此,研究基于编码器-解码器结构提出了一个基于可变形空洞卷积和三支注意力特征融合的模型,在可变形卷积的偏移量学习和自定义卷积层中融入可学习的空洞率,实现对偏移量的更准确预测和感受野的自适应扩展;同时,三支注意力特征融合机制通过相似度引导的动态融合策略,实现跨维度信息的协同增强,避免了传统注意力机制的单一维度交互不足。模型在编码器中采用可变形空洞卷积来扩大自身感受野,捕捉不同尺度的特征,提升对更大范围内上下文信息的捕捉能力;采用三支注意力特征融合机制,有效整合不同层次的特征信息,增强模型对关键特征的提取能力;解码器迭代为Transformer,强化长程依赖建模。模型在CROHME 2014、2016、2019公开数据集和HME100K数据集上的实验中分别获得了59.34%、59.77%、59.63%和68.94%的识别准确率,较基准模型分别提高了2.34%、3.71%、4.75%和1.63%,验证了模型的有效性与优越性。
  • 吴铭洁, 王澄, 庞宇晴, 时文雅, 杜娟, 林知权, 郇战
    录用日期: 2026-05-12
    在工业物联网(IIoT)场景下,时间敏感网络(Time-Sensitive Networking,TSN)需保障数据传输的高可靠性、确定性及低时延。然而,传统循环排队转发(Cyclic Queuing and Forwarding,CQF)模型在处理多种优先级混合的流量时,面临着资源抢占、负载失衡以及网络资源利用率不足等挑战。针对上述问题,本文提出一种基于深度噪声Q网络的多队列调度算法(Deep Noisy Q-Network Based Multi-CQF Scheduling Algorithm)。该算法首先构建四通道多重循环排队转发(Multi-Cyclic Queuing and Forwarding,Multi-CQF)架构,设置专用队列保障高优先级流量的确定性传输,并利用粒子群优化(Particle Swarm Optimization,PSO)确定的权重计算动态排序分数,优化发送序列。其次构建混合特征提取框架,利用卷积-门控循环单元网络(Convolutional Neural Network-Gated Recurrent Unit,CNN-GRU)捕获时隙利用率和队列状态的时空动态特征,结合图卷积网络(Graph Convolutional Network,GCN)聚合静态全局拓扑信息,经由注意力融合机制(Attention Fusion Mechanism)生成状态嵌入。最后在调度决策阶段,结合深度噪声Q网络(Deep Noisy Q-Network),注入参数空间噪声实现策略自适应探索与时隙优化。计算机仿真结果表明,在不同网络拓扑和时隙条件下,DNQN-MCQF较基线算法平均调度成功率和负载均衡分别提升14.7%和19.2%。
  • 李亚敏, 向稳, 柴丽, 向尧
    录用日期: 2026-05-12
    低光图像增强(LLIE)是计算机视觉领域的一项关键技术,旨在从质量退化的低光图像中恢复丰富的视觉信息。然而,现有方法因对颜色空间敏感,常出现色彩偏差问题,且在单阶段框架下难以兼顾噪声抑制与色彩保真度。针对上述问题,提出一种基于HVI颜色空间变换的双阶段网络DHTNet。该网络通过解耦强度(I)和颜色(HV)图,实现对两者的独立优化与协同增强,从而显著提升低光图像的视觉质量。第一阶段采用集成了自适应引导交互模块(AGIM)的分层Transformer网络建模了I和HV特征之间的长距离依赖关系,以实现全局抑制噪声和精准的色彩校正。第二阶段引入多尺度增强协同注意力(MESA)模块,通过跨分支的协同优化机制增强局部色彩与细节特征。该双阶段框架在保留复杂图像结构的同时,有效提升了视觉真实性,解决了现有LLIE方法的局限性。在SICE和SID数据集上的实验表明,DHTNet的峰值信噪比(PSNR)均达到最高水平,较次优方法提升0.717 dB和1.897 dB;在LOLv1、LOLv2-Real和LOLv2-Synthetic数据集上,PSNR分别达到28.756 dB、24.683 dB和25.950 dB,性能优于Retinexformer、CIDNet等对比模型。
  • 李洋, 张博扬, 李丽红
    录用日期: 2026-05-12
    深度神经网络的后门攻击通过在训练数据中植入隐蔽触发器来控制模型行为,严重威胁模型安全。然而,现有隐形后门攻击大多仅关注空间域的不可见性,忽视了频域特征的异常。这些方法往往在频域引入显著的高频伪迹或稳定的谱残差模式,导致攻击易被基于频域分析的防御手段检测。针对此问题,提出了一种基于小波包分解与快速傅里叶变换双域融合的隐形后门攻击方法。首先,利用小波包分解技术,根据目标类别能量分布特征筛选载体子带并进行能量感知的自适应触发器嵌入,以平衡攻击有效性与隐蔽性;随后,利用快速傅里叶变换实施频谱重构,通过融合干净样本的振幅谱与中毒样本的相位谱,减弱频域可检测痕迹。在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上,结合PreAct-ResNet18和VGG19-BN模型进行对比试验。结果表明,所提方法在保持高攻击有效性的同时有效提升了双域隐蔽性与抗防御鲁棒性;在CIFAR-10上取得了99.94%的攻击成功率,在所测试的FTD、Neural Cleanse、STRIP等防御下表现出较强规避能力。
  • 林勇, 廖苗, 龚诗媛
    录用日期: 2026-05-07
    肝脏分割是进行肝脏疾病、三维重建和手术规划的重要前提。针对腹部CT序列图像肝脏结构复杂、边界模糊、个体差异大等引起的分割困难,提出一种融合多视图信息的自动分割方法。首先设计基于空洞空间金字塔池化的二维U形网络,在不额外增加模型复杂度的前提下有效捕获多尺度特征并提升感受野范围。然后,将该二维U形网络应用于CT序列横切面、矢状面和冠状面等不同视图方向的二维切片分割,弥补单一视角在建模切片间关联信息方面的不足。随后,构建轻量级的3D卷积网络,将多视图分割结果进行融合,实现资源受限条件下的肝脏三维分割,获取CT序列各像素属于肝脏的概率及标签分配结果。最后,利用已获取的概率和标签构建图割能量函数,对分割结果进行优化,消除过分割与欠分割.提出方法通过融合不同视图的分割结果间接获取CT序列三维特征,并通过结合图割算法提高肝脏分割精度。采用3DIRCADb和LiTS公开数据集进行实验,该方法在测试集上获得的Dice分别为0.947和0.962,优于现有多种分割方法。
  • 张弛, 周世兵, 鞠佳霖, 蒋敏
    录用日期: 2026-05-07
    为解决文档检测中多尺度特征表达不均衡、跨层级融合损耗及边界框定位精度不足的问题,提出了一种多尺度特征与语义优化的文档检测方法。该方法包含三部分设计与改进:一是构建多分支卷积注意力融合模块,通过多尺度条带卷积扩展感受野,结合注意力机制与C3k模块;二是设计全局语义与高阶关联协同的多尺度颈部,依托全局特征收集、超图卷积关联挖掘及多尺度散射完成融合;三是优化边界框回归损失,采用双阈值区间映射增强样本损失区分度。在EXAM、CDLA、D4LA和PubLayNet数据集上的实验结果表明,该方法平均检测精度较现有方法有显著提升。实验结果显示,该方法可突破YOLO11n在文档检测领域的性能瓶颈,在保证效率的同时提升精度,为文档检测提供科学可行的应用方案。
  • 强振乾, 张予鹏, 王丹萍
    录用日期: 2026-05-07
    针对复杂动态场景中因非结构化遮挡、运动畸变与多源噪声耦合导致的时空数据低秩退化与部分观测难题,本文提出一种融合非凸时序差分低秩约束与层级化轨迹‑行为语义映射的运动非连续时空行为理解框架。首先,构建基于非凸Schatten‑p范数的时序差分低秩恢复模型,采用交替方向乘子法实现高缺失与噪声污染下的运动数据重建;其次,在恢复数据基础上结合多目标跟踪构建结构化轨迹簇,并提取轨迹邻域交互特征;进而,提出一个三层级行为理解模型:基于多层感知机的行为基元分类、基于图注意力网络的交互模式识别,以及融合时空上下文的语义融合与行为叙事生成,实现从轨迹到高层语义的端到端映射。实验表明:所提方法在60%高缺失率下恢复质量显著优于基线,在NTU RGB+D(X‑Sub)与自建运动数据集BAS上的行为识别准确率均达到92.7%,较最优对比方法提升5.6个百分点;消融实验进一步验证了各模块的有效性,其中NTDLR恢复模块在60%缺失下将识别率从78.3%提升至86.7%,轨迹邻域编码提升至88.2%,完整三层级模型协同作用下达到最优性能。交互模式识别与语义描述生成亦显著优于主流图卷积网络及其变体。本研究为复杂动态场景下非连续、交互式运动行为理解提供了可解释、可扩展的算法框架。