作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 董现哲, 王晓衡, 李京
    录用日期: 2026-04-15
    近年来,多模态大模型(Multimodal Large Language Models, MLLMs)发展迅速,其高效推理服务的部署面临严峻挑战。现有在线推理调度策略(如连续批处理、无停顿调度等)主要针对纯文本大语言模型设计,通常将请求的编码与预填充阶段合并处理。然而,多模态输入在编码阶段具有更长且差异更大的处理耗时,若沿用现有粗粒度调度方式,易导致计算资源闲置、推理延迟增加,进而严重制约系统整体的有效吞吐率。为此,研究提出一种面向多模态大模型在线系统的提高有效吞吐率在线推理调度策略——STEP(Stage-based Time Estimation Priority Scheduling)。该策略的核心创新在于对推理过程进行更细粒度的阶段解耦与调度:首先,将多模态请求的推理过程划分为编码、预填充和解码三个可独立调度的阶段;其次,基于历史执行数据构建轻量级时间预测模型,准确估计批次执行时间以满足令牌间延迟要求;最后,引入一种时延感知的优先级调度机制,以适配不同请求的首令牌延迟要求。实验在图文问答、图像理解等任务的五个开源多模态数据集上与多个基准方法进行比较。结论表明,通过细粒度的调度与执行时间预测,STEP策略能有效适配多模态大模型的推理特性,显著提升在线推理系统的有效吞吐率。
  • 陈文杰, 梁银, 杜明晶, 黄尧晟, 刘妍洁
    录用日期: 2026-04-14
    针对无人机航拍图像中小目标像素占比低、尺度波动剧烈且分布密集的问题,提出一种基于YOLOv12n改进的算法SAM-YOLOv12n。在主干网络中设计了双注意力耦合C2f小目标模块(Dual-Attention Coupled C2f for Small Object,DA-C2f-S),通过引入多层特征提取结构与双重注意力机制,有效增强了对小目标边缘及纹理等细微特征的捕捉能力;构建了多尺度融合卷积模块(Multi-Scale Fusion Convolution,MSFConv),以膨胀深度可分离卷积(Dilated Depthwise Separable Convolution,DDSConv)为核心设计不同膨胀率的差异化分支,实现局部细节与全局上下文特征的协同建模,弥补单一尺度感受野的局限,更好适配航拍小目标的尺度波动特性;重构检测头结构,保留高分辨率分支并移除大目标检测头,使计算资源更集中于密集小目标区域。在VisDrone2019数据集上实验结果表明,改进方法在mAP@0.5和mAP@0.5:0.95上分别较基线YOLOv12n提升9.9%和7.2%,验证了其在复杂航拍场景下对小目标检测的有效性。在TinyPerson超小目标及HIT-UAV红外航拍数据集上的泛化实验,验证了改进方法在不同航拍场景下的跨域适配能力。其核心优势在于有效平衡了检测精度、模型复杂度与推理效率,可为无人机航拍目标实时检测任务提供可靠的技术支撑。
  • 郑康怡, 张霁, 林炳宇, 杨田, 刘宁怡
    录用日期: 2026-04-14
    半监督特征选择是机器学习中处理大规模部分标记数据的有效工具。然而,大多数现有特征选择算法面临着计算效率不足、数据规模有限以及精度不够等挑战。相关族是一个基于粒计算的高效特征选择框架,在大规模数据场景下具备效率优势,但无法处理部分标签数据。为此,本文提出一种基于相关族的半监督特征选择算法(SRF)。首先,提出一种无冗余粒化方法——一致粒化,以及重要度矩阵来构建一种新型的相关族,进而设计了一种半监督特征评价方法,将特征评价的复杂度从二次降低到线性,有效克服了计算效率和规模方面的瓶颈;其次,为进一步提高分类性能,本文采用了三种策略:一是增强信息粒的数据表示能力;二是兼顾信息粒一致性和质量评价特征重要度;三是基于筛选后的高质量特征子集预测伪标签,降低噪声干扰。在12个公开数据集上的实验结果表明,与SemiFREE、Semi2MNR、LMSFS及GMSFS四种代表性算法相比,SRF在分类精度上分别提升了0.88%、2.34%、2.81%和2.58%,同时在计算效率上分别提升了36.70倍、841.56倍、6.52倍和17.04倍,验证了该方法处理大规模部分标签数据的有效性与高效性。
  • 刘佳琦, 程晓娜
    录用日期: 2026-04-14
    联邦学习通过“数据不动模型动”的分布式范式实现了隐私保护与协同建模,但现有方案在客户端选择效率、恶意节点防御及激励分配公平性上存在明显不足。为此,本研究提出一种动态恶意节点识别机制(GIFL),实现恶意节点精准识别、高效客户端选择与动态激励分配的协同优化。GIFL通过轻量型贪心筛选策略过滤低贡献高成本节点,基于模型参数偏差的影响因子动态更新机制识别并剔除恶意节点,结合历史与实时贡献设计动态报酬支付策略。基于Fashion-MNIST和CIFAR-10及 Tiny-ImageNet 数据集的实验表明,在恶意节点比例为5%-30%的跨设备联邦学习场景下,与FedAvg、IAFL等五种基准方法相比,GIFL的恶意节点识别精度提升5.4%~23.9%,前置筛选耗时较QAIM平均降低86.1%,模型收敛稳定性与社会福利显著改善,在模型精度不低于92%(Fashion-MNIST、CIFAR-10)和88%(Tiny-ImageNet)
  • 张 鹏, 赵国生, 伍小胜
    录用日期: 2026-04-14
    针对动态防御模型自适应能力有限、对抗鲁棒性不足及防御成本考量欠缺等问题,提出一种融合元学习与对抗训练的异步优势行动者-评论家自适应动态防御模型。该模型将防御过程形式化为部分可观测马尔可夫决策过程,设计融合误报/漏报惩罚与操作代价的奖励函数,构建三层协同优化框架:内层基于异步优势行动者-评论家算法实现高效策略搜索;中层引入投影梯度下降对抗训练,通过极小-极大博弈增强对抗扰动下的鲁棒性;外层采用模型无关元学习构建元优化器,使模型能基于少量样本快速适应新攻击。在NSL-KDD、UNSW-NB15及CICIDS2017数据集上的实验表明,该模型最佳防御决策率均超过92%,平均防御资源消耗降低约60%;在高强度扰动下攻击成功率仍低于38.2%,未出现性能崩塌;针对零日攻击的检测准确率可提升至88%以上。研究为构建高适应性、强鲁棒性、高效益的智能动态防御系统提供了可行路径。
  • 刘佳乐, 邓韦斯, 胡甲秋, 荆朝霞, 邹文仲
    录用日期: 2026-04-14
    在新能源发电系统中,数据缺失问题严重制约了设备运行状态评估与故障预警的准确性。由于新能源场景下的数据通常具有高复杂性、长序列依赖性以及强波动性,传统的数据补全方法在准确性与泛化能力方面难以满足实际应用需求。为此,本文提出了一种基于多尺度特征融合的新能源缺失数据补全方法。首先,采用皮尔逊相关系数与最大互信息系数对多变量特征进行筛选,以提升输入数据的相关性与信息质量。随后,设计了一种全新的时序数据补全模型——AFMFormer(Adaptive Frequency-aware Multi-scale Transformer),该模型首先通过自适应频域特征增强模块对输入序列进行频域分解与主频增强,从而实现对复杂长序列中主要特征的突出。接着,模型引入两条并行时间特征提取分支Patch-based Transformer、Standard Transformer,其中,Patch-based Transformer用于捕捉短期时间序列特征,Standard Transformer用于提取长期时间序列特征。最后,通过特征融合模块对两个分支的输出结果进行融合,生成最终的缺失值补全结果。实验结果表明,所提出模型的评价指标均显著优于基线方法,其中,在风电、光伏数据集上的均方误差相较最优基线模型分别降低49.3%和31.5%,显著提升补全效果。
  • 王炯炯, 张淑芬, 代家佳, 张晗瑞, 张益
    录用日期: 2026-04-14
    个性化联邦学习通过共享训练参数而非数据进行模型训练,但仍易受推理攻击,因此广泛应用差分隐私技术进行防护。针对传统差分隐私个性化联邦学习(Differentially Private Personalized Federated Learning,DP-PFL)中静态模型划分和统一噪声的局限,本文提出了一种融合参数个性化的自适应差分隐私联邦学习框架DP-FedADC。首先,该框架利用设计的参数自适应划分(Adaptive Parameter Partitioning,APP)实现模型参数的动态分析,并自适应划分个性化参数与共享参数。在此基础上,设计差异化更新策略(Differentiated Parameter Update,DPU),通过对不同类型参数施加差异化正则约束,稳定关键参数更新并缓解梯度裁剪对优化方向的影响。其次,提出客户端级自适应隐私预算分配策略(Client-level Adaptive Privacy Budget Allocation,CAPBA),根据客户端个性化参数比例动态调整隐私预算,使高敏感度客户端获得更严格的隐私保护,同时避免对全局收敛起主导作用的参数施加过度噪声扰动,从而抑制隐私噪声在训练后期的累积效应。在MNIST、CIFAR-10、Fashion-Mnist数据集上的实验表明,在严格差分隐私约束下,DP-FedADC显著提升了分类准确率和领域泛化性能,其测试准确率相较基线方法最高提升约2%-4%,且损失值收敛至更低区间。实验结果验证了所提出框架在差分隐私联邦学习场景下的有效性与鲁棒性。
  • 曹福, 邢雯彬, 左勇, 张荣辉, 陈俊周
    录用日期: 2026-04-14
    非结构化道路分割是自动驾驶技术环境感知的重要组成部分,面临全局拓扑建模不完整、边界细节难以保持,及模型效率与精度的权衡等挑战。针对这些挑战,设计了一种轻量化轴向上下文网络(Lightweight Axial Context Network, AXON-Net)。该网络采用编码器-解码器架构,在编码器中引入通道-空间注意力模块(Channel-and-Spatial Attention Block, CASAB),通过聚合多维统计信息自适应重标定特征权重,有效抑制环境噪声,以增强复杂背景下的特征区分度;在瓶颈层设计轻量化部分上下文模块(Lightweight Partial Context Transformer, LightPCT),利用部分通道交互策略降低计算冗余,高效捕获长程依赖以修复道路拓扑连通性;并在解码器中集成双路径通道融合(Dual-Path Channel Fusion, DPCF)与轴向细结构增强(Thin Structure Enhancer, TSE)模块,旨在弥合特征语义鸿沟并显式强化轴向几何特征,改善模糊道路边缘的精细化恢复效果。在基于印度驾驶数据集(India Driving Dataset, IDD)与越野空间检测数据集 (Off-Road Freespace Detection, ORFD)二次构建的非结构化道路数据集上的实验结果表明,AXON-Net在道路交并比指标上分别达到95.3%、88.1%,参数量仅为8.49 M,实现了分割精度与模型效率的较优平衡。消融实验验证了各模块协同作用的有效性,展示了该网络在非结构化道路感知任务中的应用潜力。
  • 潘语泉, 袁得嵛, 程佳琳, 叶乃夫
    录用日期: 2026-04-13
    跨社交网络身份关联能够识别不同社交网络上的用户是否属于同一自然人。针对现有方法难以克服正负样本不均衡对关联性能的负面影响的问题,提出了基于MH-Node2vec的跨社交网络身份关联方法。首先,提出了一种高效的节点嵌入算法MH-Node2vec,结合Metropolis-Hastings采样和关键参数自适应调整机制,能够处理来自不同社交网络的用户节点,生成用户特征向量;其次,创新了输入向量拼接方式,提出了基于注意力机制的拼接策略,高效融合了不同社交网络的用户特征;最后,基于最简社交网络分析的结论,结合权重因子和Focal loss,提出了wF-MLP。在相同数据集上与WLAlign、CrossMNA等现有模型进行对比实验,结果表明,本文模型在两个数据集上的F1值较现有最优方法分别提升了7.8%和5.1%,且在所有评估指标上均取得最优性能,验证了模型的有效性。
  • 王小生, 方小红, 杨浩, 刘一宁, 郭桥生, 刘超飞
    录用日期: 2026-04-08
    语音增强技术面临的一个挑战是现有基于Transformer的方法在局部特征建模上存在不足,难以准确还原语音中的高频细节与瞬态成分。为解决这一问题,研究设计了一种融合时频Transformer的U-Net语音增强网络,旨在通过改进注意力机制和特征融合来提升去噪效果。该网络设计了并行时频联合注意力模块,对时域与频域数据进行显式区分与并行处理;同时在瓶颈层引入局部-全局特征协同模块,将密集连接空洞空间金字塔池化的多尺度局部特征提取能力与Transformer的全局建模优势结合。局部-全局特征协同模块通过动态特征校准机制,实现多尺度局部上下文与全局依赖关系的协同,从而增强对语音结构的感知。网络采用频谱映射方式,通过短时傅里叶变换将语音转换为时频表示,经处理后再通过逆短时傅里叶变换重构为时域信号。在由纯净语音数据集LibriSpeech和噪声语音数据集ESC-50数据集、哥伦比亚大学噪声库构建的10小时训练集和1小时验证集上,该网络在多项客观指标上表现优异,语音质量感知评估达3.37,短时客观可懂度达97%,尺度不变信噪失真比达19.97dB,超越了多种现有先进模型。
  • 陈雨轩, 刘亚军, 莫家庆, 周刚
    录用日期: 2026-04-08
    重度抑郁症作为一种高发且危害严重的精神障碍,早期精准诊断对治疗干预至关重要。功能性磁共振成像作为一种非侵入性的神经影像学技术,为抑郁症诊断提供了无创的神经影像依据,有助于构建详细的脑功能连接。但传统深度学习方法在处理脑功能连接数据时,存在忽视全局时间动态特征和难以建模多脑区高阶交互的缺陷。为解决上述问题,提出一种基于时空交叉注意力超图神经网络的抑郁症辅助诊断方法。该方法以功能性磁共振数据构建的脑功能连接图为研究对象,通过时间分支捕捉脑区信号的时序动态特征,空间分支建模脑区之间的高阶关联,利用时空交叉注意力模块实现两类特征的深度融合。在大规模多中心数据集上进行实验验证,结果表明,提出的模型平均准确率达83.74%、灵敏度达73.76%、特异性达93.39%,相较其他方法提升明显。消融实验验证了空间分支、时间分支、时空交叉注意力模块的有效性,为抑郁症的临床辅助诊断提供了一种新的技术方案。
  • 朱奕健, 冒睿瑞
    录用日期: 2026-04-08
    生成式模型因其有效的数据生成能力,近年来被广泛应用于推荐系统领域。然而,现有生成式推荐系统由于模型生成过程的随机性导致稳定性不足,并且有限的表示学习能力影响了个性化推荐的准确性。为了解决上述问题,提出一种基于扩散模型的生成对抗式推荐方法。具体来说,首先通过变分自编码器 (VAE) 对原始向量进行压缩,然后使用扩散模型在隐式空间进行多步加噪和去噪,学习高质量用户表示。此外,引入对抗训练机制为去噪过程提出反馈信号,缓解其生成过程不可控的问题。在Amazon-book、Yelp和Movielens-1M三个公开数据集上进行实验,所提出的方法相比主要基线在召回率 (Recall@10)和归一化折损累计增益 (NDCG@10)上分别最高提升20.3%、18.9%,说明方法能够有效预测用户行为,提高推荐精度。
  • 李忠伟, 聂思远, 王雷全, 袁德坤, 齐衍萍
    录用日期: 2026-04-08
    分割一切模型(SAM)在各种下游任务中得到了广泛的应用。海洋浮游动物物种形态复杂、透明度高、物种尺度大小不一,导致现有的分割模型难以适应从而分割精度较低。此外,缺乏像素级别实例标注的海洋浮游动物图像数据集阻碍了SAM在该领域分割任务中的探索研究。为了解决这些问题,构建一个具有像素级别精细化标注的实例分割数据集MZIS,其中包含25个物种类别与1908张浮游动物图像。针对海洋浮游动物场景进一步提出一种基于SAM的实例分割方法MZIS-SAM。具体来说:首先,为了弥补缺乏的海洋浮游动物语义类别信息,设计了一种浮游动物显微图像自适应的ViT(ZMA-ViT)编码器,提取浮游动物的视觉特征提示并融入网络;接着,设计了一个多尺度膨胀注意力聚合模块(MDAAM),用于整合编码器中的多层特征来增强多尺度特征表达;最后,设计了一个特征提示生成模块(FPGM)来自动生成视觉特征提示,实现端到端的实例分割掩码预测。实验结果表明,相比于现有的方法,MZIS-SAM在MZIS数据集上的 、 和 得分分别达到77.0%、97.7%与85.8%先进水平。
  • 蒋文豪, 丁雪, 王享, 马莉, 孟祥和, 何向真
    录用日期: 2026-04-07
    音乐生成在人工智能时代取得了飞速发展,传统的音乐创作过程正逐渐被基于深度学习的生成模型所替代,尤其是近年来,生成对抗网络(GANs)、变分自编码器(VAEs)、Transformer架构、扩散模型及大语言模型等技术的应用,为音乐创作提供了全新的思路和方法。系统综述了人工智能在音乐生成中的最新研究进展,重点探讨了从离散符号表征到连续音频波形生成的技术演变路径,特别是如何在多模态生成、情感表达、创作控制等方面取得的突破。同时详细梳理了各类生成模型在娱乐与大众消费、专业音乐制作、音乐教育、音乐治疗与健康及游戏与交互媒体等多元场景中的实际应用,从生成质量、结构一致性、计算效率与用户控制性等维度评估了不同技术的优缺点及当前面临的挑战。最后,讨论了未来人工智能在音乐创作中的发展趋势,包括生成质量提升策略、人机协同创作模式、以及与音乐产业深度融合的潜在路径,为该领域的进一步研究提供参考。
  • 殷伟梁, 刘冰, 罗善军, 黄亮, 陈晓慧
    录用日期: 2026-04-02
    行人重识别任务易受视角、姿态、遮挡等复杂因素干扰。现有的主流深度学习方法主要依赖视觉特征的统计相似性进行匹配。这类方法在通用场景下表现优异,但普遍缺乏高层语义理解能力与逻辑推理机制,导致其在面对外观相似的硬样本时难以捕捉细粒度差距,从而陷入精度瓶颈。针对上述问题,本文提出一种大小模型协同的两阶段行人重识别方法,旨在融合专用小模型的高效性与通用多模态大模型的强判别力。第一阶段为快速召回阶段,结合轻量级深度学习模型与K-互近邻方法对待识别的行人进行快速召回,从海量图库中筛选出少量与目标行人具有高相关度的候选集,在保证高召回率的同时大幅降低后续处理的数据规模。第二阶段为精确筛选阶段,将预训练的多模态大模型视为判别器,利用其强大的多模态理解能力对候选集进行精确筛选。采用这种大小模型协同的两阶段识别方法能够兼顾模型的速度和精度。在Market-1501和DukeMTMC-reID数据集上,所提出方法的Rank-1准确率分别达到98.5%和96.5%,较CLIP-ReID方法分别提升2.8%和6.5%,这充分验证了所提出方法的有效性。
  • 周泽生, 李平
    录用日期: 2026-04-02
    针对高效Transformer模型在噪声环境下文本分类性能退化的问题,提出了一种结合动态低秩注意力与双视图一致性约束的高效鲁棒文本分类方法。该方法通过输入特征的方差信息自适应地调整注意力秩值,对语义复杂样本分配更高秩以增强表达能力,对简单样本使用较低秩以维持近线性计算复杂度,从而在表示能力与效率之间实现动态平衡。同时,在训练阶段引入双视图一致性约束机制,通过构造干净与受扰动文本视图并约束其语义表示一致,抑制噪声对模型判别边界的干扰,进一步提升模型鲁棒性。本文在多组中英文文本分类数据集上进行了系统实验,包括情感分析、主题识别及细粒度情绪分类等任务。实验结果表明,所提方法在准确率等指标上均优于固定低秩基线模型,并在多种噪声类型与强度下表现出更稳定的分类性能。该研究为在复杂噪声环境下实现高效鲁棒的文本分类提供了一种新的解决思路。
  • 马汉达, 欧阳涛
    录用日期: 2026-04-02
    针对现有关系三元组抽取方法在复杂语境下存在多关系语义表示不足以及隐式关系难以有效抽取的问题,提出了一种融合注意力机制的双通道联合编码关系抽取模型AMJERE(Attention-Mechanism Joint Encoding for Relation Extraction)。该模型从句子语义与关系语义协同建模的角度出发,构建句子通道与关系通道相互独立且可交互的联合编码框架,以增强关系语义表示的完整性与判别能力。模型首先采用句子—关系双通道独立编码结构,分别对输入句子和候选关系进行编码表示,避免语义空间混叠带来的信息干扰;随后引入关系融合模块,通过自注意力机制对关系语义进行建模,并结合句子上下文信息提升对隐式关系特征的表达能力;在此基础上,设计跨通道交叉注意力机制,实现句子表示与关系表示之间的深层语义交互,从而捕捉实体与关系之间的潜在依赖关系,并获得紧凑的联合语义表示;最后,通过多个线性分类器完成关系判别与实体标签预测,实现关系三元组的联合抽取。在NYT和WebNLG两个公开数据集上的实验结果表明,AMJERE在精确率、召回率和F1值指标上均优于多种主流基线模型,其中F1值分别达到93.3%和93.5%。消融实验与定性分析进一步验证了所提出方法在多关系语义表示与隐式关系抽取任务中的有效性与鲁棒性。
  • 龙海清, 李茂
    录用日期: 2026-04-02
    交互式图像检索突破了传统单次查询-返回结果的静态范式,将检索过程重塑为多轮迭代的人机对话,允许用户依据初步结果动态引导与细化检索意图。文本与草图作为两种直观互补的查询模态,在场景级图像检索中具有显著优势,能够有效表达用户的复杂视觉需求。然而,现有方法的交互机制多基于最新即最佳的简单假设,缺乏对历史状态的择优与维持能力,导致检索过程易受噪声干扰且稳定性不足,此外,其评估指标往往仅关注是否在某一轮次检索到目标,忽视了真实交互中用户反馈含噪、意图持续演化以及检索结果稳定性不足等问题;此外,草图本身具有高度抽象性与用户绘制不确定性,现有静态检索模型难以在初始输入不完整或存在歧义时通过交互进行有效细化,导致其实用性与鲁棒性受限。为此,本文提出一种基于文本与草图的交互式场景级图像检索框架IScene。该框架设计了对话重写、相似度优化选择与视觉扩展三个核心模块,构建了一个能够逐步提炼语义、保持判别力稳定并增强视觉表达的检索流程。同时,为支撑交互式研究,本文构建了首个面向该任务的多轮对话数据集。实验结果表明,IScene在多个数据集上的检索精度与稳定性显著优于现有基线方法,为实现更自然、鲁棒的交互式场景检索提供了有效途径。
  • 郝冠一, 孙靖超
    录用日期: 2026-04-01
    数字时代下,文本、图像、音频等模态的复杂交互形成了多模态虚假信息,其传播速度与隐蔽程度远超传统单模态虚假信息,对信息安全与社会治理构成严峻挑战。但在国内,该领域相关研究较为匮乏,尚未形成完整体系。为此研究系统梳理了多模态虚假信息检测领域的研究现状及发展脉络,对多模态虚假信息检测的研究进行了全面总结。在明确多模态虚假信息检测的核心概念与任务谱系的基础上,详细总结了数据集与测评指标特征,分析了SAFE、CAFE、CFFN、SSA-MFND、PSCC-Net、DGM4、CCN、SNIFFER、KGAlign等不同多模态方法模型的适用场景与检测性能,归纳了跨模态一致性、异常特征识别、外部事实驱动三大核心检测方法,并且对多模态虚假信息检测的可解释性与泛化鲁棒性进行了探讨。同时,随着大规模视觉语言模型LVLM的崛起,其在多模态虚假信息检测中的应用不断深化,对此研究梳理了LVLM在该领域的多种应用场景、优势与局限。最后展望了多模态虚假信息检测的未来研究方向,以期为多模态虚假信息检测领域的发展提供借鉴与启示。
  • 王铁君, 鲁子怡, 胡晓燕, 康梦洋, 王文昊, 王恺彦, 徐成杰
    录用日期: 2026-03-30
    简牍文字图像中存在的结构和纹理语义混淆、退化类型复杂、文字像素与背景噪音对比度低等问题,现有图像修复方法在处理具有复杂退化场景的简牍文字图像时普遍存在结构与纹理语义耦合、难以区分建模不同退化程度像素以及掩膜感知能力不足等问题,导致文字结构破坏、修复不稳定及伪影现象频发。本文提出了一种基于多粒度特征引导的简牍文字图像修复——AmdmaNet。首先,在纹理修复网络和结构修复网络中分别重建受结构边缘约束的纹理特征和基于相对全变分量(RTV)的结构特征,避免结构和纹理语义混淆的问题;随后,在图像细化阶段引入多尺度动态范围分布图自注意力机制(Mdma),对不同退化程度的像素进行分类处理,有效缓解修复过度或修复不充分的问题;进一步,采用自适应掩膜感知像素洗牌下采样方法(Ampd),通过受损像素对周围完整区域自适应地分配权重,增强模型对破损区域的置信度,再根据破损区域的位置信息引导图像下采样,确保掩码位置不发生偏移,显著减少了伪影、模糊及马赛克等现象。最后,在自建的简牍文字图像数据集上进行实验验证,实验结果表明,所提出方法在主观视觉感受和客观评价指标上均优于当前主流图像修复算法,尤其在处理文字笔画断裂、背景噪声干扰等复杂场景时表现出更强的鲁棒性。
  • 林素青, 吴景恒, 陈麒轩, 闫明
    录用日期: 2026-03-30
    旅游业的快速发展促使基于个性化需求的兴趣点推荐成为提升用户体验的主要途径,但推荐过程常面临交互极度稀疏、短评论碎片化与语义离散性引发的特征提取难题。传统概率主题模型因依赖词共现统计而难以捕捉潜在语义关联,基于反向传播的迭代式深度学习框架则易陷入梯度失稳与训练低效的困境。为此,提出融合语义增强主题建模的深度学习推荐框架DeepTSN。引入语义聚类增强主题建模方法SynTopic强化短文本表征,利用大语言模型构建初始主题库,结合BERT-Chinese语义聚类与自适应优化策略剔除冗余并融合相似项,有效抽取深层主题特征弥补信息缺失,整合多源异构特征构建用户与景点深层交互的高维向量以捕获复杂非线性关系;同时集成采样网络,通过自适应概率密度采样重构数据分布,采用构造式学习机制解析生成网络权重,有效抑制缺失数据干扰并解决收敛难题,显著提升推荐精度与训练效率。多源数据集实验结果表明,DeepTSN在不同交互密度的真实与公开场景中性能均优于基线模型,MAE降幅最高分别达21.34%与12.72%,MSE降幅最高分别达22.89%与7.32%。运行时间缩短约61.69%,内存峰值下降约72.87%。
  • 张可, 李飞
    录用日期: 2026-03-30
    针对原始序列特征表征能力有限,以及现有“分解-集成”模型在长时序预测任务中分解策略引发的信息丢失问题,本文提出一种融合注意力机制的高维特征序列增强网络(HDFSENet)。该网络通过整合嵌入技术、混合专家分解模块(MOEDecomp)与特征序列增强模块(FSE)以捕捉时间序列的内在特征,同时减少分解策略中的信息丢失。首先,该方法借助三种嵌入技术(数值、位置与时间嵌入),强化原始时间序列的特征信息。其次,通过MOEDecomp模块将增强后的时间序列分解为趋势特征序列与季节特征序列。随后,构建基于注意力机制的特征序列增强模块,以捕捉分解后趋势特征序列与季节特征序列间的相互作用,从而提升特征的表征能力。之后,将这些交互特征作为关键变量整合到模型中,进一步提高预测精度。最后,在多个基准数据集上对该模型的有效性展开验证。实验结果显示,HDFSENet在MSE、MAE等评价指标上,显著优于多个基准模型,表明本文提出的模型为更精准地实现时间序列预测提供了可靠方法。
  • 居洪政, 唐建航, 章阳, 金柯兵
    录用日期: 2026-03-30
    近年来,越来越多的研究开始关注如何基于用户行为建模多兴趣,以刻画用户的复杂偏好。然而,在缺乏物品类别等外部辅助信息的隐式建模场景中,多兴趣模型难以准确区分不同行为的兴趣归属,容易将与目标兴趣关联较弱甚至无关的物品错误聚合到同一兴趣中,形成兴趣特定噪声。为缓解这一问题,本文提出了一种两阶段去噪多兴趣推荐算法(DMIRec),从物品特征和兴趣表示两个层面抑制兴趣特定噪声。在物品降噪阶段,利用可学习的滤波器对各兴趣中的无关物品特征进行滤波,得到每个兴趣的降噪序列;在兴趣去噪阶段,引入条件扩散模型,以与当前兴趣高度相关的物品作为指导信号,通过迭代去噪进一步去除兴趣向量中的噪声成分。为了增强去噪效果,进一步设计了目标引导的多兴趣损失,将推荐目标显式融入多兴趣学习过程,为各兴趣分配合理的责任度,在优化层面减弱兴趣特定噪声的干扰。在Book、Beauty和Retail Rocket三个真实世界数据集上的实验结果表明,相较于基线模型中最优的Top50推荐结果,所提方法的召回率(Recall)分别提升8.84%、2.03%、2.27%,命中率(HR)分别提升9.78%、0.95%、0.72%,归一化折损累计增益(NDCG)分别提升9.07%、3.87%和2.49%,上述实验结果验证了该方法的合理性和有效性。
  • 郝亮, 苏博何俊, 王京华, 徐勇
    录用日期: 2026-03-27
    模型量化技术通过将高精度浮点数据映射到低比特离散空间,能有效降低模型存储与计算开销。如何合理化的考虑参数分布的特点以构建更好的映射方案是模型量化研究的核心。现有 PTQ (训练后量化)方案多默认非激活层数据呈对称钟型分布,却忽略激活层与输入引入的微小偏置可能导致的分布不对称性,进而使量化映射偏向一侧,引入显著近似损失。本文针对图像超分辨率量化方案进行研究,对性能获得公认的二阶段后训练量化方案进行改进。第一,将预寻找量化上下界过程中的基于最值的均等分配改进为基于排序的非均匀分配;第二,在伪量化过程中引入了偏置量,将数据的一部分及均值进行自适应偏移,缓解数据偏置引发的估计损失。改进后的方案在效果上基本全面超越原方案,并具有同样的高压缩比以及加速比:相比原SwinIR-light模型参数量减少约67.4%、超分辨率过程加速3.99倍。
  • 曹林, 张展旗, 张本奎, 常颖, 刘志哲, 杜康宁, 郭亚男
    录用日期: 2026-03-27
    随着信息物理系统的快速发展,传感器所采集的时间序列数据规模呈现爆炸式增长。如何在这些数据中及时、准确地检测异常,对保障系统稳定运行和防范潜在风险具有重要意义。由于异常样本稀缺且分布极度不均衡,时间序列异常检测通常被建模为无监督学习任务。其中,对比学习利用正常样本在不同视角下所共享的潜在一致性,通过拉近同一样本在不同增强视角间的表征距离,从而构建更加紧凑且判别性更强的正常特征空间,显著增强了正常与异常模式之间的可分性,已成为该领域极具潜力的主流范式。尽管当前基于对比学习的异常检测方法已取得一定进展,但仍存在对时间序列复杂上下文变化建模不充分的难题,导致异常检测性能受限。为此,本文提出一种融合样本内与样本间双分支表征学习的时间序列异常对比检测框架(Dual-Branch Intra- and Inter-Sample Representation Learning for Time Series Anomaly Contrastive Detection,I2CD)。该框架通过挖掘样本内的层次化上下文依赖关系,并利用样本间的信息交互主动增强正常变化模式,从而学习对异常变化更具判别力的时序表征。具体而言,为增强模型对时间序列上下文复杂变化的建模能力,本文设计了多专家时间金字塔模块。该模块在表征空间中引入多分辨率专家,以自适应地捕获多维序列的层次化依赖关系。同时,本文提出原型引导的正常模式增强模块,通过利用正常变化模式的代表性原型构建样本间信息交互机制,在强化正常样本特征一致性的同时,有效弱化异常样本中的异常模式,从而进一步提升双分支表征的判别能力。通过在六个真实基准数据集上进行实验,验证了该框架在时间序列异常检测任务中的有效性与鲁棒性。
  • 陆小辰, 王胜蓝, 钟琰, 张晶晶, 张磊
    录用日期: 2026-03-27
    近年来深度学习在计算机视觉等研究领域取得越来越多的成果,其中,激活函数对于增强深度神经网络的非线性拟合能力具有重要的影响。但随着研究的深入,现有的激活函数,如ReLU和SiLU等,暴露出越来越多的问题,比如存在梯度消失/死亡现象,对负值区域不具有自适应调节性等。论文针对常见目标检测识别任务中显著性特征的去留问题,提出了一种新的激活函数--自适应参数化Softplus-Sigmoid函数 (Adaptive Parametric Softplus-Sigmoid,APSS),旨在从复杂背景中精准地提取和学习目标的多尺度融合特征。该激活函数基于生物神经科学中的基底-门控组合机制。其中,基底项确保基础特征的可学习性与梯度稳定性,门控项则通过动态调节负值区域的响应强度,实现无效特征的抑制,通过两者的有机结合,实现网络模型保留和抑制特征能力的平衡。为了验证该激活函数的优势,论文在SoccerNet、UA-DETRAC和BEEF24等三组实验数据集上,与几种典型的目标检测识别网络原型进行了对比实验。研究结果表明,论文提出的APSS激活函数显著优于原始网络模型中的激活函数,具有更好的目标特征提取和拟合能力。
  • 黄安博, 曲海成
    录用日期: 2026-03-24
    开源生态系统的快速发展加速了软件漏洞的传播,对信息安全构成了重大威胁,基于序列的深度学习方法在建模源代码的结构特征方面存在不足,而现有基于图神经网络的漏洞检测方法存在难以充分融合拓扑结构以及节点特征的问题。为应对这一挑战及解决现有基于深度学习方法的局限性,提出了一种结合多视角图表示与边类型信息的源代码漏洞检测方法(MVGE-Net)。在该方法中,源代码首先被转换为图表示,之后根据图中节点包含语义程度的不同,使用不同的预训练模型获取图嵌入,并从不同视角构建拓扑图、特征图和共享图以捕获互补信息,同时将边类型信息整合到节点特征中以增强模型表示能力。最后,通过轻量级门控机制融合提取的特征,并生成最终的漏洞预测结果。在两个基准数据集上的实验表明,MVGE-Net在准确率、精确率、召回率和F1值上均优于基线模型,其中,在FFMPeg+Qemu数据集上,MVGE-Net比经典基线方法(Devign)提升了9.14、9.13、1.75和5.74个百分点,定性与定量分析均验证了所提方法的有效性。总体而言,MVGE-Net有效克服了现有基于图神经网络方法的局限性,为漏洞检测任务提供了一种更为鲁棒且高效的解决方案。
  • 黄天一, 张聪, 刘仕意, 左嘉怡, 王正
    录用日期: 2026-03-24
    细粒度图文匹配技术通过对齐图像中的区域和句子中的单词等视觉语义片段,来实现高质量的图文匹配。虽然现有研究在区域-单词对齐层面取得了显著进展,但在文本单词聚合环节中,依然存在聚合策略难以适应文本长度和单词语义分布的问题,这会导致语义信息丢失,最终降低整体匹配精度。为解决这一问题,本研究提出一种轻量动态聚合器(Lightweight Dynamic Aggregator, LDA),LDA由一个微型神经网络和Softmax函数组成,它通过分析文本长度与单词语义分布,动态生成求和与均值聚合的权重。LDA网络首先将输入的文本特征投影到高维空间,之后进行非线性变换以捕捉复杂交互,随后再映射回低维空间来压缩特征。为防止特征信息在变换过程中丢失,网络采用残差连接以增强信息流,最终通过Softmax函数进行归一化来稳定权重。实验结果表明,所提出的方法在公开数据集上优于现有先进算法。在Flickr30K数据集上,本文方法的检索总分和文本检索图像方向的所有指标均取得最优结果,其中R@1指标提升2.1%。在MS-COCO数据集的1K和5K测试集上的检索总分为最优结果,且在两个方向的所有指标上,均表现出持平或者更优的性能,同时仅引入可忽略的额外计算开销。该工作不仅验证了文本长度与语义分布联合优化在聚合环节的重要性,也为细粒度图文匹配提供了一种高效、鲁棒的聚合新思路。
  • 钟钧健, 陈卫刚
    录用日期: 2026-03-24
    事件相机以异步事件流的形式记录场景中的亮度变化,具有低延时、高动态范围等优点。然而,由于仅感知亮度变化而非完整的视觉信息,静态纹理信息缺失,从而在一定程度上影响以事件相机成像作为输入的目标检测系统性能。为解决该问题,本文旨在充分挖掘重建图像特征的补充价值,提升基于事件的目标检测精度。本文提出一种稀疏性驱动的通道注意力模块,对重建图像特征进行初步筛选和增强,构建了一种以事件特征为主导、重建图像特征为调制信号的跨模态融合机制,利用空间自适应的归一化参数实现两种模态特征的有效融合。实验结果表明,与现有基于事件的目标检测方法相比,所提出的方法在Gen1和1 Mpx数据集上的mAP分别提升了1.3%和0.6%。通过引入图像重建特征并结合稀疏性驱动的通道注意力机制,本文实现了跨模态特征的高效融合,提升了事件相机目标检测系统的性能。该方法为事件视觉在复杂场景下的高精度感知提供了有效路径,具有实际的应用价值。
  • 于洋, 曲海成, 刘腊梅
    录用日期: 2026-03-20
    针对变转速工况下的滚动轴承故障诊断中标签稀缺以及特征分布难以细粒度对齐等问题,提出一种耦合时频注意力驱动的图类别感知对比学习方法(CACL)用于无监督跨域诊断。首先,在特征提取方面,为了同时提取故障信号的时域与频域判别特征,并提升对长尾分布与弱故障的敏感性,构建耦合时频注意力模块;然后,将提取的深度判别特征输入到多感受野协同的图卷积网络,利用图生成层构建样本间自适应拓扑关系,并对构建的样本拓扑结构进行深度特征建模和优化;最后,为显式优化图特征空间的结构一致性与类别判别性,设计了跨域类别感知对比学习机制,通过构建跨域同类样本的正对比关系与异类样本的负对比关系,实现源域与目标域同类样本特征分布的细粒度对齐和语义一致的跨域迁移。所提方法在公开的CWRU和JNU数据集上的平均准确率分别为90.67%与93.67%,与对比实验次优方法分别提高了4.68个百分点和1.69个百分点,在多个变转速工况的跨域迁移任务中验证了其无监督故障诊断的有效性。
  • 赵旺鹏, 陈韬, 李伟, 南龙梅, 杜怡然
    录用日期: 2026-03-19
    多项式乘法在格密码运算中占用80%以上的时间,基于快速数论变换(NTT)的多项式乘法能够将多项式乘法的计算复杂度从 降低至 。然而,基于NTT算法的多项式乘法在数据调度方面相比于其他实现方式更为复杂,内存映射更为困难。当前,适用于特定算法的内存映射方案受算法参数和硬件特征限制,扩展性有限;适用于可重构多项式乘法运算的内存映射方案在控制单元和存储单元的开销较大,导致多项式乘法架构面积效率较低。基于上述问题,该文提出一种基于部分常数几何变换的无冲突内存映射方案,能够支持满足 条件的格密码多项式乘法运算。其中,提出一种基于部分CG算法的无冲突数据调度方案,避免多项式乘法在模式转换过程中的写写冲突以及多项式点乘阶段的数据冲突。此外,为避免存储单元在数据调度过程中的读写冲突,提出一种循环移位存储的多Bank存储方案,能够降低控制复杂度的同时,相较于经典乒乓存储方式减少37.5%的存储容量。为进一步证明性能的优越性,基于无冲突内存映射方案的多项式乘法架构在FPGA xc7v2000tflg1925上进行实验验证,和相关文献相比,本文提出的无冲突内存映射方案具有更高的面积效率。
  • 武雯欣, 徐国天, 朱广锐
    录用日期: 2026-03-18
    新型国内主流V2Ray类加密代理协议在保护用户个人隐私的同时也为网络犯罪活动提供了隐蔽通道,准确识别此类流量已成为网络空间治理的研究新热点。为躲避监管,此类协议通常采用流量变种技术,伪装性更强,现有方法难以有效检测。针对这一问题,提出一种基于多模态特征动态融合的加密代理流量检测模型AG-CTNet,用于识别采用多种伪装策略的V2Ray类加密代理流量。针对现有公开数据集稀缺问题,通过自主采集数据,构造加密代理流量样本库,同时引入数据增强策略,提升模型鲁棒性;针对流量变种伪装问题,采用2D-CNN与Transformer并行融合架构,创新性地引入跨模态注意力和动态门控机制,实现多模态特征自适应融合。实验结果表明,本文模型对于V2Ray类加密代理流量识别的准确率和精确率分别达到98.62%、98.41%,有效提升了流量识别的准确性。
  • 陈琼彬, 何玉林, 崔来中, 黄哲学
    录用日期: 2026-03-18
    时间序列挖掘在可再生能源、气象和金融等领域中的重要性日益凸显,其中针对多元多步时间序列的分析尤其受到业界关注。目前基于深度神经网络的多元多步时间序列预测模型,其复杂的模型结构和庞大的参数体量,通常需要大量的计算资源来支撑时间序列预测任务的完成。此外,现有预测模型过分关注时域,仅能处理通道独立或通道混合的信息,限制了同时提取相关通道信息和独立通道信息的能力,导致预测精度下降,尤其在训练数据有限的情况下。为此,一种基于双通道时频域交叉的注意力网络被设计用以处理多元多步时间序列的预测问题,该网络在频域中对通道独立和通道混合两个通道的信息进行提取后,采用注意力机制将双通道的频域信息与时域原始信息进行融合,使得模型可以有效结合时域与频域的信息,进而更全面地捕捉到数据的全局时空关系。本文在8个公开的时间序列数据集上与8个知名的高性能时间序列预测算法进行对比,实验结果表明,以代表性数据集ECL为例,本文提出的算法在MSE、MAE、SMAPE指标上较之2022年NeurIPS上发表的Autoformer算法分别提升了17.55%、12.87%、14.72%;同时,新网络的模型参数量较之2023年ICLR上发表的Crossformer降低了30.82%,训练时间较之2021年ICLR上发表的Pyraformer降低了66.07%,结果证实本文设计的双通道时频域交叉注意力网络是一种轻量且高效的处理多元多步时间序列预测问题的新工具。
  • 陆安文, 曾天浩, 焦一平, 刘明新, 龚虹邑, 陈骏, 徐军
    录用日期: 2026-03-18
    原发性肝癌是全球范围内高发的消化系统恶性肿瘤,主要包括肝内胆管癌(ICC)与肝细胞癌(HCC)两种亚型。临床实践表明,针对上述亚型进行精准的组织学分型与临床分期,对于个体化治疗与预后评估至关重要。然而,由于肝癌组织结构的高度异质性,且全景切片图像(WSIs)中同时蕴含宏观组织结构与微观多源细胞核的互补信息,如何充分利用这些跨尺度特征实现病理图像多任务分析仍是一个重大挑战。为解决这一问题,该工作提出了一种基于弱监督的双分支多源特征融合(DBMSF)模型。模型整合了由CHIEF病理基础模型提取的多尺度深度特征,以及由HoVer-NeXt分割得到的细胞核构建的手工特征。前者通过多尺度特征对齐模块实现跨尺度特征交互与对齐,后者通过图卷积网络(GCN)对不同类型细胞核特征进行动态聚合,从而捕获肿瘤微环境的全面表征。最终,通过多源特征融合模块实现深度与手工特征的动态融合。在南京鼓楼医院ICC私有队列与TCGA-LIHC公开队列上的多任务评估结果显示,模型在ICC分型任务中AUC与ACC分别达到88.5%与75.6%,在HCC T分期任务中分别达到82.4%与71.5%。实验结果表明,DBMSF模型性能显著优于现有先进方法,在肝癌病理图像多任务分析中展现出良好的有效性与临床应用潜力。
  • 李 豪, 马振哲, 程 兰, 续欣莹
    录用日期: 2026-03-18
    针对垃圾焚烧电站卸料平台场景中存在的复杂光照干扰、行人尺度差异显著等问题,现有行人检测方法在浅层边缘特征提取、多尺度特征融合和检测头轻量化设计等方面存在不足。为此,提出一种融合多尺度聚扩特征的行人检测模型(MS-ADFF)。首先,设计边缘特征增强模块,通过强化浅层特征中行人轮廓特征信息,有效降低复杂光照环境下图像细节模糊对行人目标检测的影响;其次,构建多尺度聚扩融合网络,对P3、P4和P5尺度层特征进行两次特征聚扩操作,通过特征聚合与扩散机制有效融合多尺度语义特征,增强模型对不同尺度行人目标的感知能力;最后,构建由深度卷积和分组卷积构成的轻量化共享检测头,通过共享特征提取机制替代传统双分支结构,在保证检测精度的同时有效抑制参数冗余。实验结果表明,以YOLOv11s为基线模型,在自建数据集WIPPID上MS-ADFF模型达到了92.7%的检测精度,Recall、mAP@0.5分别较基线模型提升了4.6%和1.5%,浮点运算量减少了0.7 GFLOPs;在公开数据集CityPersons上MS-ADFF模型的检测精度较基线模型提升了1.9%,浮点运算量减少了0.7 GFLOPs。证明该模型在整体浮点运算量低于基线模型的条件下,能够有效提升垃圾焚烧电站卸料平台场景下的行人检测精度,同时在街道场景下的行人检测任务中表现出良好的泛化能力和鲁棒性。
  • 魏嵬, 于晨晨, 王迪
    录用日期: 2026-03-17
    视觉同步定位与建图是移动机器人领域的核心技术。传统的VSLAM方法主要依赖于人工设计的特征和几何约束,在复杂的环境中面临诸多挑战。近年来基于深度学习的方法为应对这些挑战提供了新的技术方案。本文从问题驱动的角度,回顾了基于深度学习的VSLAM研究进展。首先介绍了VSLAM的基本系统框架,分析了其面临的主要挑战。重点围绕三类关键问题展开综述:针对动态干扰,重点分析了基于语义分割、语义—几何融合的动态检测方法;针对光照变化,系统梳理了基于图像增强、曝光控制与学习型特征提取的鲁棒前端设计;针对轻量化与实时部署需求,讨论了网络模型压缩、硬件加速等技术在边缘设备上的应用。同样简略的讨论了纹理缺乏、快速运动、尺度不确定性、大规模环境和长期运行的问题的代表性解决方案。本文从实际应用中制约VSLAM性能的关键问题出发,构建问题驱动的分析框架,并揭示不同技术路线在复杂场景中的适用性差异。最后总结了常用的评估指标和公共数据集,对本文进行总结并对未来研究方向进行展望。
  • 李普聪, 姜 睿, 王思哲, 鄢文俊
    录用日期: 2026-03-17
    点击率(Click-Through Rate,CTR)预测是推荐系统和在线广告中的核心任务,其性能高度依赖于有效的特征交互建模。现有方法在建模高阶交互的过程中存在忽视域级语义信息的问题,同时高阶交互引入的冗余噪声以及输入特征的过度共享进一步限制了预测的性能。针对上述问题,提出了一种融合门控域感知交互与特征软选择的点击率预测模型。该模型首先引入特征软选择层,通过连续可学习权重对嵌入特征的重要性进行自适应调节,使其更好地适配不同的交互网络;随后采用门控域感知交互模块在域级尺度上显式建模高阶特征交互关系,以保留域级语义信息;同时,利用信息门组件动态筛选关键交互特征,从而有效抑制冗余噪声。在 Criteo、Avazu、MovieLens 和 Frappe 四个公开数据集上的实验结果表明,所提出模型在 AUC 和 LogLoss 指标上均取得稳定提升。以 Criteo 和 Avazu 为例,模型相比最优的对比方法在 AUC 上分别提升 0.12% 和 0.13%,在 LogLoss 上分别降低 0.11% 和 0.14%,其余数据集上亦取得一致性改进。同时,在模型参数规模与训练效率方面,本方法保持了与强基线模型相当的计算开销。实验结果验证了该模型在预测精度与计算效率之间能够取得良好平衡,具有较高的实际应用价值。
  • 张玉樟, 田乐, 魏华利, 林雨茂, 吕世宾, 郭茂祖
    录用日期: 2026-03-17
    云计算环境中负载与资源状态随时间持续变化,易导致基于强化学习的调度策略在推理阶段出现随机性失稳,从而引发能耗上升或响应时间恶化。传统软演员–评论家算法(SAC)主要依赖训练阶段的温度调节机制控制策略随机性,在非平稳负载条件下难以及时适应实时系统变化。针对该问题,本文提出一种面向在线云任务调度的熵监督软演员–评论家算法(ESAC)。在保持原有算法训练结构不变的前提下,ESAC在推理阶段引入策略熵监督机制,实时监测策略随机性状态,并在熵值偏离稳定区间时触发轻量级熵反馈微调,以常数级计算代价实现对策略随机性的快速修正。同时,结合滑动窗口奖励标准化与周期性增量更新,缓解动态负载下奖励尺度漂移带来的数值不稳定问题。基于Alibaba Cluster Trace v2018构建的动态负载仿真实验结果表明,ESAC在不同负载强度与突发场景下均优于多种代表性调度算法,单位任务平均能耗降低约1.8%,平均响应时间最大降低3.01%,相较于A2C,其在三种负载场景下的综合性能指标分别提升70.7%、76.0%和76.2%,且在线调度开销保持在可接受范围内。实验结果验证了所提方法在非平稳云环境中提升在线调度稳定性与适应性的有效性。
  • 何玉林, 贺家豪, 莫沛恒, 阚铮, 崔来中, 黄哲学
    录用日期: 2026-03-17
    大数据计算框架Apache Spark因其广泛应用于分布式大数据分析场景而备受关注。然而,仅依赖单一部署方式(如本地或云端)难以同时兼顾计算成本和运行性能,特别是在处理数据密集型计算任务时。混合云部署通过结合本地资源和公共云资源,提供了一种兼顾成本和性能的灵活、高效解决方案,但其在作业调度方面仍面临诸多挑战,包括如何优化资源利用率与作业执行成本。现有调度算法通常未能充分考虑Spark作业的有向无环图依赖结构及多阶段调度的特性,导致在多作业并行处理场景中作业运行时间较长,且未能有效降低使用成本。为此,本文提出了一种新的基于粒子群优化的成本感知Spark作业调度算法CA-PSO。该算法通过引入成本模型,将虚拟机实例的租赁费用纳入到算法的优化目标中,并动态调整资源分配策略,在满足性能需求的同时最小化对集群资源的利用。此外,该算法充分利用Spark作业的有向无环图依赖结构,设计了多Spark作业的多阶段调度机制,优化资源分配策略和阶段执行顺序,显著提升混合云环境下的多作业调度性能。仿真实验和真实集群实验结果表明,与通用的作业调度算法相比,CA-PSO作业调度算法具有良好的可扩展性,能够适应不同虚拟机定价模型和多种Spark作业类型,可以显著降低混合集群的使用成本。
  • 田枫, 李翔 , 刘芳, 张岩, 解红涛, 韩玉祥, 方超
    录用日期: 2026-03-17
    近年来,深度伪造技术的快速发展在带来娱乐、教育等行业新机遇的同时,也引发了严重的网络安全与隐私问题。当前深度伪造视频检测技术面临两大核心挑战:一是在低质量、高压缩视频中,编码失真与噪声干扰会掩盖细微的伪造痕迹;二是现有方法难以有效建模视频帧间的时序不一致性,缺乏对时空特征的深度融合。针对上述问题,研究提出了一种基于多尺度时空特征融合的检测模型(MSST),该方法构建了一个包含多尺度空间特征提取、频域特征增强和多尺度时间特征提取的完整框架。首先,利用多尺度Transformer编码器提取不同层次的空间特征,并引入可学习频域滤波器以增强高频伪造痕迹的鲁棒性。同时,通过多尺度时间Transformer建模视频帧间时序不一致性,捕捉短程与长程动态异常。在此基础上,设计了一种基于门控交叉注意力的时空特征融合模块,实现跨模态的动态交互,从而生成更具判别力的融合特征。在FF++(LQ)、Celeb-DF与DFDC数据集上的实验结果显示,MSST的ACC和AUC分别达到92.73%、96.61%、95.15%和0.965、0.981、0.976。与现有主流方法相比,该方法在精确度和泛化性上均有明显的提升。
  • 段亚宁, 郭帅, 陈涛, 孙永强, 张卫山
    录用日期: 2026-03-16
    工业物联网数字孪生系统在联邦学习环境下面临双重挑战:数据分布持续演化引发的灾难性遗忘与设备间歇离线导致的模型知识流失。针对上述问题,本文提出知识持久化联邦演化学习框架,通过"存储—约束—传承"协同机制系统性缓解知识遗忘。该框架包含三大核心模块:(1)知识持久化存储模块在服务器端为各边缘设备维护独立存储单元,采用动量式更新策略保持离线设备的历史知识贡献;(2)知识约束聚合模块将历史梯度更新方向作为优化约束,通过二次规划高效求解与历史知识兼容的全局更新路径;(3)生成器知识传承模块融合参数继承与知识对齐策略,结合对抗训练机制合成高质量历史类别样本,实现无数据条件下的知识回放。理论分析证明该框架具有 的收敛速率。在CIFAR-100、Tiny-ImageNet和Stanford Cars数据集上的实验表明,所提方法较现有最优方法平均提升分类准确率3.07个百分点,降低遗忘率3.79个百分点;在仅20%设备参与的极端场景下准确率仅下降 5.21%(对比方法下降达15.84%),展现出对设备间歇离线的强鲁棒性,为隐私受限、类别持续扩展的工业物联网数字孪生应用提供了有效解决方案。
  • 贾筱, 罗昊, 张馨月, 于佳恒, 朱凯, 李晶
    录用日期: 2026-03-12
    序列推荐能捕捉用户兴趣的动态变化,但单领域的序列推荐系统面临着数据稀疏性和推荐同质性等问题。跨域序列推荐系统通过整合多领域的用户行为序列信息,缓解了数据稀疏问题并全面建模用户兴趣的动态演变过程。然而,现有方法在融合跨域交互信息时多采用统一的全局策略,忽略了用户兴趣的多样性和复杂性,且简单图结构难以捕捉用户和项目之间复杂的高阶交互特征,导致跨领域交互信息表征不够全面。针对上述问题,本文提出一种基于图与超图融合的兴趣增强跨域序列推荐模型。在专有域中,针对用户深层次偏好信息挖掘不足的问题,引入胶囊网络结构,通过动态路由机制自适应聚合序列中项目嵌入的上下文信息,提取用户多个潜在兴趣点,作为对单域用户偏好的补充;在共享域中,针对传统图结构难以表达群体间复杂关联和高阶交互特性的局限,提出融合图神经网络与超图神经网络的混合架构。通过多层次特征交互来全面捕捉用户不同维度的偏好特征,增强跨域行为依赖关系的表示能力。最终,经过序列关系学习模块和对比学习模块后,将用户的特有偏好和通用偏好进行深度融合,生成完整的用户偏好嵌入。在数据集Hvideo和Amazon上进行实验验证表明,与最优基线模型相比,所提模型的MRR指标平均提升4.95%和8.39%,NDCG指标平均提升3.58%和14.37%;消融实验结果进一步验证了模型中各个模块的有效性。
  • 罗昊, 辛一冉, 唐云祁
    录用日期: 2026-03-11
    近年来,基于扩散模型的生成式图像技术取得了突破性进展,以Stable Diffusion、DALL-E和Midjourney为代表的文生图模型已经广泛应用于商业领域和日常生活。然而,高度逼真的AI生成图像也带来了图像真实性挑战,催生了虚假信息传播、版权侵犯等社会问题。为有效应对这些挑战,本文系统综述了基于扩散模型的生成图像检测技术的最新研究进展。首先,梳理了扩散模型从原理、基础框架到大规模应用的发展。其次,总结数据集发展,指出数据集建设正从少量生成器、低分辨率向多模型融合、高质量多级筛选方向发展。再次,分析了检测技术的三大主流方法:基于隐式特征的检测技术、基于显式特征的检测技术以及基于混合特征的检测技术。最后,分析了当前检测技术面临的主要挑战,并展望未来研究方向。本综述为研究人员和从业者提供了全面的技术图谱和发展趋势参考。
  • 火久元, 阚甲赟, 杨继广, 郑山农, 曹芳
    录用日期: 2026-03-11
    针对无线传感器网络(WSN)中传统成簇方式导致的簇头负载不均问题,本文提出了一种点和可约边染色约束的无线传感网成簇算法,该算法从图论视角对节点入簇与簇头负载问题进行建模,将无线传感网络的分簇结构抽象为星图联图模型,并引入点和可约边染色理论,将节点入簇代价映射为边染色的色数,以簇头节点的色和刻画其通信负载,从理论上约束不同簇头之间的负载均衡关系。在簇头选举阶段,综合考虑节点剩余能量与局部节点密度,构建候选簇头选取函数,并结合竞争半径机制确定最终簇头,有效缓解基站附近簇头过载的“热区问题”。在节点成簇阶段,提出基于点和可约边染色约束的节点重分配策略,引入CRITIC方法确定竞争半径与剩余能量的权重,动态计算簇头负载阈值,引导节点在不同簇头间进行合理调整,使各簇头负载与其资源能力保持匹配。仿真实验结果表明,VSRECUC算法在网络寿命方面较MH-LEACH、ESPC、EEUC、FSCVG和BEBMCR算法分别延长了369.1%、59.9%、116.1%、57.2%和55.7%,在簇头数量和能耗均衡性等性能指标上也具有显著优势。研究结果表明,将点和可约边染色理论引入无线传感器网络分簇设计中,能够为实现负载均衡与网络寿命优化提供一种新的建模思路和有效方法。
  • 张大伟, 寇康博, 刘意, 郭威, 于洋
    录用日期: 2026-03-11
    高精度的语义分割技术能为自动驾驶车辆提供详尽的环境感知信息。针对传统语义分割方法在鱼眼图像中存在的边缘分割效果差、整体精度低以及训练数据缺乏的问题,提出了一种专用于鱼眼图像语义分割的模型RSCAMamba,并基于变焦增强方法,将普通图像数据集转换为鱼眼图像数据集,旨在有效捕捉鱼眼图像的畸变特征、提升模型的准确性,同时在不同场景下验证模型的鲁棒性。方法首先采用Swin Transformer作为编码器,以准确地建模输入数据的全局特征表示;其次,提出了受限空间通道注意力模块,通过引入一维和二维的受限可变形卷积,在自适应地捕获各向异性的畸变的同时,实现了基于畸变信息的非线性特征建模,从而更准确地刻画条状物体与不规则边缘;此外,采用通道收缩与边缘扩展模块进一步增强图像的边缘细节,缓解因畸变导致的边缘分割性能退化;最后,采用Mamba模块以实现全局特征融合,在捕捉长程依赖关系的同时减少多尺度特征中的冗余信息,使模型能够准确识别完整物体并保持区域空间的连续性。实验结果显示,与Mask2Former相比,RSCAMamba的关键性能指标mIoU在WoodScape公开数据集上提升了1.88%,在CityScapesFisheye合成数据集上提升了3.30%,具有较优的分割性能。
  • 张鑫, 伊华伟, 赵梦园, 王艳飞, 兰洁
    录用日期: 2026-03-11
    盲图像超分辨率重建旨在真实的场景下从模糊的退化图像中恢复得到清晰的高分辨率图像。尽管基于深度学习的重建方法取得了一定进展,但其所依赖的退化模型还存在一定的局限性。一是退化过程中的模糊和加噪操作缺乏自适应性,二是退化过程的模拟方式不够充分。针对以上问题,该文提出了一种混合阶自适应多维度退化模型。该模型整体使用混合阶的退化方式,并分为两个阶段。第一阶段为自适应退化阶段,利用动态卷积对高分辨率图像进行自适应模糊和添加噪声;第二阶段为多维度退化阶段,对第一阶段生成的图像做进一步失真、亮度调整、旋转和降采样的处理。将所提退化模型与经典超分辨率重建网络进行融合,提出一种基于混合阶自适应多维度退化模型的盲图像超分辨率重建算法。为验证所提方法的有效性,在Set14、BSD100和DRealSR数据集上开展对比实验,结果表明,相比PDM-SRGAN基准方法,本文所提方法在4倍超分辨率重建任务中,峰值信噪比指标在上述三个数据集上分别提升0.84 dB、0.63 dB和1.06 dB,表明所提退化模型可有效提升超分辨率算法的重建性能与真实场景适应性,使其能够生成更高质量的图像。
  • 张安勤, 庄志琦, 李梓健, 张挺
    录用日期: 2026-03-11
    近年来,网络攻击日益频繁且手段日益复杂,给国家和企业造成经济损失与安全风险。传统攻击检测方法通过构建来源图分析攻击行为,但这种方法将攻击行为描述为简单图时会丢失部分语义信息,导致检测性能不佳。本研究提出一种基于时序信息图自编码器的网络入侵检测模型,简称TIGAE。TIGAE通过细化图构建方法生成多重来源图,完整记录系统实体交互行为。随后改进了线型图算法将多重图转换为简单图,在增强图结构的同时保留原始系统行为信息,并运用图自编码器学习良性系统行为。在三个数据集上的实验结果显示,Precision平均提升0.65%,F1-Score平均提升0.68%,Recall平均提升1.07%,FPR则平均降低0.40%。实验证明,TIGAE在多项攻击检测指标上均优于现有最先进方法。
  • 李宗民, 王兴宇 , 马金悦, 白云
    录用日期: 2026-03-11
    针对现有轻量级视觉Transformer在词元构建阶段缺乏显式结构先验与频域先验,导致局部高频细节丢失及表征效率受限的问题,本文提出一种融合方位与频域感知的轻量级模型,称为OFT-Former。首先,设计方位感知块嵌入模块,在词元构建阶段显式引入水平与垂直方向的空间结构先验,有效弥补传统块嵌入在几何信息捕捉方面的不足。其次,构建频域增强词元表征细化模块,利用快速傅里叶变换实现频域特征解耦,并结合多尺度卷积针对性强化高频细节保留。进一步,提出双向门控词元调制机制,建立局部与全局特征间的双向交互通路,通过动态门控实现跨尺度特征的自适应融合。实验结果表明,OFT-Former在ImageNet-1K上以12.8M的参数量和1.8 GFLOPs的计算开销取得了81.4%的Top-1准确率,在CIFAR-100分类与COCO目标检测与实例分割任务中亦表现优异,充分验证了模型的有效性。
  • 贾昕元, 秦继伟, 马洁
    录用日期: 2026-03-04
    基于图卷积的动态图异常检测方法利用图建模策略捕获异常节点或边的信息,在网络安全、社交网络、推荐系统等领域都有广泛应用。然而,这些方法存在以下两个挑战:一是难以充分从图结构与时间信息耦合的动态图中学习判别知识,二是对于无属性节点异常检测效果不佳。为了应对这些挑战,提出了一种新的动态图异常检测框架——用于动态图异常检测的时间和图结构综合编码的双向Transformer编码器(Bidirectional Encoder Representations from Transformers, BERT)(Graph & Temporal BERT for Anomaly Detection, GTBAD)。该方法首先设计了基于边的子结构采样模块,以目标边为中心,在多时间片上构建局部子结构,从而提高异常检测的上下文感知能力,然后设计了一种综合考虑图结构与时间的编码模块,旨在更好的提取每个节点在动态图中的结构与时间特征。同时,BERT在编码器下游进一步提取动态图的信息,使得模型能够有效提取无属性节点的动态图,最后,一个判别式异常检测器被引入去计算边的异常分数。在4个真实数据集上进行了大量实验并以受试者工作特征曲线下面积(AUC)作为评价指标,实验结果表明,所提出的GTBAD框架在动态图异常检测任务中比其他现有框架均获得了更高的AUC值,这为动态图异常检测提供了一种新的解决方案和思路。
  • 丁力, 杨军
    录用日期: 2026-03-04
    为应对无人机辅助移动边缘计算系统中任务卸载决策面临的多维时序耦合、动态环境适配与策略稳健性不足等核心挑战,本文创新性地提出一种融合分层时序注意力机制的双延迟深度确定性策略梯度算法(HTAN-TD3)。本研究的突破性贡献体现在三个方面:首先,构建了一种融合系统总时延、最差用户体验与多用户公平性的复合优化目标,突破了传统单目标建模的局限性;其次,设计了具备宏观-微观双流时序解析能力的分层注意力网络(HTAN),通过LSTM与GRU的异构协同与注意力加权融合,实现了对系统状态中多时间尺度动态特征的精准感知与深度挖掘;进一步,引入具有时序相关性的Ornstein-Uhlenbeck过程探索噪声与动态自适应Huber损失函数,分别从策略探索平滑性与训练过程鲁棒性两个维度对算法进行系统性增强。在模拟高负载、强遮挡与多用户竞争的复杂边缘场景中,HTAN-TD3在系统总时延与用户公平性等关键指标上显著优于DDPG、TD3、MATOPO等主流基线算法,展现出卓越的环境适应性与决策智能性,本研究为提升智能边缘计算系统在动态复杂环境下的自主决策能力提供了有益的参考与借鉴。