作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 殷伟梁, 刘冰, 罗善军, 黄亮, 陈晓慧
    录用日期: 2026-04-02
    行人重识别任务易受视角、姿态、遮挡等复杂因素干扰。现有的主流深度学习方法主要依赖视觉特征的统计相似性进行匹配。这类方法在通用场景下表现优异,但普遍缺乏高层语义理解能力与逻辑推理机制,导致其在面对外观相似的硬样本时难以捕捉细粒度差距,从而陷入精度瓶颈。针对上述问题,本文提出一种大小模型协同的两阶段行人重识别方法,旨在融合专用小模型的高效性与通用多模态大模型的强判别力。第一阶段为快速召回阶段,结合轻量级深度学习模型与K-互近邻方法对待识别的行人进行快速召回,从海量图库中筛选出少量与目标行人具有高相关度的候选集,在保证高召回率的同时大幅降低后续处理的数据规模。第二阶段为精确筛选阶段,将预训练的多模态大模型视为判别器,利用其强大的多模态理解能力对候选集进行精确筛选。采用这种大小模型协同的两阶段识别方法能够兼顾模型的速度和精度。在Market-1501和DukeMTMC-reID数据集上,所提出方法的Rank-1准确率分别达到98.5%和96.5%,较CLIP-ReID方法分别提升2.8%和6.5%,这充分验证了所提出方法的有效性。
  • 周泽生, 李平
    录用日期: 2026-04-02
    针对高效Transformer模型在噪声环境下文本分类性能退化的问题,提出了一种结合动态低秩注意力与双视图一致性约束的高效鲁棒文本分类方法。该方法通过输入特征的方差信息自适应地调整注意力秩值,对语义复杂样本分配更高秩以增强表达能力,对简单样本使用较低秩以维持近线性计算复杂度,从而在表示能力与效率之间实现动态平衡。同时,在训练阶段引入双视图一致性约束机制,通过构造干净与受扰动文本视图并约束其语义表示一致,抑制噪声对模型判别边界的干扰,进一步提升模型鲁棒性。本文在多组中英文文本分类数据集上进行了系统实验,包括情感分析、主题识别及细粒度情绪分类等任务。实验结果表明,所提方法在准确率等指标上均优于固定低秩基线模型,并在多种噪声类型与强度下表现出更稳定的分类性能。该研究为在复杂噪声环境下实现高效鲁棒的文本分类提供了一种新的解决思路。
  • 马汉达, 欧阳涛
    录用日期: 2026-04-02
    针对现有关系三元组抽取方法在复杂语境下存在多关系语义表示不足以及隐式关系难以有效抽取的问题,提出了一种融合注意力机制的双通道联合编码关系抽取模型AMJERE(Attention-Mechanism Joint Encoding for Relation Extraction)。该模型从句子语义与关系语义协同建模的角度出发,构建句子通道与关系通道相互独立且可交互的联合编码框架,以增强关系语义表示的完整性与判别能力。模型首先采用句子—关系双通道独立编码结构,分别对输入句子和候选关系进行编码表示,避免语义空间混叠带来的信息干扰;随后引入关系融合模块,通过自注意力机制对关系语义进行建模,并结合句子上下文信息提升对隐式关系特征的表达能力;在此基础上,设计跨通道交叉注意力机制,实现句子表示与关系表示之间的深层语义交互,从而捕捉实体与关系之间的潜在依赖关系,并获得紧凑的联合语义表示;最后,通过多个线性分类器完成关系判别与实体标签预测,实现关系三元组的联合抽取。在NYT和WebNLG两个公开数据集上的实验结果表明,AMJERE在精确率、召回率和F1值指标上均优于多种主流基线模型,其中F1值分别达到93.3%和93.5%。消融实验与定性分析进一步验证了所提出方法在多关系语义表示与隐式关系抽取任务中的有效性与鲁棒性。
  • 龙海清, 李茂
    录用日期: 2026-04-02
    交互式图像检索突破了传统单次查询-返回结果的静态范式,将检索过程重塑为多轮迭代的人机对话,允许用户依据初步结果动态引导与细化检索意图。文本与草图作为两种直观互补的查询模态,在场景级图像检索中具有显著优势,能够有效表达用户的复杂视觉需求。然而,现有方法的交互机制多基于最新即最佳的简单假设,缺乏对历史状态的择优与维持能力,导致检索过程易受噪声干扰且稳定性不足,此外,其评估指标往往仅关注是否在某一轮次检索到目标,忽视了真实交互中用户反馈含噪、意图持续演化以及检索结果稳定性不足等问题;此外,草图本身具有高度抽象性与用户绘制不确定性,现有静态检索模型难以在初始输入不完整或存在歧义时通过交互进行有效细化,导致其实用性与鲁棒性受限。为此,本文提出一种基于文本与草图的交互式场景级图像检索框架IScene。该框架设计了对话重写、相似度优化选择与视觉扩展三个核心模块,构建了一个能够逐步提炼语义、保持判别力稳定并增强视觉表达的检索流程。同时,为支撑交互式研究,本文构建了首个面向该任务的多轮对话数据集。实验结果表明,IScene在多个数据集上的检索精度与稳定性显著优于现有基线方法,为实现更自然、鲁棒的交互式场景检索提供了有效途径。
  • 郝冠一, 孙靖超
    录用日期: 2026-04-01
    数字时代下,文本、图像、音频等模态的复杂交互形成了多模态虚假信息,其传播速度与隐蔽程度远超传统单模态虚假信息,对信息安全与社会治理构成严峻挑战。但在国内,该领域相关研究较为匮乏,尚未形成完整体系。为此研究系统梳理了多模态虚假信息检测领域的研究现状及发展脉络,对多模态虚假信息检测的研究进行了全面总结。在明确多模态虚假信息检测的核心概念与任务谱系的基础上,详细总结了数据集与测评指标特征,分析了SAFE、CAFE、CFFN、SSA-MFND、PSCC-Net、DGM4、CCN、SNIFFER、KGAlign等不同多模态方法模型的适用场景与检测性能,归纳了跨模态一致性、异常特征识别、外部事实驱动三大核心检测方法,并且对多模态虚假信息检测的可解释性与泛化鲁棒性进行了探讨。同时,随着大规模视觉语言模型LVLM的崛起,其在多模态虚假信息检测中的应用不断深化,对此研究梳理了LVLM在该领域的多种应用场景、优势与局限。最后展望了多模态虚假信息检测的未来研究方向,以期为多模态虚假信息检测领域的发展提供借鉴与启示。
  • 王铁君, 鲁子怡, 胡晓燕, 康梦洋, 王文昊, 王恺彦, 徐成杰
    录用日期: 2026-03-30
    简牍文字图像中存在的结构和纹理语义混淆、退化类型复杂、文字像素与背景噪音对比度低等问题,现有图像修复方法在处理具有复杂退化场景的简牍文字图像时普遍存在结构与纹理语义耦合、难以区分建模不同退化程度像素以及掩膜感知能力不足等问题,导致文字结构破坏、修复不稳定及伪影现象频发。本文提出了一种基于多粒度特征引导的简牍文字图像修复——AmdmaNet。首先,在纹理修复网络和结构修复网络中分别重建受结构边缘约束的纹理特征和基于相对全变分量(RTV)的结构特征,避免结构和纹理语义混淆的问题;随后,在图像细化阶段引入多尺度动态范围分布图自注意力机制(Mdma),对不同退化程度的像素进行分类处理,有效缓解修复过度或修复不充分的问题;进一步,采用自适应掩膜感知像素洗牌下采样方法(Ampd),通过受损像素对周围完整区域自适应地分配权重,增强模型对破损区域的置信度,再根据破损区域的位置信息引导图像下采样,确保掩码位置不发生偏移,显著减少了伪影、模糊及马赛克等现象。最后,在自建的简牍文字图像数据集上进行实验验证,实验结果表明,所提出方法在主观视觉感受和客观评价指标上均优于当前主流图像修复算法,尤其在处理文字笔画断裂、背景噪声干扰等复杂场景时表现出更强的鲁棒性。
  • 林素青, 吴景恒, 陈麒轩, 闫明
    录用日期: 2026-03-30
    旅游业的快速发展促使基于个性化需求的兴趣点推荐成为提升用户体验的主要途径,但推荐过程常面临交互极度稀疏、短评论碎片化与语义离散性引发的特征提取难题。传统概率主题模型因依赖词共现统计而难以捕捉潜在语义关联,基于反向传播的迭代式深度学习框架则易陷入梯度失稳与训练低效的困境。为此,提出融合语义增强主题建模的深度学习推荐框架DeepTSN。引入语义聚类增强主题建模方法SynTopic强化短文本表征,利用大语言模型构建初始主题库,结合BERT-Chinese语义聚类与自适应优化策略剔除冗余并融合相似项,有效抽取深层主题特征弥补信息缺失,整合多源异构特征构建用户与景点深层交互的高维向量以捕获复杂非线性关系;同时集成采样网络,通过自适应概率密度采样重构数据分布,采用构造式学习机制解析生成网络权重,有效抑制缺失数据干扰并解决收敛难题,显著提升推荐精度与训练效率。多源数据集实验结果表明,DeepTSN在不同交互密度的真实与公开场景中性能均优于基线模型,MAE降幅最高分别达21.34%与12.72%,MSE降幅最高分别达22.89%与7.32%。运行时间缩短约61.69%,内存峰值下降约72.87%。
  • 张可, 李飞
    录用日期: 2026-03-30
    针对原始序列特征表征能力有限,以及现有“分解-集成”模型在长时序预测任务中分解策略引发的信息丢失问题,本文提出一种融合注意力机制的高维特征序列增强网络(HDFSENet)。该网络通过整合嵌入技术、混合专家分解模块(MOEDecomp)与特征序列增强模块(FSE)以捕捉时间序列的内在特征,同时减少分解策略中的信息丢失。首先,该方法借助三种嵌入技术(数值、位置与时间嵌入),强化原始时间序列的特征信息。其次,通过MOEDecomp模块将增强后的时间序列分解为趋势特征序列与季节特征序列。随后,构建基于注意力机制的特征序列增强模块,以捕捉分解后趋势特征序列与季节特征序列间的相互作用,从而提升特征的表征能力。之后,将这些交互特征作为关键变量整合到模型中,进一步提高预测精度。最后,在多个基准数据集上对该模型的有效性展开验证。实验结果显示,HDFSENet在MSE、MAE等评价指标上,显著优于多个基准模型,表明本文提出的模型为更精准地实现时间序列预测提供了可靠方法。
  • 居洪政, 唐建航, 章阳, 金柯兵
    录用日期: 2026-03-30
    近年来,越来越多的研究开始关注如何基于用户行为建模多兴趣,以刻画用户的复杂偏好。然而,在缺乏物品类别等外部辅助信息的隐式建模场景中,多兴趣模型难以准确区分不同行为的兴趣归属,容易将与目标兴趣关联较弱甚至无关的物品错误聚合到同一兴趣中,形成兴趣特定噪声。为缓解这一问题,本文提出了一种两阶段去噪多兴趣推荐算法(DMIRec),从物品特征和兴趣表示两个层面抑制兴趣特定噪声。在物品降噪阶段,利用可学习的滤波器对各兴趣中的无关物品特征进行滤波,得到每个兴趣的降噪序列;在兴趣去噪阶段,引入条件扩散模型,以与当前兴趣高度相关的物品作为指导信号,通过迭代去噪进一步去除兴趣向量中的噪声成分。为了增强去噪效果,进一步设计了目标引导的多兴趣损失,将推荐目标显式融入多兴趣学习过程,为各兴趣分配合理的责任度,在优化层面减弱兴趣特定噪声的干扰。在Book、Beauty和Retail Rocket三个真实世界数据集上的实验结果表明,相较于基线模型中最优的Top50推荐结果,所提方法的召回率(Recall)分别提升8.84%、2.03%、2.27%,命中率(HR)分别提升9.78%、0.95%、0.72%,归一化折损累计增益(NDCG)分别提升9.07%、3.87%和2.49%,上述实验结果验证了该方法的合理性和有效性。
  • 郝亮, 苏博何俊, 王京华, 徐勇
    录用日期: 2026-03-27
    模型量化技术通过将高精度浮点数据映射到低比特离散空间,能有效降低模型存储与计算开销。如何合理化的考虑参数分布的特点以构建更好的映射方案是模型量化研究的核心。现有 PTQ (训练后量化)方案多默认非激活层数据呈对称钟型分布,却忽略激活层与输入引入的微小偏置可能导致的分布不对称性,进而使量化映射偏向一侧,引入显著近似损失。本文针对图像超分辨率量化方案进行研究,对性能获得公认的二阶段后训练量化方案进行改进。第一,将预寻找量化上下界过程中的基于最值的均等分配改进为基于排序的非均匀分配;第二,在伪量化过程中引入了偏置量,将数据的一部分及均值进行自适应偏移,缓解数据偏置引发的估计损失。改进后的方案在效果上基本全面超越原方案,并具有同样的高压缩比以及加速比:相比原SwinIR-light模型参数量减少约67.4%、超分辨率过程加速3.99倍。
  • 曹林, 张展旗, 张本奎, 常颖, 刘志哲, 杜康宁, 郭亚男
    录用日期: 2026-03-27
    随着信息物理系统的快速发展,传感器所采集的时间序列数据规模呈现爆炸式增长。如何在这些数据中及时、准确地检测异常,对保障系统稳定运行和防范潜在风险具有重要意义。由于异常样本稀缺且分布极度不均衡,时间序列异常检测通常被建模为无监督学习任务。其中,对比学习利用正常样本在不同视角下所共享的潜在一致性,通过拉近同一样本在不同增强视角间的表征距离,从而构建更加紧凑且判别性更强的正常特征空间,显著增强了正常与异常模式之间的可分性,已成为该领域极具潜力的主流范式。尽管当前基于对比学习的异常检测方法已取得一定进展,但仍存在对时间序列复杂上下文变化建模不充分的难题,导致异常检测性能受限。为此,本文提出一种融合样本内与样本间双分支表征学习的时间序列异常对比检测框架(Dual-Branch Intra- and Inter-Sample Representation Learning for Time Series Anomaly Contrastive Detection,I2CD)。该框架通过挖掘样本内的层次化上下文依赖关系,并利用样本间的信息交互主动增强正常变化模式,从而学习对异常变化更具判别力的时序表征。具体而言,为增强模型对时间序列上下文复杂变化的建模能力,本文设计了多专家时间金字塔模块。该模块在表征空间中引入多分辨率专家,以自适应地捕获多维序列的层次化依赖关系。同时,本文提出原型引导的正常模式增强模块,通过利用正常变化模式的代表性原型构建样本间信息交互机制,在强化正常样本特征一致性的同时,有效弱化异常样本中的异常模式,从而进一步提升双分支表征的判别能力。通过在六个真实基准数据集上进行实验,验证了该框架在时间序列异常检测任务中的有效性与鲁棒性。
  • 陆小辰, 王胜蓝, 钟琰, 张晶晶, 张磊
    录用日期: 2026-03-27
    近年来深度学习在计算机视觉等研究领域取得越来越多的成果,其中,激活函数对于增强深度神经网络的非线性拟合能力具有重要的影响。但随着研究的深入,现有的激活函数,如ReLU和SiLU等,暴露出越来越多的问题,比如存在梯度消失/死亡现象,对负值区域不具有自适应调节性等。论文针对常见目标检测识别任务中显著性特征的去留问题,提出了一种新的激活函数--自适应参数化Softplus-Sigmoid函数 (Adaptive Parametric Softplus-Sigmoid,APSS),旨在从复杂背景中精准地提取和学习目标的多尺度融合特征。该激活函数基于生物神经科学中的基底-门控组合机制。其中,基底项确保基础特征的可学习性与梯度稳定性,门控项则通过动态调节负值区域的响应强度,实现无效特征的抑制,通过两者的有机结合,实现网络模型保留和抑制特征能力的平衡。为了验证该激活函数的优势,论文在SoccerNet、UA-DETRAC和BEEF24等三组实验数据集上,与几种典型的目标检测识别网络原型进行了对比实验。研究结果表明,论文提出的APSS激活函数显著优于原始网络模型中的激活函数,具有更好的目标特征提取和拟合能力。
  • 黄安博, 曲海成
    录用日期: 2026-03-24
    开源生态系统的快速发展加速了软件漏洞的传播,对信息安全构成了重大威胁,基于序列的深度学习方法在建模源代码的结构特征方面存在不足,而现有基于图神经网络的漏洞检测方法存在难以充分融合拓扑结构以及节点特征的问题。为应对这一挑战及解决现有基于深度学习方法的局限性,提出了一种结合多视角图表示与边类型信息的源代码漏洞检测方法(MVGE-Net)。在该方法中,源代码首先被转换为图表示,之后根据图中节点包含语义程度的不同,使用不同的预训练模型获取图嵌入,并从不同视角构建拓扑图、特征图和共享图以捕获互补信息,同时将边类型信息整合到节点特征中以增强模型表示能力。最后,通过轻量级门控机制融合提取的特征,并生成最终的漏洞预测结果。在两个基准数据集上的实验表明,MVGE-Net在准确率、精确率、召回率和F1值上均优于基线模型,其中,在FFMPeg+Qemu数据集上,MVGE-Net比经典基线方法(Devign)提升了9.14、9.13、1.75和5.74个百分点,定性与定量分析均验证了所提方法的有效性。总体而言,MVGE-Net有效克服了现有基于图神经网络方法的局限性,为漏洞检测任务提供了一种更为鲁棒且高效的解决方案。
  • 黄天一, 张聪, 刘仕意, 左嘉怡, 王正
    录用日期: 2026-03-24
    细粒度图文匹配技术通过对齐图像中的区域和句子中的单词等视觉语义片段,来实现高质量的图文匹配。虽然现有研究在区域-单词对齐层面取得了显著进展,但在文本单词聚合环节中,依然存在聚合策略难以适应文本长度和单词语义分布的问题,这会导致语义信息丢失,最终降低整体匹配精度。为解决这一问题,本研究提出一种轻量动态聚合器(Lightweight Dynamic Aggregator, LDA),LDA由一个微型神经网络和Softmax函数组成,它通过分析文本长度与单词语义分布,动态生成求和与均值聚合的权重。LDA网络首先将输入的文本特征投影到高维空间,之后进行非线性变换以捕捉复杂交互,随后再映射回低维空间来压缩特征。为防止特征信息在变换过程中丢失,网络采用残差连接以增强信息流,最终通过Softmax函数进行归一化来稳定权重。实验结果表明,所提出的方法在公开数据集上优于现有先进算法。在Flickr30K数据集上,本文方法的检索总分和文本检索图像方向的所有指标均取得最优结果,其中R@1指标提升2.1%。在MS-COCO数据集的1K和5K测试集上的检索总分为最优结果,且在两个方向的所有指标上,均表现出持平或者更优的性能,同时仅引入可忽略的额外计算开销。该工作不仅验证了文本长度与语义分布联合优化在聚合环节的重要性,也为细粒度图文匹配提供了一种高效、鲁棒的聚合新思路。
  • 钟钧健, 陈卫刚
    录用日期: 2026-03-24
    事件相机以异步事件流的形式记录场景中的亮度变化,具有低延时、高动态范围等优点。然而,由于仅感知亮度变化而非完整的视觉信息,静态纹理信息缺失,从而在一定程度上影响以事件相机成像作为输入的目标检测系统性能。为解决该问题,本文旨在充分挖掘重建图像特征的补充价值,提升基于事件的目标检测精度。本文提出一种稀疏性驱动的通道注意力模块,对重建图像特征进行初步筛选和增强,构建了一种以事件特征为主导、重建图像特征为调制信号的跨模态融合机制,利用空间自适应的归一化参数实现两种模态特征的有效融合。实验结果表明,与现有基于事件的目标检测方法相比,所提出的方法在Gen1和1 Mpx数据集上的mAP分别提升了1.3%和0.6%。通过引入图像重建特征并结合稀疏性驱动的通道注意力机制,本文实现了跨模态特征的高效融合,提升了事件相机目标检测系统的性能。该方法为事件视觉在复杂场景下的高精度感知提供了有效路径,具有实际的应用价值。
  • 于洋, 曲海成, 刘腊梅
    录用日期: 2026-03-20
    针对变转速工况下的滚动轴承故障诊断中标签稀缺以及特征分布难以细粒度对齐等问题,提出一种耦合时频注意力驱动的图类别感知对比学习方法(CACL)用于无监督跨域诊断。首先,在特征提取方面,为了同时提取故障信号的时域与频域判别特征,并提升对长尾分布与弱故障的敏感性,构建耦合时频注意力模块;然后,将提取的深度判别特征输入到多感受野协同的图卷积网络,利用图生成层构建样本间自适应拓扑关系,并对构建的样本拓扑结构进行深度特征建模和优化;最后,为显式优化图特征空间的结构一致性与类别判别性,设计了跨域类别感知对比学习机制,通过构建跨域同类样本的正对比关系与异类样本的负对比关系,实现源域与目标域同类样本特征分布的细粒度对齐和语义一致的跨域迁移。所提方法在公开的CWRU和JNU数据集上的平均准确率分别为90.67%与93.67%,与对比实验次优方法分别提高了4.68个百分点和1.69个百分点,在多个变转速工况的跨域迁移任务中验证了其无监督故障诊断的有效性。
  • 赵旺鹏, 陈韬, 李伟, 南龙梅, 杜怡然
    录用日期: 2026-03-19
    多项式乘法在格密码运算中占用80%以上的时间,基于快速数论变换(NTT)的多项式乘法能够将多项式乘法的计算复杂度从 降低至 。然而,基于NTT算法的多项式乘法在数据调度方面相比于其他实现方式更为复杂,内存映射更为困难。当前,适用于特定算法的内存映射方案受算法参数和硬件特征限制,扩展性有限;适用于可重构多项式乘法运算的内存映射方案在控制单元和存储单元的开销较大,导致多项式乘法架构面积效率较低。基于上述问题,该文提出一种基于部分常数几何变换的无冲突内存映射方案,能够支持满足 条件的格密码多项式乘法运算。其中,提出一种基于部分CG算法的无冲突数据调度方案,避免多项式乘法在模式转换过程中的写写冲突以及多项式点乘阶段的数据冲突。此外,为避免存储单元在数据调度过程中的读写冲突,提出一种循环移位存储的多Bank存储方案,能够降低控制复杂度的同时,相较于经典乒乓存储方式减少37.5%的存储容量。为进一步证明性能的优越性,基于无冲突内存映射方案的多项式乘法架构在FPGA xc7v2000tflg1925上进行实验验证,和相关文献相比,本文提出的无冲突内存映射方案具有更高的面积效率。
  • 武雯欣, 徐国天, 朱广锐
    录用日期: 2026-03-18
    新型国内主流V2Ray类加密代理协议在保护用户个人隐私的同时也为网络犯罪活动提供了隐蔽通道,准确识别此类流量已成为网络空间治理的研究新热点。为躲避监管,此类协议通常采用流量变种技术,伪装性更强,现有方法难以有效检测。针对这一问题,提出一种基于多模态特征动态融合的加密代理流量检测模型AG-CTNet,用于识别采用多种伪装策略的V2Ray类加密代理流量。针对现有公开数据集稀缺问题,通过自主采集数据,构造加密代理流量样本库,同时引入数据增强策略,提升模型鲁棒性;针对流量变种伪装问题,采用2D-CNN与Transformer并行融合架构,创新性地引入跨模态注意力和动态门控机制,实现多模态特征自适应融合。实验结果表明,本文模型对于V2Ray类加密代理流量识别的准确率和精确率分别达到98.62%、98.41%,有效提升了流量识别的准确性。
  • 陈琼彬, 何玉林, 崔来中, 黄哲学
    录用日期: 2026-03-18
    时间序列挖掘在可再生能源、气象和金融等领域中的重要性日益凸显,其中针对多元多步时间序列的分析尤其受到业界关注。目前基于深度神经网络的多元多步时间序列预测模型,其复杂的模型结构和庞大的参数体量,通常需要大量的计算资源来支撑时间序列预测任务的完成。此外,现有预测模型过分关注时域,仅能处理通道独立或通道混合的信息,限制了同时提取相关通道信息和独立通道信息的能力,导致预测精度下降,尤其在训练数据有限的情况下。为此,一种基于双通道时频域交叉的注意力网络被设计用以处理多元多步时间序列的预测问题,该网络在频域中对通道独立和通道混合两个通道的信息进行提取后,采用注意力机制将双通道的频域信息与时域原始信息进行融合,使得模型可以有效结合时域与频域的信息,进而更全面地捕捉到数据的全局时空关系。本文在8个公开的时间序列数据集上与8个知名的高性能时间序列预测算法进行对比,实验结果表明,以代表性数据集ECL为例,本文提出的算法在MSE、MAE、SMAPE指标上较之2022年NeurIPS上发表的Autoformer算法分别提升了17.55%、12.87%、14.72%;同时,新网络的模型参数量较之2023年ICLR上发表的Crossformer降低了30.82%,训练时间较之2021年ICLR上发表的Pyraformer降低了66.07%,结果证实本文设计的双通道时频域交叉注意力网络是一种轻量且高效的处理多元多步时间序列预测问题的新工具。
  • 陆安文, 曾天浩, 焦一平, 刘明新, 龚虹邑, 陈骏, 徐军
    录用日期: 2026-03-18
    原发性肝癌是全球范围内高发的消化系统恶性肿瘤,主要包括肝内胆管癌(ICC)与肝细胞癌(HCC)两种亚型。临床实践表明,针对上述亚型进行精准的组织学分型与临床分期,对于个体化治疗与预后评估至关重要。然而,由于肝癌组织结构的高度异质性,且全景切片图像(WSIs)中同时蕴含宏观组织结构与微观多源细胞核的互补信息,如何充分利用这些跨尺度特征实现病理图像多任务分析仍是一个重大挑战。为解决这一问题,该工作提出了一种基于弱监督的双分支多源特征融合(DBMSF)模型。模型整合了由CHIEF病理基础模型提取的多尺度深度特征,以及由HoVer-NeXt分割得到的细胞核构建的手工特征。前者通过多尺度特征对齐模块实现跨尺度特征交互与对齐,后者通过图卷积网络(GCN)对不同类型细胞核特征进行动态聚合,从而捕获肿瘤微环境的全面表征。最终,通过多源特征融合模块实现深度与手工特征的动态融合。在南京鼓楼医院ICC私有队列与TCGA-LIHC公开队列上的多任务评估结果显示,模型在ICC分型任务中AUC与ACC分别达到88.5%与75.6%,在HCC T分期任务中分别达到82.4%与71.5%。实验结果表明,DBMSF模型性能显著优于现有先进方法,在肝癌病理图像多任务分析中展现出良好的有效性与临床应用潜力。
  • 李 豪, 马振哲, 程 兰, 续欣莹
    录用日期: 2026-03-18
    针对垃圾焚烧电站卸料平台场景中存在的复杂光照干扰、行人尺度差异显著等问题,现有行人检测方法在浅层边缘特征提取、多尺度特征融合和检测头轻量化设计等方面存在不足。为此,提出一种融合多尺度聚扩特征的行人检测模型(MS-ADFF)。首先,设计边缘特征增强模块,通过强化浅层特征中行人轮廓特征信息,有效降低复杂光照环境下图像细节模糊对行人目标检测的影响;其次,构建多尺度聚扩融合网络,对P3、P4和P5尺度层特征进行两次特征聚扩操作,通过特征聚合与扩散机制有效融合多尺度语义特征,增强模型对不同尺度行人目标的感知能力;最后,构建由深度卷积和分组卷积构成的轻量化共享检测头,通过共享特征提取机制替代传统双分支结构,在保证检测精度的同时有效抑制参数冗余。实验结果表明,以YOLOv11s为基线模型,在自建数据集WIPPID上MS-ADFF模型达到了92.7%的检测精度,Recall、mAP@0.5分别较基线模型提升了4.6%和1.5%,浮点运算量减少了0.7 GFLOPs;在公开数据集CityPersons上MS-ADFF模型的检测精度较基线模型提升了1.9%,浮点运算量减少了0.7 GFLOPs。证明该模型在整体浮点运算量低于基线模型的条件下,能够有效提升垃圾焚烧电站卸料平台场景下的行人检测精度,同时在街道场景下的行人检测任务中表现出良好的泛化能力和鲁棒性。
  • 魏嵬, 于晨晨, 王迪
    录用日期: 2026-03-17
    视觉同步定位与建图是移动机器人领域的核心技术。传统的VSLAM方法主要依赖于人工设计的特征和几何约束,在复杂的环境中面临诸多挑战。近年来基于深度学习的方法为应对这些挑战提供了新的技术方案。本文从问题驱动的角度,回顾了基于深度学习的VSLAM研究进展。首先介绍了VSLAM的基本系统框架,分析了其面临的主要挑战。重点围绕三类关键问题展开综述:针对动态干扰,重点分析了基于语义分割、语义—几何融合的动态检测方法;针对光照变化,系统梳理了基于图像增强、曝光控制与学习型特征提取的鲁棒前端设计;针对轻量化与实时部署需求,讨论了网络模型压缩、硬件加速等技术在边缘设备上的应用。同样简略的讨论了纹理缺乏、快速运动、尺度不确定性、大规模环境和长期运行的问题的代表性解决方案。本文从实际应用中制约VSLAM性能的关键问题出发,构建问题驱动的分析框架,并揭示不同技术路线在复杂场景中的适用性差异。最后总结了常用的评估指标和公共数据集,对本文进行总结并对未来研究方向进行展望。
  • 李普聪, 姜 睿, 王思哲, 鄢文俊
    录用日期: 2026-03-17
    点击率(Click-Through Rate,CTR)预测是推荐系统和在线广告中的核心任务,其性能高度依赖于有效的特征交互建模。现有方法在建模高阶交互的过程中存在忽视域级语义信息的问题,同时高阶交互引入的冗余噪声以及输入特征的过度共享进一步限制了预测的性能。针对上述问题,提出了一种融合门控域感知交互与特征软选择的点击率预测模型。该模型首先引入特征软选择层,通过连续可学习权重对嵌入特征的重要性进行自适应调节,使其更好地适配不同的交互网络;随后采用门控域感知交互模块在域级尺度上显式建模高阶特征交互关系,以保留域级语义信息;同时,利用信息门组件动态筛选关键交互特征,从而有效抑制冗余噪声。在 Criteo、Avazu、MovieLens 和 Frappe 四个公开数据集上的实验结果表明,所提出模型在 AUC 和 LogLoss 指标上均取得稳定提升。以 Criteo 和 Avazu 为例,模型相比最优的对比方法在 AUC 上分别提升 0.12% 和 0.13%,在 LogLoss 上分别降低 0.11% 和 0.14%,其余数据集上亦取得一致性改进。同时,在模型参数规模与训练效率方面,本方法保持了与强基线模型相当的计算开销。实验结果验证了该模型在预测精度与计算效率之间能够取得良好平衡,具有较高的实际应用价值。
  • 张玉樟, 田乐, 魏华利, 林雨茂, 吕世宾, 郭茂祖
    录用日期: 2026-03-17
    云计算环境中负载与资源状态随时间持续变化,易导致基于强化学习的调度策略在推理阶段出现随机性失稳,从而引发能耗上升或响应时间恶化。传统软演员–评论家算法(SAC)主要依赖训练阶段的温度调节机制控制策略随机性,在非平稳负载条件下难以及时适应实时系统变化。针对该问题,本文提出一种面向在线云任务调度的熵监督软演员–评论家算法(ESAC)。在保持原有算法训练结构不变的前提下,ESAC在推理阶段引入策略熵监督机制,实时监测策略随机性状态,并在熵值偏离稳定区间时触发轻量级熵反馈微调,以常数级计算代价实现对策略随机性的快速修正。同时,结合滑动窗口奖励标准化与周期性增量更新,缓解动态负载下奖励尺度漂移带来的数值不稳定问题。基于Alibaba Cluster Trace v2018构建的动态负载仿真实验结果表明,ESAC在不同负载强度与突发场景下均优于多种代表性调度算法,单位任务平均能耗降低约1.8%,平均响应时间最大降低3.01%,相较于A2C,其在三种负载场景下的综合性能指标分别提升70.7%、76.0%和76.2%,且在线调度开销保持在可接受范围内。实验结果验证了所提方法在非平稳云环境中提升在线调度稳定性与适应性的有效性。
  • 何玉林, 贺家豪, 莫沛恒, 阚铮, 崔来中, 黄哲学
    录用日期: 2026-03-17
    大数据计算框架Apache Spark因其广泛应用于分布式大数据分析场景而备受关注。然而,仅依赖单一部署方式(如本地或云端)难以同时兼顾计算成本和运行性能,特别是在处理数据密集型计算任务时。混合云部署通过结合本地资源和公共云资源,提供了一种兼顾成本和性能的灵活、高效解决方案,但其在作业调度方面仍面临诸多挑战,包括如何优化资源利用率与作业执行成本。现有调度算法通常未能充分考虑Spark作业的有向无环图依赖结构及多阶段调度的特性,导致在多作业并行处理场景中作业运行时间较长,且未能有效降低使用成本。为此,本文提出了一种新的基于粒子群优化的成本感知Spark作业调度算法CA-PSO。该算法通过引入成本模型,将虚拟机实例的租赁费用纳入到算法的优化目标中,并动态调整资源分配策略,在满足性能需求的同时最小化对集群资源的利用。此外,该算法充分利用Spark作业的有向无环图依赖结构,设计了多Spark作业的多阶段调度机制,优化资源分配策略和阶段执行顺序,显著提升混合云环境下的多作业调度性能。仿真实验和真实集群实验结果表明,与通用的作业调度算法相比,CA-PSO作业调度算法具有良好的可扩展性,能够适应不同虚拟机定价模型和多种Spark作业类型,可以显著降低混合集群的使用成本。
  • 田枫, 李翔 , 刘芳, 张岩, 解红涛, 韩玉祥, 方超
    录用日期: 2026-03-17
    近年来,深度伪造技术的快速发展在带来娱乐、教育等行业新机遇的同时,也引发了严重的网络安全与隐私问题。当前深度伪造视频检测技术面临两大核心挑战:一是在低质量、高压缩视频中,编码失真与噪声干扰会掩盖细微的伪造痕迹;二是现有方法难以有效建模视频帧间的时序不一致性,缺乏对时空特征的深度融合。针对上述问题,研究提出了一种基于多尺度时空特征融合的检测模型(MSST),该方法构建了一个包含多尺度空间特征提取、频域特征增强和多尺度时间特征提取的完整框架。首先,利用多尺度Transformer编码器提取不同层次的空间特征,并引入可学习频域滤波器以增强高频伪造痕迹的鲁棒性。同时,通过多尺度时间Transformer建模视频帧间时序不一致性,捕捉短程与长程动态异常。在此基础上,设计了一种基于门控交叉注意力的时空特征融合模块,实现跨模态的动态交互,从而生成更具判别力的融合特征。在FF++(LQ)、Celeb-DF与DFDC数据集上的实验结果显示,MSST的ACC和AUC分别达到92.73%、96.61%、95.15%和0.965、0.981、0.976。与现有主流方法相比,该方法在精确度和泛化性上均有明显的提升。
  • 段亚宁, 郭帅, 陈涛, 孙永强, 张卫山
    录用日期: 2026-03-16
    工业物联网数字孪生系统在联邦学习环境下面临双重挑战:数据分布持续演化引发的灾难性遗忘与设备间歇离线导致的模型知识流失。针对上述问题,本文提出知识持久化联邦演化学习框架,通过"存储—约束—传承"协同机制系统性缓解知识遗忘。该框架包含三大核心模块:(1)知识持久化存储模块在服务器端为各边缘设备维护独立存储单元,采用动量式更新策略保持离线设备的历史知识贡献;(2)知识约束聚合模块将历史梯度更新方向作为优化约束,通过二次规划高效求解与历史知识兼容的全局更新路径;(3)生成器知识传承模块融合参数继承与知识对齐策略,结合对抗训练机制合成高质量历史类别样本,实现无数据条件下的知识回放。理论分析证明该框架具有 的收敛速率。在CIFAR-100、Tiny-ImageNet和Stanford Cars数据集上的实验表明,所提方法较现有最优方法平均提升分类准确率3.07个百分点,降低遗忘率3.79个百分点;在仅20%设备参与的极端场景下准确率仅下降 5.21%(对比方法下降达15.84%),展现出对设备间歇离线的强鲁棒性,为隐私受限、类别持续扩展的工业物联网数字孪生应用提供了有效解决方案。
  • 贾筱, 罗昊, 张馨月, 于佳恒, 朱凯, 李晶
    录用日期: 2026-03-12
    序列推荐能捕捉用户兴趣的动态变化,但单领域的序列推荐系统面临着数据稀疏性和推荐同质性等问题。跨域序列推荐系统通过整合多领域的用户行为序列信息,缓解了数据稀疏问题并全面建模用户兴趣的动态演变过程。然而,现有方法在融合跨域交互信息时多采用统一的全局策略,忽略了用户兴趣的多样性和复杂性,且简单图结构难以捕捉用户和项目之间复杂的高阶交互特征,导致跨领域交互信息表征不够全面。针对上述问题,本文提出一种基于图与超图融合的兴趣增强跨域序列推荐模型。在专有域中,针对用户深层次偏好信息挖掘不足的问题,引入胶囊网络结构,通过动态路由机制自适应聚合序列中项目嵌入的上下文信息,提取用户多个潜在兴趣点,作为对单域用户偏好的补充;在共享域中,针对传统图结构难以表达群体间复杂关联和高阶交互特性的局限,提出融合图神经网络与超图神经网络的混合架构。通过多层次特征交互来全面捕捉用户不同维度的偏好特征,增强跨域行为依赖关系的表示能力。最终,经过序列关系学习模块和对比学习模块后,将用户的特有偏好和通用偏好进行深度融合,生成完整的用户偏好嵌入。在数据集Hvideo和Amazon上进行实验验证表明,与最优基线模型相比,所提模型的MRR指标平均提升4.95%和8.39%,NDCG指标平均提升3.58%和14.37%;消融实验结果进一步验证了模型中各个模块的有效性。
  • 罗昊, 辛一冉, 唐云祁
    录用日期: 2026-03-11
    近年来,基于扩散模型的生成式图像技术取得了突破性进展,以Stable Diffusion、DALL-E和Midjourney为代表的文生图模型已经广泛应用于商业领域和日常生活。然而,高度逼真的AI生成图像也带来了图像真实性挑战,催生了虚假信息传播、版权侵犯等社会问题。为有效应对这些挑战,本文系统综述了基于扩散模型的生成图像检测技术的最新研究进展。首先,梳理了扩散模型从原理、基础框架到大规模应用的发展。其次,总结数据集发展,指出数据集建设正从少量生成器、低分辨率向多模型融合、高质量多级筛选方向发展。再次,分析了检测技术的三大主流方法:基于隐式特征的检测技术、基于显式特征的检测技术以及基于混合特征的检测技术。最后,分析了当前检测技术面临的主要挑战,并展望未来研究方向。本综述为研究人员和从业者提供了全面的技术图谱和发展趋势参考。
  • 火久元, 阚甲赟, 杨继广, 郑山农, 曹芳
    录用日期: 2026-03-11
    针对无线传感器网络(WSN)中传统成簇方式导致的簇头负载不均问题,本文提出了一种点和可约边染色约束的无线传感网成簇算法,该算法从图论视角对节点入簇与簇头负载问题进行建模,将无线传感网络的分簇结构抽象为星图联图模型,并引入点和可约边染色理论,将节点入簇代价映射为边染色的色数,以簇头节点的色和刻画其通信负载,从理论上约束不同簇头之间的负载均衡关系。在簇头选举阶段,综合考虑节点剩余能量与局部节点密度,构建候选簇头选取函数,并结合竞争半径机制确定最终簇头,有效缓解基站附近簇头过载的“热区问题”。在节点成簇阶段,提出基于点和可约边染色约束的节点重分配策略,引入CRITIC方法确定竞争半径与剩余能量的权重,动态计算簇头负载阈值,引导节点在不同簇头间进行合理调整,使各簇头负载与其资源能力保持匹配。仿真实验结果表明,VSRECUC算法在网络寿命方面较MH-LEACH、ESPC、EEUC、FSCVG和BEBMCR算法分别延长了369.1%、59.9%、116.1%、57.2%和55.7%,在簇头数量和能耗均衡性等性能指标上也具有显著优势。研究结果表明,将点和可约边染色理论引入无线传感器网络分簇设计中,能够为实现负载均衡与网络寿命优化提供一种新的建模思路和有效方法。
  • 张大伟, 寇康博, 刘意, 郭威, 于洋
    录用日期: 2026-03-11
    高精度的语义分割技术能为自动驾驶车辆提供详尽的环境感知信息。针对传统语义分割方法在鱼眼图像中存在的边缘分割效果差、整体精度低以及训练数据缺乏的问题,提出了一种专用于鱼眼图像语义分割的模型RSCAMamba,并基于变焦增强方法,将普通图像数据集转换为鱼眼图像数据集,旨在有效捕捉鱼眼图像的畸变特征、提升模型的准确性,同时在不同场景下验证模型的鲁棒性。方法首先采用Swin Transformer作为编码器,以准确地建模输入数据的全局特征表示;其次,提出了受限空间通道注意力模块,通过引入一维和二维的受限可变形卷积,在自适应地捕获各向异性的畸变的同时,实现了基于畸变信息的非线性特征建模,从而更准确地刻画条状物体与不规则边缘;此外,采用通道收缩与边缘扩展模块进一步增强图像的边缘细节,缓解因畸变导致的边缘分割性能退化;最后,采用Mamba模块以实现全局特征融合,在捕捉长程依赖关系的同时减少多尺度特征中的冗余信息,使模型能够准确识别完整物体并保持区域空间的连续性。实验结果显示,与Mask2Former相比,RSCAMamba的关键性能指标mIoU在WoodScape公开数据集上提升了1.88%,在CityScapesFisheye合成数据集上提升了3.30%,具有较优的分割性能。
  • 张鑫, 伊华伟, 赵梦园, 王艳飞, 兰洁
    录用日期: 2026-03-11
    盲图像超分辨率重建旨在真实的场景下从模糊的退化图像中恢复得到清晰的高分辨率图像。尽管基于深度学习的重建方法取得了一定进展,但其所依赖的退化模型还存在一定的局限性。一是退化过程中的模糊和加噪操作缺乏自适应性,二是退化过程的模拟方式不够充分。针对以上问题,该文提出了一种混合阶自适应多维度退化模型。该模型整体使用混合阶的退化方式,并分为两个阶段。第一阶段为自适应退化阶段,利用动态卷积对高分辨率图像进行自适应模糊和添加噪声;第二阶段为多维度退化阶段,对第一阶段生成的图像做进一步失真、亮度调整、旋转和降采样的处理。将所提退化模型与经典超分辨率重建网络进行融合,提出一种基于混合阶自适应多维度退化模型的盲图像超分辨率重建算法。为验证所提方法的有效性,在Set14、BSD100和DRealSR数据集上开展对比实验,结果表明,相比PDM-SRGAN基准方法,本文所提方法在4倍超分辨率重建任务中,峰值信噪比指标在上述三个数据集上分别提升0.84 dB、0.63 dB和1.06 dB,表明所提退化模型可有效提升超分辨率算法的重建性能与真实场景适应性,使其能够生成更高质量的图像。
  • 张安勤, 庄志琦, 李梓健, 张挺
    录用日期: 2026-03-11
    近年来,网络攻击日益频繁且手段日益复杂,给国家和企业造成经济损失与安全风险。传统攻击检测方法通过构建来源图分析攻击行为,但这种方法将攻击行为描述为简单图时会丢失部分语义信息,导致检测性能不佳。本研究提出一种基于时序信息图自编码器的网络入侵检测模型,简称TIGAE。TIGAE通过细化图构建方法生成多重来源图,完整记录系统实体交互行为。随后改进了线型图算法将多重图转换为简单图,在增强图结构的同时保留原始系统行为信息,并运用图自编码器学习良性系统行为。在三个数据集上的实验结果显示,Precision平均提升0.65%,F1-Score平均提升0.68%,Recall平均提升1.07%,FPR则平均降低0.40%。实验证明,TIGAE在多项攻击检测指标上均优于现有最先进方法。
  • 李宗民, 王兴宇 , 马金悦, 白云
    录用日期: 2026-03-11
    针对现有轻量级视觉Transformer在词元构建阶段缺乏显式结构先验与频域先验,导致局部高频细节丢失及表征效率受限的问题,本文提出一种融合方位与频域感知的轻量级模型,称为OFT-Former。首先,设计方位感知块嵌入模块,在词元构建阶段显式引入水平与垂直方向的空间结构先验,有效弥补传统块嵌入在几何信息捕捉方面的不足。其次,构建频域增强词元表征细化模块,利用快速傅里叶变换实现频域特征解耦,并结合多尺度卷积针对性强化高频细节保留。进一步,提出双向门控词元调制机制,建立局部与全局特征间的双向交互通路,通过动态门控实现跨尺度特征的自适应融合。实验结果表明,OFT-Former在ImageNet-1K上以12.8M的参数量和1.8 GFLOPs的计算开销取得了81.4%的Top-1准确率,在CIFAR-100分类与COCO目标检测与实例分割任务中亦表现优异,充分验证了模型的有效性。
  • 贾昕元, 秦继伟, 马洁
    录用日期: 2026-03-04
    基于图卷积的动态图异常检测方法利用图建模策略捕获异常节点或边的信息,在网络安全、社交网络、推荐系统等领域都有广泛应用。然而,这些方法存在以下两个挑战:一是难以充分从图结构与时间信息耦合的动态图中学习判别知识,二是对于无属性节点异常检测效果不佳。为了应对这些挑战,提出了一种新的动态图异常检测框架——用于动态图异常检测的时间和图结构综合编码的双向Transformer编码器(Bidirectional Encoder Representations from Transformers, BERT)(Graph & Temporal BERT for Anomaly Detection, GTBAD)。该方法首先设计了基于边的子结构采样模块,以目标边为中心,在多时间片上构建局部子结构,从而提高异常检测的上下文感知能力,然后设计了一种综合考虑图结构与时间的编码模块,旨在更好的提取每个节点在动态图中的结构与时间特征。同时,BERT在编码器下游进一步提取动态图的信息,使得模型能够有效提取无属性节点的动态图,最后,一个判别式异常检测器被引入去计算边的异常分数。在4个真实数据集上进行了大量实验并以受试者工作特征曲线下面积(AUC)作为评价指标,实验结果表明,所提出的GTBAD框架在动态图异常检测任务中比其他现有框架均获得了更高的AUC值,这为动态图异常检测提供了一种新的解决方案和思路。
  • 丁力, 杨军
    录用日期: 2026-03-04
    为应对无人机辅助移动边缘计算系统中任务卸载决策面临的多维时序耦合、动态环境适配与策略稳健性不足等核心挑战,本文创新性地提出一种融合分层时序注意力机制的双延迟深度确定性策略梯度算法(HTAN-TD3)。本研究的突破性贡献体现在三个方面:首先,构建了一种融合系统总时延、最差用户体验与多用户公平性的复合优化目标,突破了传统单目标建模的局限性;其次,设计了具备宏观-微观双流时序解析能力的分层注意力网络(HTAN),通过LSTM与GRU的异构协同与注意力加权融合,实现了对系统状态中多时间尺度动态特征的精准感知与深度挖掘;进一步,引入具有时序相关性的Ornstein-Uhlenbeck过程探索噪声与动态自适应Huber损失函数,分别从策略探索平滑性与训练过程鲁棒性两个维度对算法进行系统性增强。在模拟高负载、强遮挡与多用户竞争的复杂边缘场景中,HTAN-TD3在系统总时延与用户公平性等关键指标上显著优于DDPG、TD3、MATOPO等主流基线算法,展现出卓越的环境适应性与决策智能性,本研究为提升智能边缘计算系统在动态复杂环境下的自主决策能力提供了有益的参考与借鉴。
  • 江潇, 覃团发, 孙洪民, 周华阳, 顾伟玉, 王素红
    录用日期: 2026-03-04
    针对偏远及灾害地区地面物联网(IoT)设备计算能力受限、通信基础设施不足,难以在短时间内支撑大量具有严格时延约束的紧急任务处理问题,现有研究多采用单独无人机(UAV)或低轨(LEO)卫星架构,或仅将UAV作为通信中继节点,且优化目标主要侧重系统时延或时延与能耗的加权和,未能充分考虑多UAV与多LEO卫星协同计算潜力以及不同任务优先级和时延约束的差异化服务质量需求。因此,本文提出了一种基于多智能体深度强化学习的任务卸载和自适应资源分配策略(TOARA)。首先,构建了多UAV和多LEO卫星协同的空天地一体化网络(SAGIN)架构,并将该架构与边缘技术相结合,有效缓解了地面资源受限问题。其中,UAV负责收集地面任务并进行智能卸载决策,将任务动态分配到本地边缘节点或LEO卫星节点进行处理。其次将上述问题建模为分布式部分可观察马尔可夫决策过程并采用基于多智能体深度确定性策略梯度(MADDPG)方法求解,该策略采用基于集中式训练-分布式执行的训练框架,使各智能体能够自主学习高效的卸载决策和动态资源分配,优化任务处理时延、系统能耗及不同优先级任务完成率等多个目标。最后,仿真结果表明,相较于多种基线策略,该算法的任务处理平均时延和系统能耗分别至少降低26.09%和27.53%,高优先级任务完成率至少提升22.24%,验证了该算法在动态复杂的环境下高效学习任务卸载和资源分配决策的有效性。
  • 王红雨, 崔明珠, 成莉, 罗威丽, 党 正, 石涵琦, 叶鸿源, 赵锦涛
    录用日期: 2026-03-03
    针对无人机小目标检测任务中小目标像素少、目标尺度差异大、易受背景干扰等问题,现有方法在特征表达和融合能力上存在不足,难以有效处理复杂背景和小尺度目标。为此,本文提出了一种改进的无人机小目标检测算法——VD-YOLOv11。首先,设计了多尺度特征增强模块(MSFE,Multi-Scale Feature Enhancement),通过引入多尺度上下文信息与边缘细节强化机制,有效增强了模型对微小目标特征的感知能力。其次,提出了多尺度特征融合模块(MSFF,Multi-Scale Feature Fusion),通过整合不同层级的语义与空间信息,有效增强了小目标的特征表示能力,提升了模型在复杂背景与尺度变化场景下的检测精度。同时,构建了感受野注意力检测头(RFAHead,Receptive-Field Attention Head),实现了多层特征之间的动态交互与感受野权重的自适应分配,引入了有效的注意力引导机制,使网络更精准地聚焦于细粒度的小目标检测区域。最后,设计了小目标检测层,并与改进的颈部网络进行融合,在头部引入一个额外的检测头,减小小目标特征的损失,增强网络对小目标的识别能力。实验结果表明,VD-YOLOv11在VisDrone2019数据集上mAP50为42.1%,较基线算法YOLOv11n提升了7.4%,在PDT数据集上mAP50为94.8%,浮点计算量为19.1GFLOPs,模型参数量为3.3M;在检测精度、计算复杂度和模型规模等方面取得了有效平衡,展现出VD-YOLOv11在无人机视角小目标检测任务中的有效性和实用性。
  • 侯林超, 徐彦彦, 潘少明
    录用日期: 2026-03-03
    车联网作为智能交通系统的核心组成部分,其路由算法的高效性与可靠性直接关系到交通安全预警、自动驾驶、智能交通管理等关键应用的实施效果。然而,在复杂的车辆交通环境中,车辆节点间的交互效应导致车联网的拓扑变化更加复杂,链路稳定性更加脆弱,进一步加剧了车联网场景中路由算法的挑战。在此背景下,如何构建适应高动态变化的复杂交通环境的路由算法,成为提升车联网通信效能的关键挑战。对此,本文提出一种基于邻域势能模型的车联网链路感知路由算法(NPLAR)。该算法通过构建邻域势能模型,量化反映邻域环境的静态和动态特征对链路稳定性的影响,并结合复杂网络理论和图神经网络,捕捉邻域势能在多跳邻域的传播机制。进一步地,算法融合链路稳定性指数与网络链路QoS指标,通过多维路由决策实现在高动态环境下的自适应决策优化。实验结果表明,相较于已有的基于拓扑、基于地理位置、基于传输策略以及融合交通信息的车联网路由算法,NPLAR的吞吐量平均提升8.3%~35.7%,丢包率和通信时延平均降低6%~50.4%和11.3%~39%,具有较优的性能表现。
  • 顾雨迪, 狄奕成, 狄岚
    录用日期: 2026-03-03
    现有的点击率预测(Click-through Rate,CTR)方法通常依赖于集中式的数据存储与建模方式,但由于用户隐私敏感性高以及数据保护法规的限制,不同平台间的用户行为数据难以直接共享与聚合。同时,主流的CTR预测模型往往采用参数规模庞大的深度结构,导致通信与计算开销过大,限制了模型的实际应用。为解决上述问题,本文提出了一种基于精简模块和显著性感知模块的高效联邦推荐系统(Federated Recommendation System ,FedRSS)。该方法通过联邦学习框架在保护隐私的前提下实现跨平台特征表示的聚合,其中,精简模块利用内积替换传统的哈达玛积以降低模型复杂度,并通过堆叠压缩层减少参数数量。显著性感知模块基于位级注意力机制动态分配特征权重,从而增强对关键特征的建模能力。此外,FedRSS引入本地差分隐私机制,以进一步防止用户隐私泄露。基于Criteo、Avazu和MovieLens三个公开数据集的大量实验结果表明,FedRSS在保证隐私安全的同时实现了显著的性能与效率提升,其中RelaImpr指标分别提高了11.04%、3.38%和4.82%,训练时间明显缩短。研究结果表明,本文提出的FedRSS不仅能够在隐私保护条件下实现高效的CTR预测,还为构建低开销的联邦推荐系统提供了新的思路。
  • 李 斌, 范家炜
    录用日期: 2026-03-03
    针对现有船舶目标检测模型在跨域场景下泛化能力不足,以及在合成孔径雷达(Synthetic Aperture Radar,SAR)图像中面对极端噪声与复杂海面环境时检测稳定性较差的问题,提出了一种基于YOLOv12改进的船舶目标检测算法CK-YOLO,以提升模型在SAR数据中的鲁棒性与适应性。首先,为提高模型对船舶边界特征的提取并增强上下文建模能力,设计了SKC3k2模块,通过在C2k2模块中增加KAN(Kolmogorov-Arnold network)层的残差连接增强模型对船舶边界特征的建模能力,同时结合可切换空洞卷积(SAConv)的自适应感受野机制加强对多尺度船舶特征的提取。此外,为提高模型的动态建模能力与高阶语义信息的提取能力,设计了CST模块,CST模块包含空间建模路径的局部卷积分支与基于液态神经网络(Liquid Neural Network,LNN)的稀疏动态分支,用时序建模优势增强高阶语义信息提取能力。为验证改进模型的有效性,使用中国资源卫星应用中心提供的SAR数据集和LS-SSDD数据集对CK-YOLO与主流模型进行了对比实验,结果表明CK-YOLO的mAP@50相比YOLOv12n在mAP@50上分别提高了0.8%和1.3%,在对比模型中表现最优;同时结合LS-SSDD数据集与MMShip数据集对CK-YOLO进行了泛化实验,结果表明改进模型在YOLO系列模型中的综合表现最优,体现出CK-YOLO在SAR域内检测以及在跨模态检测中具备较好的泛化能力与鲁棒性;最后通过模块的消融实验进一步验证了CK-YOLO的有效性及贡献。CK-YOLO模型在保持轻量化同时有效降低了在包含噪声与复杂场景SAR图像中的漏检、误检等问题。
  • 曾雯艳, 张磊, 刘佰龙, 孟想, 张雪飞
    录用日期: 2026-02-12
    准确的交通速度预测对提高智能交通系统的效率至关重要。然而,当前端到端的交通速度预测模型往往受限于特定区域或特定时间段的交通速度数据训练,泛化能力有限,且多数方法使用静态网络结构和节点参数共享机制,难以捕捉动态交通特性和节点多样性。针对这两个挑战,本文提出了一种基于自适应时空掩蔽预训练的交通速度预测方法(Adaptive Spatial-temporal Masking Pre-training for Traffic Speed Prediction,ASTMP),分为自适应时空掩蔽预训练阶段和预测阶段。在预训练阶段,本文设计了动态自适应图卷积层,为每个节点提供了权重参数和偏差参数,并依据包含节点独特属性的节点嵌入矩阵构建自适应图,深入挖掘节点的独特属性与节点间关系的动态规律。其次,设计时空掩蔽编码层对长时间交通速度序列进行随机时空掩蔽处理。然后,设计时空掩蔽解码层利用掩蔽令牌替换被掩蔽位置的数据,根据上下文信息重构被掩蔽的信息,增强方法的适应能力和泛化能力。在预测阶段,本文将预训练阶段学习到的长时间交通速度序列中蕴含的动态时空信息,与短时间交通速度预测器结合,实现更精准和高效的预测。在METR-LA、PEMS-BAY数据集上的实验结果表明,ASTMP的预测性能优于现有的先进基线方法,验证了方法可行性与有效性。
  • 王世昕, 李俊, 赵宁, 聂俊, 刘胜强
    录用日期: 2026-02-12
    为满足校园场景中高效、准确的多目标跟踪(MOT)需求,提出了一种基于改进YOLOv8目标检测算法与OCSORT多目标跟踪算法的解决方案。针对校园环境复杂的背景与人群分布,构建了特定场景特征的数据集,以优化算法的表现。为提高行人小目标检测精度,引入高效的多尺度注意力机制(EMA)模块,并采用自校准卷积(SCConv)模块替代YOLOv8中的跨阶段部分融合(C2f)模块,从而有效提升了检测效果。在多目标跟踪中,针对关联准确度低和计算开销较大的问题,提出了一种创新的解决方案。首先,提出了基于行人重识别(ReID)的ID初始化(IIR)策略,有效解决了行人短暂离开后重新出现时的ID不一致问题。其次,设计了一种结合帧间形状相似度(SSF)与目标框交并比(IoU)的数据关联策略,进一步提高了连续帧间目标匹配的准确性。最后,为了提高外观相似度计算的效率,提出了分阶段数据关联(SDA)策略,该策略在保证较高精度的同时减少了计算开销。实验结果表明,所提方法在校园场景中有效提升了行人检测精度与跟踪准确性,并在复杂背景下表现出良好的鲁棒性与较高的帧率,为智能校园安防和人群行为分析提供了高效、可靠的技术支持。
  • 王凯, 原少将, 陈程立诏, 王烁, 张颖超, 张桦烨, 隋若愚, 王檄
    录用日期: 2026-02-12
    水样袋杂质是指在工业生产中不慎落入袋内的微小异物,包括铁屑、毛发、泥土颗粒等,该类杂质通常因其目标微小、背景复杂且存在严重的文字标识等干扰,导致传统检测方法难以满足工业生产对质量控制的严格要求。为解决上述问题,提出一种面向复杂工业场景下的水样袋杂质检测方法,该方法分别从数据和模型层面进行创新。在数据层面,设计了一套基于双视角交叉验证的自动化采集和检测装置,该装置通过双工业相机和电磁控制系统实现水样袋双面自动检测与智能分拣,并据此装置构建了包含3000张图像的专用数据集WBID-3K,涵盖了真实工业场景下可能出现的各种类型杂质。在模型层面,基于该数据集,提出一个面向跨域特征增强与层级化信息融合的模型WBID-DETR,该模型通过细粒度频域特征优化器强化微小目标的高频特征表达,借助多尺度全域特征融合模块抑制文字标识等干扰,并利用互补特征融合模块补全丢失信息,以此实现对各类微小杂质的精准定位与准确识别。实验结果表明,在自制WBID-3K数据集上,WBID-DETR在准确率和mAP50上比基准模型分别提升了4.2%和3.5%;在包含复杂背景与密集小目标的VisDrone2019公开数据集上,WBID-DETR在准确率和mAP50上比基准模型分别提升了2.5%和3.4%,这充分证明了所提方法对小目标检测任务的泛化性与鲁棒性,为工业质检自动化提供了有效的解决方案。
  • 王军, 张生军, 左曾强
    录用日期: 2026-02-12
    在人体行为识别领域中,毫米波雷达兼具复杂环境适应性与隐私保护优势,但现有基于毫米波雷达人体行为识别方法存在准确率低、数据表征不足、时间序列依赖关系捕捉难、计算资源消耗大的问题。为此,本文提出一种基于时序捕捉和增强模块(TCM-TMEM)的轻量化毫米波雷达人体行为识别方法。首先,设计时序捕捉模块(TCM),以因果卷积为基础提升局部时序敏感性并通过简化局部特征提取网络结构以降低单模块计算开销。其次,基于Transformer编码器设计时序增强模块(TMEM),利用其全局建模能力,强化网络对全局时序关联的捕捉能力,同时通过模块参数精简设计保障轻量化特性。然后,针对毫米波雷达距离-多普勒图表征能力不足,创新性引入包含距离、多普勒频移、信号能量等11个关键维度的特征构建方案,弥补传统数据维度表征信息不足的缺陷,提升了数据表征完整性。最后,在自建数据集PACT和公开数据集R-IHB上开展实验验证,结果显示该方法识别准确率达89.86%和86.63%,值得注意的是,TCM-TMEM模型仅0.12M,充分证明所提特征构建方案与模型在提升识别准确率、解决时序建模困难、降低计算资源消耗上的有效性。
  • 王鹤斌, 杨文军, 莫秀良
    录用日期: 2026-02-12
    随着物联网的广泛应用,海量设备接入网络,其安全漏洞易被攻击者利用,严重威胁网络与数据安全。因此,在物联网环境中部署入侵检测系统,对异常流量与入侵行为进行检测与防护显得尤为重要。然而,物联网设备通常计算能力有限、存储资源不足,导致现有的基于深度学习的入侵检测模型难以直接部署。针对以上问题,文章提出一种定制的轻量级入侵检测模型FDRBT,旨在资源受限条件下实现对物联网攻击行为的准确检测。文章利用皮尔逊相关系数(PCC)以及主成分分析(PCA)两种方式进行融合特征降维,并通过渐进式模块替换方法逐渐将基于Transformer结构的教师模型换成更简洁的Poolformer结构。为了弥补知识蒸馏过程中的表征能力损失,文章还引入了动态tanh(DyT)激活功能对模型进行增强,用DyT层取代Poolformer中传统的归一化层。这种设计使模型能够根据输入特征分布自动调整激活特性,在无需计算激活统计量的前提下实现类似归一化层的功能。在TON-IoT和CIC-BCCC-NRC-2024数据集上的实验结果显示,FDRBT模型在保持较小体积与较低计算开销的同时,分别取得了99.91%和99.96%的准确率,适用于资源受限的物联网入侵检测场景。
  • 陈宇昂, 石磊, 唐志青
    录用日期: 2026-02-12
    随着6G向超大规模天线阵列(ELAA)与高频段发展,通信场景中的近场区域显著扩大。然而,现有关于智能反射面(RIS)辅助非正交多址接入(NOMA)系统物理层安全的研究多局限于远场通信场景,且通常计算复杂度较高,这限制了其在近场大规模系统中的实际应用。针对RIS辅助近场上行NOMA系统,该文考虑一个接入点(AP)、RIS、较远用户、较近用户、窃听者(Eve)组成的上行系统,通过联合优化AP波束赋形与RIS相移,实现系统的保密和速率最大化。该问题受欧几里德范数和单位模约束的限制,是一个复杂的非凸问题,需要采用合理的资源分配方案。为此,该文提出一种低复杂度的块坐标下降(BCD)算法,通过将原问题分解为两个子问题进行求解。首先推导出AP波束赋形的闭式解,然后采用流形优化求解RIS相移。MATLAB仿真结果表明,在默认参数设置下,相较于随机相移、最大比传输(MRT)、正交多址接入(OMA)方案,所提方案使系统的保密和速率分别提升了约4.4bps/Hz、10%和15%。此外,所提方案在达到与半定松弛(SDR)方案相近性能的同时,实现了较低的计算复杂度。
  • 白阳, 裴梦绚, 史方圆
    录用日期: 2026-02-12
    基因组结构变异(SVs)通过大片段DNA的插入、缺失、倒位或易位等改变基因组三维构象与调控网络,是多种复杂疾病的关键致病变异。近年来,长读长测序与三维基因组学技术的突破显著提升了对SVs的检测能力。然而,由于SVs的复杂性和功能注释的稀缺性,它的致病机制预测仍面临巨大挑战。研究者已经提出了通过挖掘染色质互作、表观修饰及单细胞转录组等数据,揭示SVs对基因表达与表型的影响规律并解析SVs致病机制的方法,目前仍缺乏对该类方法的系统性总结。因此,本文系统综述了基于高通量测序数据预测SVs致病性的方法,包括知识驱动型方法、传统机器学习方法、深度学习方法以及大模型方法。通过总结现有方法的局限性,包括低频变异预测灵敏度不足、功能注释数据库匮乏以及三维模型泛化能力有限等问题,本文提出通过多模态数据融合、因果推理模型及空间组学技术推动该领域发展的潜在方向,旨在为基因组结构变异的功能解析提供理论参考。
  • 杨星宇, 刘义, 黄旭民, 康嘉文
    录用日期: 2026-02-11
    面向第六代(6G)星地一体化网络的愿景,低轨(LEO)卫星边缘计算技术是实现全球无缝覆盖的关键。然而,现有研究在面对卫星网络高动态拓扑与受限星上资源时,难以有效解决计算卸载、多跳路由与资源分配之间的强耦合及高维非凸优化难题。针对此问题,本文构建了涵盖MEO、LEO卫星及地面用户的三层协作架构,并提出一种基于软演员-评论家(SAC)的分层混合优化框架(H-SAC),旨在最小化系统加权时延与能耗。为降低混合非凸问题的求解复杂度,H-SAC采用分层解耦策略,上层利用SAC智能体的最大熵机制在离散卸载空间进行充分探索,有效避免局部最优;下层则嵌入高效传统算法,求解给定卸载策略下的连续资源分配与路由规划子问题。此外,引入动态权重调整机制,使系统能根据实时服务状态自适应权衡时延与能耗目标。仿真实验表明,H-SAC在关键性能指标上显著优于H-TD3与H-DDPG,其中最终奖励分别提升约7.2%和10%。消融实验验证了ISL支持与灵活卸载机制的必要性,分别带来约18%与15%的性能增益。此外,H-SAC的推理时延较T-DRL降低约73%。总体而言,该框架能够在动态卫星边缘计算场景下实现高效且鲁棒的资源调度。
  • 于创宇, 黄志强, 荀超, 沈豫, 刘林, 陈延滔, 徐彦彦, 潘少明
    录用日期: 2026-02-11
    电力数据预测是电力系统态势感知与调度决策的基础。然而,现有电力预测方法在多时间尺度特征建模以及非结构化领域知识的有效融合等方面仍面临显著挑战,制约了模型在复杂电力系统场景中的预测精度与泛化能力。为此,本文提出一种融合大语言模型与知识图谱的电力数据智能预测方法LLM-KGAP(LLM enhanced Knowledge Graph Augmented Power prediction),构建数据–知识双驱动协同预测框架。首先,利用大语言模型从电力文档中自动抽取关键实体及因果关系,构建异构知识图谱;其次,设计一种基于语义置信度的知识映射机制,将图谱中的多路径语义关系转化为带权先验邻接矩阵,为预测模型提供知识引导的结构先验信息;最后,提出基于混合邻接矩阵的自适应时空信息提取网络(ASIEN-MAM),该网络采用渐进式分块策略实现多尺度时间窗口划分,并设计稀疏注意力xLSTM模块(SA-xLSTM),在时间维度上筛选关键时序片段并提取多尺度特征,同时融合先验知识与数据驱动的混合邻接矩阵,精确刻画电力系统中复杂的时空依赖关系。实验结果表明,所提方法在公开光伏数据集和区域负荷数据集上均显著优于对比方法,平均绝对误差降低11.9%–44.3%,平均绝对百分比误差降低7.0%–27.3%。