作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 林勇, 廖苗, 龚诗媛
    录用日期: 2026-05-07
    肝脏分割是进行肝脏疾病、三维重建和手术规划的重要前提。针对腹部CT序列图像肝脏结构复杂、边界模糊、个体差异大等引起的分割困难,提出一种融合多视图信息的自动分割方法。首先设计基于空洞空间金字塔池化的二维U形网络,在不额外增加模型复杂度的前提下有效捕获多尺度特征并提升感受野范围。然后,将该二维U形网络应用于CT序列横切面、矢状面和冠状面等不同视图方向的二维切片分割,弥补单一视角在建模切片间关联信息方面的不足。随后,构建轻量级的3D卷积网络,将多视图分割结果进行融合,实现资源受限条件下的肝脏三维分割,获取CT序列各像素属于肝脏的概率及标签分配结果。最后,利用已获取的概率和标签构建图割能量函数,对分割结果进行优化,消除过分割与欠分割.提出方法通过融合不同视图的分割结果间接获取CT序列三维特征,并通过结合图割算法提高肝脏分割精度。采用3DIRCADb和LiTS公开数据集进行实验,该方法在测试集上获得的Dice分别为0.947和0.962,优于现有多种分割方法。
  • 张弛, 周世兵, 鞠佳霖, 蒋敏
    录用日期: 2026-05-07
    为解决文档检测中多尺度特征表达不均衡、跨层级融合损耗及边界框定位精度不足的问题,提出了一种多尺度特征与语义优化的文档检测方法。该方法包含三部分设计与改进:一是构建多分支卷积注意力融合模块,通过多尺度条带卷积扩展感受野,结合注意力机制与C3k模块;二是设计全局语义与高阶关联协同的多尺度颈部,依托全局特征收集、超图卷积关联挖掘及多尺度散射完成融合;三是优化边界框回归损失,采用双阈值区间映射增强样本损失区分度。在EXAM、CDLA、D4LA和PubLayNet数据集上的实验结果表明,该方法平均检测精度较现有方法有显著提升。实验结果显示,该方法可突破YOLO11n在文档检测领域的性能瓶颈,在保证效率的同时提升精度,为文档检测提供科学可行的应用方案。
  • 强振乾, 张予鹏, 王丹萍
    录用日期: 2026-05-07
    针对复杂动态场景中因非结构化遮挡、运动畸变与多源噪声耦合导致的时空数据低秩退化与部分观测难题,本文提出一种融合非凸时序差分低秩约束与层级化轨迹‑行为语义映射的运动非连续时空行为理解框架。首先,构建基于非凸Schatten‑p范数的时序差分低秩恢复模型,采用交替方向乘子法实现高缺失与噪声污染下的运动数据重建;其次,在恢复数据基础上结合多目标跟踪构建结构化轨迹簇,并提取轨迹邻域交互特征;进而,提出一个三层级行为理解模型:基于多层感知机的行为基元分类、基于图注意力网络的交互模式识别,以及融合时空上下文的语义融合与行为叙事生成,实现从轨迹到高层语义的端到端映射。实验表明:所提方法在60%高缺失率下恢复质量显著优于基线,在NTU RGB+D(X‑Sub)与自建运动数据集BAS上的行为识别准确率均达到92.7%,较最优对比方法提升5.6个百分点;消融实验进一步验证了各模块的有效性,其中NTDLR恢复模块在60%缺失下将识别率从78.3%提升至86.7%,轨迹邻域编码提升至88.2%,完整三层级模型协同作用下达到最优性能。交互模式识别与语义描述生成亦显著优于主流图卷积网络及其变体。本研究为复杂动态场景下非连续、交互式运动行为理解提供了可解释、可扩展的算法框架。
  • 沈学利, 秦庆杰
    录用日期: 2026-05-07
    针对工业现场钢材表面缺陷对比度低、尺度变化大以及端侧算力受限等挑战,本文提出一种全路径协同增强的高效检测网络ISA-DETR。首先,构建信息保真下采样(Information-Preserving Downsampling,IPD)结构,采用空间-通道重排的像素重组方式替代传统步长下采样,在降低特征图分辨率的同时有效保留细粒度空间信息,缓解微小缺陷在特征提取过程中的信息丢失问题。其次,设计集成大核可分离注意力机制的SLK-HG(Large Separable Kernel Attention-Hybrid Group Block)模块,通过分组卷积与可分离卷积的协同优化,以近似线性计算复杂度构建超大感受野,增强网络对长程空间依赖及不规则缺陷形态的建模能力。最后,引入自适应动态采样(Adaptive Dynamic Sampling, ADS)算子,通过内容驱动的偏移预测实现跨尺度特征的精确对齐,减少复杂背景下的定位偏差,提升检测鲁棒性。在NEU-DET钢材表面缺陷数据集上的实验结果表明,在参数量仅为20.67M、计算量为77.5GFLOPs的条件下,ISA-DETR的检测精度达到75.2%的mAP@0.5。相较于基准模型,其参数量和计算量分别降低35.4%和25.1%,同时检测精度提升3.2%。此外,在PCB缺陷数据集上的迁移实验进一步验证了该方法良好的泛化能力。所提出算法在检测性能与部署效率之间实现了有效平衡,为工业端侧智能质检提供了一种高效可靠的解决方案。
  • 季亢, 魏松杰, 李梦
    录用日期: 2026-04-29
    摘 要 在石化作业这一典型高危场景中,作业环境涉及高温高压、易燃易爆及有毒有害介质,人员操作行为稍有不慎即可能引发严重事故。传统依赖人工巡查的监管方式不仅效率低下,且难以有效覆盖多人员、多机具协同作业场景,极易受主观因素干扰。面向群体协同作业的行为识别,核心挑战在于复杂的人-物交互关系建模难、多目标动态特征捕捉弱,以及宏观群体意图与微观个体动作之间的映射关系模糊。为此,本文提出一种基于图神经网络的群体协同行为识别方法。该方法通过构建统一的交互图结构,将人员、设备等实体统一编码为节点,融合多模态感知特征,在逻辑上实现对人际、人-物交互关系的端到端推理;进一步设计分层图网络架构,建立从个体动作到群体行为的关联演化模型,从而在复杂作业场景下实现对多目标群体行为的精准识别与理解。对比实验结果表明,所提方法在自建数据集上,MCA/MPCA指标较次优方法分别提升3.91%与2.86%;在公共开源数据集Volleyball上,MCA/MPCA 指标较次优方法分别提升0.26%和0.21%,充分验证了该方法的先进性与鲁棒性。
  • 李子阳, 郑炅, 马洁, 李士申, 秦继伟
    录用日期: 2026-04-29
    多兴趣序列推荐算法通过动态路由机制提取用户多种兴趣以实现个性化推荐。然而,在多兴趣提取阶段,不合理的项目-兴趣路由权重分配会导致多个兴趣表示过于相似,从而引发多兴趣崩溃问题;在预测阶段,未考虑用户对不同兴趣的偏好程度,赋予了偏好程度较低的兴趣与偏好程度较高的兴趣相当甚至更强的推荐影响力,即用户多兴趣偏好权重失衡问题。针对上述问题,提出了基于解耦特征表示与自适应权重融合的多兴趣序列推荐模型(DMIAFRec)。首先,模型基于项目间的共现关系对项目进行划分,将频繁共现且具有互补语义关系的项目归入同一兴趣组,并以此作为路由权重分配的引导机制。该设计促使每个组的项目聚焦于相互独立的特定用户兴趣,从而实现多兴趣表示的解耦,避免多个兴趣表示过度趋同。此外,引入时间衰减机制与多兴趣注意力融合机制,根据用户对各兴趣的偏好程度自适应地分配权重,对多兴趣表示进行加权聚合得到综合了各兴趣偏好权重的用户偏好表示,从而提升个性化推荐效果。实验结果表明,该模型相较于最优基线模型相比,R@20、NDCG@20和HR@20指标在Retail Rocket、Gowalla和Books数据集上的平均提升了6.2%、4.98%和4.07%,证明了所提模型在提高推荐性能的有效性并能够有效地解决上述问题。
  • 梁泽丰, 乔杰, 蔡瑞初, 郝志峰
    录用日期: 2026-04-29
    深度神经网络在医学诊断、智能感知和自动驾驶等时序关键任务中取得了广泛应用,但其安全性问题逐渐显现。已有研究表明,深度时序模型同样容易受到对抗样本攻击。然而,现有针对时序模型的对抗攻击方法大多侧重于数值层面的扰动约束,往往忽略时序数据生成过程中所固有的因果依赖与动态演化规律,导致生成的对抗样本偏离真实系统的可行演化轨迹,在现实应用场景中缺乏可行性。因此,如何在遵循时序因果动态约束的前提下生成有效的对抗样本,成为时序对抗攻击研究中的一项重要问题。针对上述挑战,本文提出 TCADE(Temporal Causal ADversarial Examples)方法,通过显式建模时序数据中的因果结构,并在因果干预约束下进行反事实推理,将对抗攻击过程刻画为对系统进行可行干预的过程,从而生成既能够有效误导模型预测、又符合系统因果关系与动态演化规律的对抗样本。实验结果表明,TCADE 在黑盒攻击设定下展现出显著的攻击效果,同时生成的对抗序列符合因果生成机制。本研究对时序模型在现实可行的黑盒攻击下的脆弱性进行了系统评估,并为提升模型鲁棒性提供了实践指导。
  • 黄景林, 吴茂强, 王思明, 赖粤, 余荣
    录用日期: 2026-04-28
    联邦学习是一种在保障数据隐私的前提下充分利用分散数据资源的分布式机器学习范式。然而,现实场景中各客户端数据通常呈现非独立同分布,存在标签偏移和类别不均衡问题,导致全局模型难以收敛且泛化能力下降。为缓解此类数据异构性对模型性能的影响,提出了一种基于扩散模型的跨客户端数据增强与分类框架。在该框架中,每个客户端基于本地数据训练初始扩散模型,并将模型参数上传至服务器。服务器聚合这些参数以构建全局扩散模型,并下发至各客户端。客户端利用全局扩散模型生成补充样本并上传至服务器,进行数据增强以平衡本地类别分布,从而提升分类器性能。最终,分类模型在接收本地数据和生成样本后通过联邦学习进行训练,并部署至客户端进行图像分类与识别。为了生成高质量图像,采用去噪扩散概率模型作为生成主干,同时使用ResNet-18构建联邦分类模型。实验表明,微调后的全局扩散模型能够生成与真实数据分布更加一致的图像,通过生成样本进行数据增广的策略使客户端本地数据分布更加均衡,进而显著提升全局分类准确率。在Dirichlet系数α=0.1的非独立同分布条件下,CIFAR-10与CIFAR-100的准确率分别从46.76%和21.31%提升至54.64%和25.57%,验证了所提出的数据增强策略在缓解数据不均衡问题中的有效性。
  • 孙运雷, 徐可
    录用日期: 2026-04-28
    针对稀疏二维切片条件下数字岩心重建易出现的结构不连续、拓扑断裂及跨尺度微观细节难以兼顾等挑战,提出一种基于扩散先验引导与多尺度残差融合隐式神经表示(Implicit Neural Representation, INR)的数字岩心三维重建框架。该框架通过引入得分蒸馏采样(Score Distillation Sampling, SDS)机制,将预训练扩散模型中蕴含的几何与拓扑先验转化为连续梯度引导,并结合测量一致性损失进行协同约束,旨在实现极稀疏切片约束下局部精细特征与全局拓扑结构的一致性恢复。同时,利用多尺度残差结构增强INR对复杂孔隙的表达能力,提升了模型在不同体素尺寸下的泛化表现。实验结果表明,该方法在多种数字岩心数据集上均能准确还原复杂的孔隙空间,其重建结构在孔隙率分布和几何连通性等关键物理指标上与真实值保持高度一致。在256⊃3;规模的重建任务中,Dice相似系数(Dice Similarity Coefficient,Ddice)达到97.01%,相较于基础INR模型提升了2.6%。随着重建尺度进一步扩大,在512⊃3;与1024⊃3;高体素尺寸任务下,Ddice仍能分别维持在95.97%和92.88%,展现出优异的大尺度重建稳定性。在针对Berea砂岩与Ketton石灰岩的跨样本泛化性测试中,Ddice分别达到93.44%与95.51%。该研究解决了复杂多孔介质在数据受限场景下的稳定性重建问题,为精细化地质建模提供了一种物理可靠且连续化的新型技术方案。
  • 朱莉, 崔博韬, 朱春强, 米路革麻, 徐婉茹, 王婧, 王沛
    录用日期: 2026-04-28
    精确的短期电力负荷预测对电力系统的安全运行与优化调度至关重要,然而现有基于分解方法的预测模型依赖于固定先验知识,导致分解模式僵化,难以适应具有多周期,强非平稳性的负荷数据;同时,在计算复杂度与预测精度之间难以达到平衡。针对上述问题,提出一种基于可学习小波分解与KAN-Mixer的预测模型(Learnable Wavelet Decomposition and KAN-Mixer Network,LWKAN-Mixer)。首先,通过可学习小波分解模块将原始负荷序列分解为不同频带的小波分量。其次,通过快速傅里叶变换(Fast Fourier Transform,FFT)提取出每个分量的主导周期,根据主导周期,对不同分量划分对应大小的Patch。接着,使用多尺度时频融合模块对不同的分量进行独立建模来捕捉时频特征,利用KAN-Mixer与双重交互卷积块分别捕捉负荷序列的序列表征与时间依赖。同时,引入多尺度混合损失函数在训练过程中约束分解与重构的质量,以缓解误差累积,并提升预测精度。在三个真实的负荷数据集上实验结果显示,相比于最新的基线模型,该模型在Australia、Morocco数据集上MAE分别降低了1.10%-9.37%、4.97%-17.36%,在Cele数据集上MAE为次优。实验结果表明,LWKAN-Mixer能有效建模负荷序列中复杂的非线性及非平稳性,并在短期负荷预测任务上取得良好的预测效果。
  • 曹天涯, 王植新, 石鹏举, 李康, 李霜
    录用日期: 2026-04-28
    随着社交媒体与在线服务平台的持续发展,用户评论逐渐成为影响消费决策与产品评价的重要信息来源。方面级情感分析作为细粒度情感计算的重要研究方向,在实际应用中仍面临文本语义歧义突出以及情感线索提取不充分等问题。针对上述不足,本文提出一种融合知识图谱嵌入与多通道注意力机制的方面级情感分析模型CKMA。该模型首先引入知识图谱嵌入方法,将外部知识中实体及其关系映射为低维语义向量,并与文本表示相结合,以缓解评论文本中常见的语义歧义现象。在此基础上,构建由结构化信息通道、上下文相关通道和方面专注通道组成的并行多通道特征提取框架,通过分阶段融合策略实现不同语义与句法信息的协同建模,从而提升模型对方面相关情感特征的刻画能力。为避免深层特征学习过程中原始语义信息的损失,进一步将知识增强的词级表示与多通道注意力输出进行联合融合,以增强特征表达的完整性与稳健性。 在Restaurant14、Restaurant16、Laptop14和Twitter四个公开数据集上的实验结果表明,所提出方法在准确率和Macro-F1指标上均取得了较优表现,尤其在句法结构较为复杂的数据集上展现出更明显的性能优势,验证了所提出结构与语义协同建模策略在方面级情感分析任务中的有效性。
  • 胡津豪, 李冬芬, 王金波, 赖金山
    录用日期: 2026-04-22
    联邦学习以原始数据不离开本地、跨参与方协同训练模型为核心优势,在保护数据隐私的同时推动了分布式场景下的模型协作,但这一架构仍面临客户端选择被恶意操纵与服务器梯度篡改的双重安全威胁。一方面,在开放网络环境中,恶意服务器会通过恶意操控客户端选择过程,导致聚合模型偏向攻击者预设的恶意方向。另一方面,在传统联邦学习架构中,服务器掌握梯度聚合的绝对控制权,因此作为联邦学习系统核心的服务器可能成为梯度篡改的信任瓶颈。这两类威胁本质上源于联邦学习的 “分布式训练 - 集中式聚合” 架构矛盾:客户端身份认证依赖服务器的信任假设,而梯度聚合过程缺乏去中心化的验证手段。为应对上述威胁,提出了融合可验证随机函数(VRF,Verifiable Random Function)与轻量级MAC(Message Authentication Code)的客户端可验证联邦学习框架。在客户端选择阶段,设计基于VRF函数的动态选择协议,利用其不可预测证明确保参与者身份的不可伪造性以及其选择过程的公开可验证性确保服务器无法篡改选择结果而不被发现;在梯度聚合阶段,创新性地引入辅助节点协同的轻量级MAC验证机制,通过梯度敏感参数实现无信任服务器的篡改检测。实验表明,在有恶意操纵服务器选择的情况下能够保证客户端的选择接近无操纵情况选择恶意客户端的理论值,VRF方法相较于传统的客户端选择(FedAvg)将恶意节点入选率降低了超过33%,同时梯度验证机制与基线方法VerifyNet相比通信开销下降了24%左右。
  • 陈铭芸, 喻 昕, 韦志朋, 张锦雄
    录用日期: 2026-04-22
    针对一类带局部不等式约束的分布式非凸优化问题,本文结合多智能体理论与罚函数方法设计了一种新颖的具有固定时间一致的分布式神经动力学优化算法。该算法的初始条件能够任意选取,通过设计合适的惩罚机制保证了算法的状态变量能够在有限时间内进入约束条件可行域且永不离开。算法的一致项由动态开关函数和符号函数组合项共同构成,能够实现不依赖初始条件的固定时间一致性,使算法在解决优化问题时具备更高效可控的时间效率。基于李雅普诺夫理论,证明了在一定假设条件下,算法状态变量有界并能够在有限时间内进入不等式可行域和实现固定时间一致,最终收敛至非凸问题的临界点集。与现有分布式算法相比,所设计的算法采用单层的微分包含结构,使用了无需复杂计算罚因子的惩罚函数机制与先进的固定时间一致控制方法,具有结构简单、计算开销低、时间效率高、初始点任意选取的特点。最后,两个仿真实验和一个最优选址问题应用案例验证了所提算法的有效性与可行性。
  • 刘永昌, 阴艳超, 陈海龙
    录用日期: 2026-04-22
    在复杂流程制造生产中,工艺耦合度高、多工序联动复杂,且产品质量与工艺参数间存在显著的强非线性关系,这给工艺质量控制带来了挑战。为此,本研究提出了一种结合多层神经网络与集成学习的分段式多工序工艺质量预测方法。该方法首先构建了整体预测模型和分段预测模型。整体模型采用随机森林(RF)、LightGBM和KNN算法,通过集成学习策略克服了单一模型泛化能力不足的缺陷,并利用多算法间的差异挖掘数据的多维度特征。分段模型则采用LSTM-KAN网络,利用长短期记忆网络(LSTM)捕捉各工序质量与特征变量的长时序依赖关系,并借助Kolmogorov-Arnold网络(KAN)增强非线性映射能力。接着,通过XGBoost集成学习算法将两种模型融合,以实现优势互补。最后,以烟丝生产中烘丝机出口物料含水率预测为例进行验证。出口物料含水率作为烟草制丝生产的核心质量表征指标,其稳定性直接关联松散回潮的物料软化效果、润叶加料的料液吸收效率及薄板烘丝的干燥均匀度,可通过该单一指标的精准预测实现对多工序工艺质量的综合管控。结果表明,融合模型在平均绝对误差(MAE=0.0072)、均方根误差(RMSE=0.0096)、平均绝对百分比误差(MAPE=0.0566%)及拟合优度(R⊃2;=0.9890)等关键指标上均显著优于传统单模型及对比模型,验证了该方法在处理非线性关系和时序特征方面的有效性,以及在预测精度和泛化性能上的优越性,使其适用于烟草制丝多工序复杂生产场景。
  • 于航, 朱宏擎
    录用日期: 2026-04-22
    磁共振成像是临床辅助诊断、病变检测的重要手段。当前大多数磁共振成像重建方法主要基于特征全局建模,利用变换器实现高质量重建。然而这些方法大多在空间域中进行密集的特征依赖关系计算,这可能导致引入冗余信息和来自无关区域的噪声。此外,现有方法需要为不同的采样模式单独训练模型,从而导致效率低下和有限的泛化能力。为了解决这些问题,本文提出了双域自适应变换器提示网络DATP-Net,这是一个统一的重建框架,能够高效地建模特征关系,并同时从各种采样模式中重建图像。该网络包括几个核心设计:(1)深度特征卷积混合器,它在空间和频率域中执行卷积操作,从而改善深度特征的表示;(2)自适应混合变换器,该变换器结合了自适应自注意力和精细前馈网络,通过双分支自注意力计算和细化特征消除冗余特征,增强潜在有用的特征关系;(3)退化提示模块,该模块在重建端注入可学习的先验退化信息流,以引导特征重建,使网络能够整合来自多种采样模式的MRI图像重建,并增强模型的泛化能力。在公开的IXI和fastMRI数据集上进行的广泛实验表明,提出的方法在更低的计算成本下显著优于最先进的方法。在4倍随机采样下,模型平均PSNR达到39.82且SSIM 超过0.96,能够重建高清晰度和细节还原的图像。
  • 范天豪, 齐连永 , 杨忆杰, 李冲, 宋特, 张德江
    录用日期: 2026-04-21
    偏标签学习是一类典型的弱监督学习方法,其训练样本被赋予一个包含真实标签的候选标签集合。偏标签学习的目标是在每个样本的候选标签集合中识别其真实标签。在实际应用中,偏标签数据通常呈现类别不平衡特性,使得基于预测置信度和标签细化的学习方法容易产生偏置,进而影响模型的分类性能。尤其是在长尾场景下,头部类往往在标签消歧过程中占据主导地位,尾部类难以获得有效学习。此外,现有基于最优传输的标签细化方法在不平衡场景下仍存在系统性偏置问题。针对上述问题,本文提出了一种面向长尾偏标签学习方法C2DOT-PLL。该方法在保持最优传输全局一致性优势的基础上,首先通过动态样本预测置信度校准机制缓解不同类别预测置信度尺度不一致带来的比较不公平问题,减少类别不平衡对样本级标签竞争的影响;随后,在伪标签细化阶段引入无偏最优传输,对熵正则化最优传输引入的系统性偏差进行修正,从而获得更加准确的伪标签。在多个具有不同平衡程度的基准数据集上对所提出的方法进行实验验证。实验结果表明,与现有偏标签学习方法相比,C2DOT-PLL在总体分类准确性取得了最优性能。
  • 张海仓, 汤世宝, 火久元
    录用日期: 2026-04-21
    精准的交通流预测能够为交通管理部门提供科学的决策支持,对缓解城市交通拥堵、提升路网整体运行效率与服务水平具有重要意义。针对现有交通流预测模型对周期时空特征挖掘不足的问题,本文提出了一种基于多周期时空门控网络的交通流预测方法。该方法首先针对交通流数据所蕴含的多周期特性,设计了解耦的并行多周期特征提取分支,以在独立子空间中建模不同周期下的时空特征;随后,在单个周期分支内,引入融合门控机制与图注意力扩散卷积的时空特征提取模块,以增强模型对动态空间相关性与时间依赖关系的刻画能力;最后,针对不同粒度的周期时空特征,构建了一种双向特征融合策略,实现多周期信息的高效协同表达。在三个公开交通流数据集上与主流模型的对比实验结果表明,本文所提方法整体预测性能上均优于基线模型,在平均绝对误差(MAE)指标上,相较于当前最优基线模型,在三个数据集60分钟预测任务中分别降低了 2.0%、3.4% 和 3.6%,验证了其在复杂交通场景下良好的预测精度、适应性和鲁棒性。
  • 王鹏, 蒋少华, 张一文, 王皖豫, 张连明
    录用日期: 2026-04-21
    立场检测是社交媒体舆情分析中的核心任务,对理解公众意见分布至关重要。然而,现有方法在多轮对话场景中表现不佳,尤其面对深层评论时建模能力显著下降。其主要瓶颈在于:缺乏对隐含知识与立场形成过程的逻辑推理链,以及对目标依赖的多粒度上下文建模。为此,提出了推理链增强的上下文建模方法(CoT-CM),以提升多轮对话立场检测的准确性与鲁棒性。该方法利用大语言模型的外部知识,通过提示设计引导链式推理,提取与立场相关的中间变量,并与对话语义交互融合,进而刻画立场形成逻辑的推理过程。同时,设计了多层次对话语义框架,从全局、局部和关系三个视角建模历史对话语境,并引入目标引导的多跳注意力机制以捕捉最相关信息。此外,提出结构一致性对比学习机制,通过联合优化分类与对比损失,有效增强不同立场的区分能力。在中文多轮对话立场检测数据集C-MTCSD和ZS-CSD上的实验表明,CoT-CM平均F1提升2.97%和1.36%。
  • 刘明凯, 何佩雯, 刘梦赤
    录用日期: 2026-04-21
    Text-to-SQL任务旨在将自然语言查询(NLQ)转化为结构化查询语言(SQL)。尽管大语言模型(LLM)的兴起重新定义了该任务的范式,但现有研究多侧重于通过提示工程优化模型对模式信息的感知及SQL生成能力,往往忽略了自然语言中普遍存在的语义歧义性,导致模型在处理复杂问题时易产生理解偏差。为此,本文提出一种基于歧义分析的多候选生成与选择框架——DARE-SQL(A Text-to-SQL Framework with Disambiguation, Analysis, Refinement and Election)。该框架首先利用LLM的语义推理能力构建语义扩展模块,针对潜在歧义生成覆盖用户意图空间的扩展问题集,以显化并捕捉模糊语义。随后,针对不同来源的问题采用差异化生成策略,并引入基于执行反馈的修正机制优化生成结果,构建高质量候选SQL集合。最后,通过问题共识的两阶段选择策略,筛选出兼顾准确性与执行性能的最优解。实验结果表明,DARE-SQL在具有挑战性的BIRD基准上取得了71.71%的执行准确率(EX)与70.41的有效效率得分(VES),并在Spider数据集上达到88.10%的EX,验证了显式建模语义歧义对提升复杂Text-to-SQL任务性能的有效性。
  • 梁堉, 马佳妍, 胡晰远, 王子恒, 刘文, 彭天豪, 李莹
    录用日期: 2026-04-20
    随着网络和社交媒体的快速发展,信息的生成和传播速度达到了前所未有的水平,虚假信息、谣言及其他误导性内容充斥的现象愈加突出,这类问题已对社会治理秩序、和谐稳定构成重大威胁。谣言检测中,谣言样本占比低导致数据不平衡,现有文本增强技术因缺乏谣言风格针对性、生成质量低,难以提升检测效果;同时,预训练语言模型虽擅长捕捉文本全局依赖,却难聚焦谣言关键局部特征。为解决这些挑战,本研究提出了一种基于大模型数据增强的多粒度特征融合的谣言检测框架。首先,提出融合谣言风格词典与大语言模型的谣言生成方法,基于公开谣言数据集构建风格词典,以词典为约束指导大语言模型生成语义连贯且符合谣言风格的少数类样本,在缓解数据不平衡问题的同时保障增强样本质量。其次,本研究提出多粒度上下文特征提取器,融合基于解耦注意力机制的预训练语言模型在全局依赖捕捉上的优势,与卷积子层对局部特征的聚焦能力,实现对谣言语义长距离逻辑关联与细粒度语言线索的同步捕捉,有效弥补此类预训练模型在局部关键特征捕捉上的固有局限。实验结果证明,该检测方法在BuzzFeed 数据集和PolitiFact数据集准确率分别达到82.24%,93.91%。
  • 王欣悦, 孙志刚, 全巍, 黄容
    录用日期: 2026-04-20
    :时间敏感网络(Time-Sensitive Networking, TSN) 作为具有确定性传输特性的实时以太网技术,目前已逐渐应用到车载、航空航天等安全关键场景中。在这些场景实际运行中,随机环境等因素导致的链路故障可能中断TSN连接,进而影响TSN时间同步树等静态配置。因此,实时维护网络拓扑成为安全关键场景下保证系统可靠性的关键。然而,现有TSN拓扑状态监控的相关研究较少,难以满足TSN系统对网络监测的高实时要求。基于此,本论文首先从实时性的角度对比分析在安全关键场景下现有的TSN拓扑状态监测方法的问题与挑战;结合上述分析,本文提出了一种面向安全关键场景的TSN快速拓扑状态发现协议——FTDP,FTDP中各个节点通过源路由范式来显示规划监测路径引导监测探针,仅需一个探针收集全网信息,减少了拓扑状态发现延时;最后,本文通过在真实硬件环境中测试,实验结果表明,10个节点内的网络拓扑监测延时不超过100微秒,证实了FTDP协议能够高实时地收集网络拓扑来完成监测,并且通过对现有方法进行对比,进一步证实了FTDP在实时性上的优势。
  • 刘玉欣, 李辉, 张建伟
    录用日期: 2026-04-20
    无人机的自主路径规划是确保其复杂环境下任务成功的关键,要求其既能规划出全局高效的飞行路径,又能应对局部环境的变化。在初始静态环境下为不同起终点组合进行完整规划,同时在局部区域内进行避障调整需要有效权衡全局路径最优性与局部避障能力。现有启发式算法在三维复杂环境下的搜索时间随空间分辨率呈指数级增长,难以满足实时性需求;而基于梯度的深度强化学习方法在处理非结构化山地地形时,常因缺乏局部感知引导而面临“感知混叠”问题,导致训练收敛不稳定且易陷入局部极值陷阱。提出一种基于局部信息增强的近端策略优化算法(LIE-PPO),设计融合全局位置、目标点相对信息及局部感知窗口的状态空间,使智能体能够同时兼顾长远规划与近端决策,以解决高维特征下路径规划问题。针对路径规划问题,算法采用26邻域离散动作空间,设计综合考虑路径离散曲率、安全性与效率的多目标奖励函数,引导智能体学习高效安全路径选择策略,基于预训练模型在线快速生成任意起终点间可行最优路径。实验结果表明,在进行多次随机起终点测试后,提出的算法在静态环境中规划的平均路径长度与A*算法结果相比,差距小于7%,具有近似全局最优性;相较于标准近端策略优化算法收敛速度提升约1.6倍,展现出更快的收敛速度和更高的训练稳定性。在存在未知障碍物的场景下,仍能规划出可行路径,表现出良好的环境适应性。
  • 张晟豪, 韩伟力
    录用日期: 2026-04-20
    口令仍是当前最为重要的身份认证因子,口令安全的提升离不开对口令猜测的模拟与研究。凭证调整攻击是一类广受关注的口令猜测方法。现实场景中,数据驱动的凭证调整攻击,其命中率受到训练样本数量与样本质量的高度制约。现有的少样本口令猜测框架不适用于凭证调整攻击任务。针对上述问题,提出基于大语言模型的少样本凭证调整攻击方法,利用尽可能少的高质量样本,自动化地合成伪对齐口令数据,有效地降低了数据驱动的凭证调整攻击对训练样本数量与训练样本质量的高度依赖。贡献主要包括:1)基于强化学习技术,提出了一套凭证调整攻击框架,称为PasswordRL。该框架使用混合强化学习与最大似然估计的损失函数,相较传统方法进一步提升猜测命中率;2)基于大语言模型与数据增强技术,提出少样本场景下的凭证调整攻击框架PasswordRL-FS。使用四种主流猜测方法作为基线,在两个真实泄露的口令数据集上,分别对上述提出的两个框架进行了比较实验。实验结果表明,在模拟真实环境的少样本场景(训练样本数=1000)中,猜测预算为5,10,100时,提出的猜测框架的命中率较次优模型分别(相对)提升了39.54%,23.72%,42.40%,并且,猜测命中率达到了多样本场景(训练样本数>107)的83.72%,81.85%,93.68%,上述实验结果证明了方法的有效性。
  • 袁帅, 苗迪生, 张皓楠
    录用日期: 2026-04-20
    非线性状态估计是雷达目标跟踪、机器人定位等领域的核心技术。然而在实际应用中,由于模型的不确定性以及未知或时变的噪声协方差矩阵(NCMs),导致传统滤波算法的估计误差增大甚至发散,现有自适应滤波方法大多难以实现估计精度与计算效率的平衡。针对上述问题,本文提出一种滑动窗口鲁棒变分自适应容积卡尔曼滤波方法(RSWVACKF)。首先,将变分贝叶斯推断(VBI)与容积积分规则相结合,推导出状态向量与过程噪声协方差矩阵(PNCM)和测量噪声协方差矩阵(MNCM)的联合递归解,提高算法在非线性系统中的适用性;其次,设计基于滑动窗口机制的噪声协方差估计器,使用容积卡尔曼平滑器(CKS)逆向平滑滑动窗口状态向量进而实现对NCMs的在线估计,避免了固定点迭代从而提高计算效率;最后,引入基于多重渐消因子的强跟踪滤波器(MSTF),使用在线估计出的NCMs指导MSTF调整预测误差协方差矩阵(PECM),从而提高算法的鲁棒性。通过多个仿真验证了所提出RSWVACKF的有效性并分析了其计算复杂度,结果表明所提出方法在估计精度和计算效率方面相较于已有最新方法均具有明显优势。
  • 李雅馨, 袁景凌, 钟忺
    录用日期: 2026-04-20
    视频分析通过从视频流中提取高价值信息,在智能交通和公共安全等应用中发挥着重要作用。传统云端视频分析尽管具备强大计算能力,但海量视频数据的上传会带来高带宽占用和网络延迟。边缘计算通过将视频数据下沉至摄像头附近以降低网络延迟,但仍面临着两大挑战:一是逐帧分析导致重复推理,而现有帧重用方法无法充分利用历史帧的局部相似性;二是核心负载不均,任务在大小核间分配缺乏实时负载感知。为此,本文提出了一种面向大小核边缘设备的高效视频分析系统Vable。Vable设计了多历史帧块级帧重用机制,将视频帧划分为细粒度块,并通过树形存储结构与基于局部敏感哈希的相似性匹配,实现跨帧的高效计算结果复用,从而显著降低冗余推理开销。同时,Vable提出核心负载感知的列表式DAG分区算法,通过实时监测大小核负载状态,动态分配分析任务,以平衡计算与通信开销,避免负载失衡导致的延迟增加。本文实现了Vable的系统原型,并在两个真实数据集上进行了实验评估。实验结果表明,在保持高吞吐率的同时,Vable可将端到端延迟分别降低59.23%和45.83%。
  • 吴佳恒, 段建成, 张荣辉, 陈俊周
    录用日期: 2026-04-20
    在复杂道路交通场景中,车辆目标检测面临目标尺度变化大、遮挡频繁以及检测精度与实时性难以兼顾等问题。为此,以YOLOv13n为基准模型,提出一种改进的车辆检测算法YOLOv13n-FCM。首先,在骨干网络中引入频率动态卷积(Frequency Dynamic Convolution,FDConv),通过增强网络对多频率特征的建模能力,提升模型对车辆边缘结构与细节特征的表达能力;随后,设计通道—空间特征融合(Channel–Spatial Fusion,CSF)模块,对通道维度与空间维度特征进行联合建模,引导网络更加关注关键车辆区域,有效抑制复杂背景干扰;最后,引入多分支特征融合(Multi-Branch Fusion,MBF)模块,实现多尺度特征的自适应加权融合,增强模型对不同尺度车辆目标的检测能力。在公开数据集Vehicle Detection Dataset和BITVehicle上的实验结果表明,YOLOv13n-FCM模型在不同道路车辆场景下均取得了较好的检测效果。其中,在Vehicle Detection Dataset上,mAP50达到60.1%,mAP50:95达到42.6%,较原始YOLOv13n模型分别提升2.7%和2.6%;同时,相较最优对比方法分别提升2.7%和1.8%。在BITVehicle上,所提方法同样优于基线模型,表明其具有一定的跨场景适应能力。此外,在边缘移动设备NVIDIA Jetson AGX Orin上经过硬件加速后,输入尺寸640×640下,推理速度达78.5FPS。由此可见,该模型在保证实时检测性能的同时显著提升了车辆检测精度,具有良好的工程应用价值。
  • 董现哲, 王晓衡, 李京
    录用日期: 2026-04-15
    近年来,多模态大模型(Multimodal Large Language Models, MLLMs)发展迅速,其高效推理服务的部署面临严峻挑战。现有在线推理调度策略(如连续批处理、无停顿调度等)主要针对纯文本大语言模型设计,通常将请求的编码与预填充阶段合并处理。然而,多模态输入在编码阶段具有更长且差异更大的处理耗时,若沿用现有粗粒度调度方式,易导致计算资源闲置、推理延迟增加,进而严重制约系统整体的有效吞吐率。为此,研究提出一种面向多模态大模型在线系统的提高有效吞吐率在线推理调度策略——STEP(Stage-based Time Estimation Priority Scheduling)。该策略的核心创新在于对推理过程进行更细粒度的阶段解耦与调度:首先,将多模态请求的推理过程划分为编码、预填充和解码三个可独立调度的阶段;其次,基于历史执行数据构建轻量级时间预测模型,准确估计批次执行时间以满足令牌间延迟要求;最后,引入一种时延感知的优先级调度机制,以适配不同请求的首令牌延迟要求。实验在图文问答、图像理解等任务的五个开源多模态数据集上与多个基准方法进行比较。结论表明,通过细粒度的调度与执行时间预测,STEP策略能有效适配多模态大模型的推理特性,显著提升在线推理系统的有效吞吐率。
  • 陈文杰, 梁银, 杜明晶, 黄尧晟, 刘妍洁
    录用日期: 2026-04-14
    针对无人机航拍图像中小目标像素占比低、尺度波动剧烈且分布密集的问题,提出一种基于YOLOv12n改进的算法SAM-YOLOv12n。在主干网络中设计了双注意力耦合C2f小目标模块(Dual-Attention Coupled C2f for Small Object,DA-C2f-S),通过引入多层特征提取结构与双重注意力机制,有效增强了对小目标边缘及纹理等细微特征的捕捉能力;构建了多尺度融合卷积模块(Multi-Scale Fusion Convolution,MSFConv),以膨胀深度可分离卷积(Dilated Depthwise Separable Convolution,DDSConv)为核心设计不同膨胀率的差异化分支,实现局部细节与全局上下文特征的协同建模,弥补单一尺度感受野的局限,更好适配航拍小目标的尺度波动特性;重构检测头结构,保留高分辨率分支并移除大目标检测头,使计算资源更集中于密集小目标区域。在VisDrone2019数据集上实验结果表明,改进方法在mAP@0.5和mAP@0.5:0.95上分别较基线YOLOv12n提升9.9%和7.2%,验证了其在复杂航拍场景下对小目标检测的有效性。在TinyPerson超小目标及HIT-UAV红外航拍数据集上的泛化实验,验证了改进方法在不同航拍场景下的跨域适配能力。其核心优势在于有效平衡了检测精度、模型复杂度与推理效率,可为无人机航拍目标实时检测任务提供可靠的技术支撑。
  • 郑康怡, 张霁, 林炳宇, 杨田, 刘宁怡
    录用日期: 2026-04-14
    半监督特征选择是机器学习中处理大规模部分标记数据的有效工具。然而,大多数现有特征选择算法面临着计算效率不足、数据规模有限以及精度不够等挑战。相关族是一个基于粒计算的高效特征选择框架,在大规模数据场景下具备效率优势,但无法处理部分标签数据。为此,本文提出一种基于相关族的半监督特征选择算法(SRF)。首先,提出一种无冗余粒化方法——一致粒化,以及重要度矩阵来构建一种新型的相关族,进而设计了一种半监督特征评价方法,将特征评价的复杂度从二次降低到线性,有效克服了计算效率和规模方面的瓶颈;其次,为进一步提高分类性能,本文采用了三种策略:一是增强信息粒的数据表示能力;二是兼顾信息粒一致性和质量评价特征重要度;三是基于筛选后的高质量特征子集预测伪标签,降低噪声干扰。在12个公开数据集上的实验结果表明,与SemiFREE、Semi2MNR、LMSFS及GMSFS四种代表性算法相比,SRF在分类精度上分别提升了0.88%、2.34%、2.81%和2.58%,同时在计算效率上分别提升了36.70倍、841.56倍、6.52倍和17.04倍,验证了该方法处理大规模部分标签数据的有效性与高效性。
  • 刘佳琦, 程晓娜
    录用日期: 2026-04-14
    联邦学习通过“数据不动模型动”的分布式范式实现了隐私保护与协同建模,但现有方案在客户端选择效率、恶意节点防御及激励分配公平性上存在明显不足。为此,本研究提出一种动态恶意节点识别机制(GIFL),实现恶意节点精准识别、高效客户端选择与动态激励分配的协同优化。GIFL通过轻量型贪心筛选策略过滤低贡献高成本节点,基于模型参数偏差的影响因子动态更新机制识别并剔除恶意节点,结合历史与实时贡献设计动态报酬支付策略。基于Fashion-MNIST和CIFAR-10及 Tiny-ImageNet 数据集的实验表明,在恶意节点比例为5%-30%的跨设备联邦学习场景下,与FedAvg、IAFL等五种基准方法相比,GIFL的恶意节点识别精度提升5.4%~23.9%,前置筛选耗时较QAIM平均降低86.1%,模型收敛稳定性与社会福利显著改善,在模型精度不低于92%(Fashion-MNIST、CIFAR-10)和88%(Tiny-ImageNet)
  • 张 鹏, 赵国生, 伍小胜
    录用日期: 2026-04-14
    针对动态防御模型自适应能力有限、对抗鲁棒性不足及防御成本考量欠缺等问题,提出一种融合元学习与对抗训练的异步优势行动者-评论家自适应动态防御模型。该模型将防御过程形式化为部分可观测马尔可夫决策过程,设计融合误报/漏报惩罚与操作代价的奖励函数,构建三层协同优化框架:内层基于异步优势行动者-评论家算法实现高效策略搜索;中层引入投影梯度下降对抗训练,通过极小-极大博弈增强对抗扰动下的鲁棒性;外层采用模型无关元学习构建元优化器,使模型能基于少量样本快速适应新攻击。在NSL-KDD、UNSW-NB15及CICIDS2017数据集上的实验表明,该模型最佳防御决策率均超过92%,平均防御资源消耗降低约60%;在高强度扰动下攻击成功率仍低于38.2%,未出现性能崩塌;针对零日攻击的检测准确率可提升至88%以上。研究为构建高适应性、强鲁棒性、高效益的智能动态防御系统提供了可行路径。
  • 刘佳乐, 邓韦斯, 胡甲秋, 荆朝霞, 邹文仲
    录用日期: 2026-04-14
    在新能源发电系统中,数据缺失问题严重制约了设备运行状态评估与故障预警的准确性。由于新能源场景下的数据通常具有高复杂性、长序列依赖性以及强波动性,传统的数据补全方法在准确性与泛化能力方面难以满足实际应用需求。为此,本文提出了一种基于多尺度特征融合的新能源缺失数据补全方法。首先,采用皮尔逊相关系数与最大互信息系数对多变量特征进行筛选,以提升输入数据的相关性与信息质量。随后,设计了一种全新的时序数据补全模型——AFMFormer(Adaptive Frequency-aware Multi-scale Transformer),该模型首先通过自适应频域特征增强模块对输入序列进行频域分解与主频增强,从而实现对复杂长序列中主要特征的突出。接着,模型引入两条并行时间特征提取分支Patch-based Transformer、Standard Transformer,其中,Patch-based Transformer用于捕捉短期时间序列特征,Standard Transformer用于提取长期时间序列特征。最后,通过特征融合模块对两个分支的输出结果进行融合,生成最终的缺失值补全结果。实验结果表明,所提出模型的评价指标均显著优于基线方法,其中,在风电、光伏数据集上的均方误差相较最优基线模型分别降低49.3%和31.5%,显著提升补全效果。
  • 王炯炯, 张淑芬, 代家佳, 张晗瑞, 张益
    录用日期: 2026-04-14
    个性化联邦学习通过共享训练参数而非数据进行模型训练,但仍易受推理攻击,因此广泛应用差分隐私技术进行防护。针对传统差分隐私个性化联邦学习(Differentially Private Personalized Federated Learning,DP-PFL)中静态模型划分和统一噪声的局限,本文提出了一种融合参数个性化的自适应差分隐私联邦学习框架DP-FedADC。首先,该框架利用设计的参数自适应划分(Adaptive Parameter Partitioning,APP)实现模型参数的动态分析,并自适应划分个性化参数与共享参数。在此基础上,设计差异化更新策略(Differentiated Parameter Update,DPU),通过对不同类型参数施加差异化正则约束,稳定关键参数更新并缓解梯度裁剪对优化方向的影响。其次,提出客户端级自适应隐私预算分配策略(Client-level Adaptive Privacy Budget Allocation,CAPBA),根据客户端个性化参数比例动态调整隐私预算,使高敏感度客户端获得更严格的隐私保护,同时避免对全局收敛起主导作用的参数施加过度噪声扰动,从而抑制隐私噪声在训练后期的累积效应。在MNIST、CIFAR-10、Fashion-Mnist数据集上的实验表明,在严格差分隐私约束下,DP-FedADC显著提升了分类准确率和领域泛化性能,其测试准确率相较基线方法最高提升约2%-4%,且损失值收敛至更低区间。实验结果验证了所提出框架在差分隐私联邦学习场景下的有效性与鲁棒性。
  • 曹福, 邢雯彬, 左勇, 张荣辉, 陈俊周
    录用日期: 2026-04-14
    非结构化道路分割是自动驾驶技术环境感知的重要组成部分,面临全局拓扑建模不完整、边界细节难以保持,及模型效率与精度的权衡等挑战。针对这些挑战,设计了一种轻量化轴向上下文网络(Lightweight Axial Context Network, AXON-Net)。该网络采用编码器-解码器架构,在编码器中引入通道-空间注意力模块(Channel-and-Spatial Attention Block, CASAB),通过聚合多维统计信息自适应重标定特征权重,有效抑制环境噪声,以增强复杂背景下的特征区分度;在瓶颈层设计轻量化部分上下文模块(Lightweight Partial Context Transformer, LightPCT),利用部分通道交互策略降低计算冗余,高效捕获长程依赖以修复道路拓扑连通性;并在解码器中集成双路径通道融合(Dual-Path Channel Fusion, DPCF)与轴向细结构增强(Thin Structure Enhancer, TSE)模块,旨在弥合特征语义鸿沟并显式强化轴向几何特征,改善模糊道路边缘的精细化恢复效果。在基于印度驾驶数据集(India Driving Dataset, IDD)与越野空间检测数据集 (Off-Road Freespace Detection, ORFD)二次构建的非结构化道路数据集上的实验结果表明,AXON-Net在道路交并比指标上分别达到95.3%、88.1%,参数量仅为8.49 M,实现了分割精度与模型效率的较优平衡。消融实验验证了各模块协同作用的有效性,展示了该网络在非结构化道路感知任务中的应用潜力。
  • 潘语泉, 袁得嵛, 程佳琳, 叶乃夫
    录用日期: 2026-04-13
    跨社交网络身份关联能够识别不同社交网络上的用户是否属于同一自然人。针对现有方法难以克服正负样本不均衡对关联性能的负面影响的问题,提出了基于MH-Node2vec的跨社交网络身份关联方法。首先,提出了一种高效的节点嵌入算法MH-Node2vec,结合Metropolis-Hastings采样和关键参数自适应调整机制,能够处理来自不同社交网络的用户节点,生成用户特征向量;其次,创新了输入向量拼接方式,提出了基于注意力机制的拼接策略,高效融合了不同社交网络的用户特征;最后,基于最简社交网络分析的结论,结合权重因子和Focal loss,提出了wF-MLP。在相同数据集上与WLAlign、CrossMNA等现有模型进行对比实验,结果表明,本文模型在两个数据集上的F1值较现有最优方法分别提升了7.8%和5.1%,且在所有评估指标上均取得最优性能,验证了模型的有效性。
  • 王小生, 方小红, 杨浩, 刘一宁, 郭桥生, 刘超飞
    录用日期: 2026-04-08
    语音增强技术面临的一个挑战是现有基于Transformer的方法在局部特征建模上存在不足,难以准确还原语音中的高频细节与瞬态成分。为解决这一问题,研究设计了一种融合时频Transformer的U-Net语音增强网络,旨在通过改进注意力机制和特征融合来提升去噪效果。该网络设计了并行时频联合注意力模块,对时域与频域数据进行显式区分与并行处理;同时在瓶颈层引入局部-全局特征协同模块,将密集连接空洞空间金字塔池化的多尺度局部特征提取能力与Transformer的全局建模优势结合。局部-全局特征协同模块通过动态特征校准机制,实现多尺度局部上下文与全局依赖关系的协同,从而增强对语音结构的感知。网络采用频谱映射方式,通过短时傅里叶变换将语音转换为时频表示,经处理后再通过逆短时傅里叶变换重构为时域信号。在由纯净语音数据集LibriSpeech和噪声语音数据集ESC-50数据集、哥伦比亚大学噪声库构建的10小时训练集和1小时验证集上,该网络在多项客观指标上表现优异,语音质量感知评估达3.37,短时客观可懂度达97%,尺度不变信噪失真比达19.97dB,超越了多种现有先进模型。
  • 陈雨轩, 刘亚军, 莫家庆, 周刚
    录用日期: 2026-04-08
    重度抑郁症作为一种高发且危害严重的精神障碍,早期精准诊断对治疗干预至关重要。功能性磁共振成像作为一种非侵入性的神经影像学技术,为抑郁症诊断提供了无创的神经影像依据,有助于构建详细的脑功能连接。但传统深度学习方法在处理脑功能连接数据时,存在忽视全局时间动态特征和难以建模多脑区高阶交互的缺陷。为解决上述问题,提出一种基于时空交叉注意力超图神经网络的抑郁症辅助诊断方法。该方法以功能性磁共振数据构建的脑功能连接图为研究对象,通过时间分支捕捉脑区信号的时序动态特征,空间分支建模脑区之间的高阶关联,利用时空交叉注意力模块实现两类特征的深度融合。在大规模多中心数据集上进行实验验证,结果表明,提出的模型平均准确率达83.74%、灵敏度达73.76%、特异性达93.39%,相较其他方法提升明显。消融实验验证了空间分支、时间分支、时空交叉注意力模块的有效性,为抑郁症的临床辅助诊断提供了一种新的技术方案。
  • 朱奕健, 冒睿瑞
    录用日期: 2026-04-08
    生成式模型因其有效的数据生成能力,近年来被广泛应用于推荐系统领域。然而,现有生成式推荐系统由于模型生成过程的随机性导致稳定性不足,并且有限的表示学习能力影响了个性化推荐的准确性。为了解决上述问题,提出一种基于扩散模型的生成对抗式推荐方法。具体来说,首先通过变分自编码器 (VAE) 对原始向量进行压缩,然后使用扩散模型在隐式空间进行多步加噪和去噪,学习高质量用户表示。此外,引入对抗训练机制为去噪过程提出反馈信号,缓解其生成过程不可控的问题。在Amazon-book、Yelp和Movielens-1M三个公开数据集上进行实验,所提出的方法相比主要基线在召回率 (Recall@10)和归一化折损累计增益 (NDCG@10)上分别最高提升20.3%、18.9%,说明方法能够有效预测用户行为,提高推荐精度。
  • 李忠伟, 聂思远, 王雷全, 袁德坤, 齐衍萍
    录用日期: 2026-04-08
    分割一切模型(SAM)在各种下游任务中得到了广泛的应用。海洋浮游动物物种形态复杂、透明度高、物种尺度大小不一,导致现有的分割模型难以适应从而分割精度较低。此外,缺乏像素级别实例标注的海洋浮游动物图像数据集阻碍了SAM在该领域分割任务中的探索研究。为了解决这些问题,构建一个具有像素级别精细化标注的实例分割数据集MZIS,其中包含25个物种类别与1908张浮游动物图像。针对海洋浮游动物场景进一步提出一种基于SAM的实例分割方法MZIS-SAM。具体来说:首先,为了弥补缺乏的海洋浮游动物语义类别信息,设计了一种浮游动物显微图像自适应的ViT(ZMA-ViT)编码器,提取浮游动物的视觉特征提示并融入网络;接着,设计了一个多尺度膨胀注意力聚合模块(MDAAM),用于整合编码器中的多层特征来增强多尺度特征表达;最后,设计了一个特征提示生成模块(FPGM)来自动生成视觉特征提示,实现端到端的实例分割掩码预测。实验结果表明,相比于现有的方法,MZIS-SAM在MZIS数据集上的 、 和 得分分别达到77.0%、97.7%与85.8%先进水平。
  • 蒋文豪, 丁雪, 王享, 马莉, 孟祥和, 何向真
    录用日期: 2026-04-07
    音乐生成在人工智能时代取得了飞速发展,传统的音乐创作过程正逐渐被基于深度学习的生成模型所替代,尤其是近年来,生成对抗网络(GANs)、变分自编码器(VAEs)、Transformer架构、扩散模型及大语言模型等技术的应用,为音乐创作提供了全新的思路和方法。系统综述了人工智能在音乐生成中的最新研究进展,重点探讨了从离散符号表征到连续音频波形生成的技术演变路径,特别是如何在多模态生成、情感表达、创作控制等方面取得的突破。同时详细梳理了各类生成模型在娱乐与大众消费、专业音乐制作、音乐教育、音乐治疗与健康及游戏与交互媒体等多元场景中的实际应用,从生成质量、结构一致性、计算效率与用户控制性等维度评估了不同技术的优缺点及当前面临的挑战。最后,讨论了未来人工智能在音乐创作中的发展趋势,包括生成质量提升策略、人机协同创作模式、以及与音乐产业深度融合的潜在路径,为该领域的进一步研究提供参考。
  • 殷伟梁, 刘冰, 罗善军, 黄亮, 陈晓慧
    录用日期: 2026-04-02
    行人重识别任务易受视角、姿态、遮挡等复杂因素干扰。现有的主流深度学习方法主要依赖视觉特征的统计相似性进行匹配。这类方法在通用场景下表现优异,但普遍缺乏高层语义理解能力与逻辑推理机制,导致其在面对外观相似的硬样本时难以捕捉细粒度差距,从而陷入精度瓶颈。针对上述问题,本文提出一种大小模型协同的两阶段行人重识别方法,旨在融合专用小模型的高效性与通用多模态大模型的强判别力。第一阶段为快速召回阶段,结合轻量级深度学习模型与K-互近邻方法对待识别的行人进行快速召回,从海量图库中筛选出少量与目标行人具有高相关度的候选集,在保证高召回率的同时大幅降低后续处理的数据规模。第二阶段为精确筛选阶段,将预训练的多模态大模型视为判别器,利用其强大的多模态理解能力对候选集进行精确筛选。采用这种大小模型协同的两阶段识别方法能够兼顾模型的速度和精度。在Market-1501和DukeMTMC-reID数据集上,所提出方法的Rank-1准确率分别达到98.5%和96.5%,较CLIP-ReID方法分别提升2.8%和6.5%,这充分验证了所提出方法的有效性。
  • 周泽生, 李平
    录用日期: 2026-04-02
    针对高效Transformer模型在噪声环境下文本分类性能退化的问题,提出了一种结合动态低秩注意力与双视图一致性约束的高效鲁棒文本分类方法。该方法通过输入特征的方差信息自适应地调整注意力秩值,对语义复杂样本分配更高秩以增强表达能力,对简单样本使用较低秩以维持近线性计算复杂度,从而在表示能力与效率之间实现动态平衡。同时,在训练阶段引入双视图一致性约束机制,通过构造干净与受扰动文本视图并约束其语义表示一致,抑制噪声对模型判别边界的干扰,进一步提升模型鲁棒性。本文在多组中英文文本分类数据集上进行了系统实验,包括情感分析、主题识别及细粒度情绪分类等任务。实验结果表明,所提方法在准确率等指标上均优于固定低秩基线模型,并在多种噪声类型与强度下表现出更稳定的分类性能。该研究为在复杂噪声环境下实现高效鲁棒的文本分类提供了一种新的解决思路。
  • 马汉达, 欧阳涛
    录用日期: 2026-04-02
    针对现有关系三元组抽取方法在复杂语境下存在多关系语义表示不足以及隐式关系难以有效抽取的问题,提出了一种融合注意力机制的双通道联合编码关系抽取模型AMJERE(Attention-Mechanism Joint Encoding for Relation Extraction)。该模型从句子语义与关系语义协同建模的角度出发,构建句子通道与关系通道相互独立且可交互的联合编码框架,以增强关系语义表示的完整性与判别能力。模型首先采用句子—关系双通道独立编码结构,分别对输入句子和候选关系进行编码表示,避免语义空间混叠带来的信息干扰;随后引入关系融合模块,通过自注意力机制对关系语义进行建模,并结合句子上下文信息提升对隐式关系特征的表达能力;在此基础上,设计跨通道交叉注意力机制,实现句子表示与关系表示之间的深层语义交互,从而捕捉实体与关系之间的潜在依赖关系,并获得紧凑的联合语义表示;最后,通过多个线性分类器完成关系判别与实体标签预测,实现关系三元组的联合抽取。在NYT和WebNLG两个公开数据集上的实验结果表明,AMJERE在精确率、召回率和F1值指标上均优于多种主流基线模型,其中F1值分别达到93.3%和93.5%。消融实验与定性分析进一步验证了所提出方法在多关系语义表示与隐式关系抽取任务中的有效性与鲁棒性。
  • 龙海清, 李茂
    录用日期: 2026-04-02
    交互式图像检索突破了传统单次查询-返回结果的静态范式,将检索过程重塑为多轮迭代的人机对话,允许用户依据初步结果动态引导与细化检索意图。文本与草图作为两种直观互补的查询模态,在场景级图像检索中具有显著优势,能够有效表达用户的复杂视觉需求。然而,现有方法的交互机制多基于最新即最佳的简单假设,缺乏对历史状态的择优与维持能力,导致检索过程易受噪声干扰且稳定性不足,此外,其评估指标往往仅关注是否在某一轮次检索到目标,忽视了真实交互中用户反馈含噪、意图持续演化以及检索结果稳定性不足等问题;此外,草图本身具有高度抽象性与用户绘制不确定性,现有静态检索模型难以在初始输入不完整或存在歧义时通过交互进行有效细化,导致其实用性与鲁棒性受限。为此,本文提出一种基于文本与草图的交互式场景级图像检索框架IScene。该框架设计了对话重写、相似度优化选择与视觉扩展三个核心模块,构建了一个能够逐步提炼语义、保持判别力稳定并增强视觉表达的检索流程。同时,为支撑交互式研究,本文构建了首个面向该任务的多轮对话数据集。实验结果表明,IScene在多个数据集上的检索精度与稳定性显著优于现有基线方法,为实现更自然、鲁棒的交互式场景检索提供了有效途径。
  • 郝冠一, 孙靖超
    录用日期: 2026-04-01
    数字时代下,文本、图像、音频等模态的复杂交互形成了多模态虚假信息,其传播速度与隐蔽程度远超传统单模态虚假信息,对信息安全与社会治理构成严峻挑战。但在国内,该领域相关研究较为匮乏,尚未形成完整体系。为此研究系统梳理了多模态虚假信息检测领域的研究现状及发展脉络,对多模态虚假信息检测的研究进行了全面总结。在明确多模态虚假信息检测的核心概念与任务谱系的基础上,详细总结了数据集与测评指标特征,分析了SAFE、CAFE、CFFN、SSA-MFND、PSCC-Net、DGM4、CCN、SNIFFER、KGAlign等不同多模态方法模型的适用场景与检测性能,归纳了跨模态一致性、异常特征识别、外部事实驱动三大核心检测方法,并且对多模态虚假信息检测的可解释性与泛化鲁棒性进行了探讨。同时,随着大规模视觉语言模型LVLM的崛起,其在多模态虚假信息检测中的应用不断深化,对此研究梳理了LVLM在该领域的多种应用场景、优势与局限。最后展望了多模态虚假信息检测的未来研究方向,以期为多模态虚假信息检测领域的发展提供借鉴与启示。
  • 王铁君, 鲁子怡, 胡晓燕, 康梦洋, 王文昊, 王恺彦, 徐成杰
    录用日期: 2026-03-30
    简牍文字图像中存在的结构和纹理语义混淆、退化类型复杂、文字像素与背景噪音对比度低等问题,现有图像修复方法在处理具有复杂退化场景的简牍文字图像时普遍存在结构与纹理语义耦合、难以区分建模不同退化程度像素以及掩膜感知能力不足等问题,导致文字结构破坏、修复不稳定及伪影现象频发。本文提出了一种基于多粒度特征引导的简牍文字图像修复——AmdmaNet。首先,在纹理修复网络和结构修复网络中分别重建受结构边缘约束的纹理特征和基于相对全变分量(RTV)的结构特征,避免结构和纹理语义混淆的问题;随后,在图像细化阶段引入多尺度动态范围分布图自注意力机制(Mdma),对不同退化程度的像素进行分类处理,有效缓解修复过度或修复不充分的问题;进一步,采用自适应掩膜感知像素洗牌下采样方法(Ampd),通过受损像素对周围完整区域自适应地分配权重,增强模型对破损区域的置信度,再根据破损区域的位置信息引导图像下采样,确保掩码位置不发生偏移,显著减少了伪影、模糊及马赛克等现象。最后,在自建的简牍文字图像数据集上进行实验验证,实验结果表明,所提出方法在主观视觉感受和客观评价指标上均优于当前主流图像修复算法,尤其在处理文字笔画断裂、背景噪声干扰等复杂场景时表现出更强的鲁棒性。
  • 林素青, 吴景恒, 陈麒轩, 闫明
    录用日期: 2026-03-30
    旅游业的快速发展促使基于个性化需求的兴趣点推荐成为提升用户体验的主要途径,但推荐过程常面临交互极度稀疏、短评论碎片化与语义离散性引发的特征提取难题。传统概率主题模型因依赖词共现统计而难以捕捉潜在语义关联,基于反向传播的迭代式深度学习框架则易陷入梯度失稳与训练低效的困境。为此,提出融合语义增强主题建模的深度学习推荐框架DeepTSN。引入语义聚类增强主题建模方法SynTopic强化短文本表征,利用大语言模型构建初始主题库,结合BERT-Chinese语义聚类与自适应优化策略剔除冗余并融合相似项,有效抽取深层主题特征弥补信息缺失,整合多源异构特征构建用户与景点深层交互的高维向量以捕获复杂非线性关系;同时集成采样网络,通过自适应概率密度采样重构数据分布,采用构造式学习机制解析生成网络权重,有效抑制缺失数据干扰并解决收敛难题,显著提升推荐精度与训练效率。多源数据集实验结果表明,DeepTSN在不同交互密度的真实与公开场景中性能均优于基线模型,MAE降幅最高分别达21.34%与12.72%,MSE降幅最高分别达22.89%与7.32%。运行时间缩短约61.69%,内存峰值下降约72.87%。
  • 张可, 李飞
    录用日期: 2026-03-30
    针对原始序列特征表征能力有限,以及现有“分解-集成”模型在长时序预测任务中分解策略引发的信息丢失问题,本文提出一种融合注意力机制的高维特征序列增强网络(HDFSENet)。该网络通过整合嵌入技术、混合专家分解模块(MOEDecomp)与特征序列增强模块(FSE)以捕捉时间序列的内在特征,同时减少分解策略中的信息丢失。首先,该方法借助三种嵌入技术(数值、位置与时间嵌入),强化原始时间序列的特征信息。其次,通过MOEDecomp模块将增强后的时间序列分解为趋势特征序列与季节特征序列。随后,构建基于注意力机制的特征序列增强模块,以捕捉分解后趋势特征序列与季节特征序列间的相互作用,从而提升特征的表征能力。之后,将这些交互特征作为关键变量整合到模型中,进一步提高预测精度。最后,在多个基准数据集上对该模型的有效性展开验证。实验结果显示,HDFSENet在MSE、MAE等评价指标上,显著优于多个基准模型,表明本文提出的模型为更精准地实现时间序列预测提供了可靠方法。
  • 居洪政, 唐建航, 章阳, 金柯兵
    录用日期: 2026-03-30
    近年来,越来越多的研究开始关注如何基于用户行为建模多兴趣,以刻画用户的复杂偏好。然而,在缺乏物品类别等外部辅助信息的隐式建模场景中,多兴趣模型难以准确区分不同行为的兴趣归属,容易将与目标兴趣关联较弱甚至无关的物品错误聚合到同一兴趣中,形成兴趣特定噪声。为缓解这一问题,本文提出了一种两阶段去噪多兴趣推荐算法(DMIRec),从物品特征和兴趣表示两个层面抑制兴趣特定噪声。在物品降噪阶段,利用可学习的滤波器对各兴趣中的无关物品特征进行滤波,得到每个兴趣的降噪序列;在兴趣去噪阶段,引入条件扩散模型,以与当前兴趣高度相关的物品作为指导信号,通过迭代去噪进一步去除兴趣向量中的噪声成分。为了增强去噪效果,进一步设计了目标引导的多兴趣损失,将推荐目标显式融入多兴趣学习过程,为各兴趣分配合理的责任度,在优化层面减弱兴趣特定噪声的干扰。在Book、Beauty和Retail Rocket三个真实世界数据集上的实验结果表明,相较于基线模型中最优的Top50推荐结果,所提方法的召回率(Recall)分别提升8.84%、2.03%、2.27%,命中率(HR)分别提升9.78%、0.95%、0.72%,归一化折损累计增益(NDCG)分别提升9.07%、3.87%和2.49%,上述实验结果验证了该方法的合理性和有效性。
  • 郝亮, 苏博何俊, 王京华, 徐勇
    录用日期: 2026-03-27
    模型量化技术通过将高精度浮点数据映射到低比特离散空间,能有效降低模型存储与计算开销。如何合理化的考虑参数分布的特点以构建更好的映射方案是模型量化研究的核心。现有 PTQ (训练后量化)方案多默认非激活层数据呈对称钟型分布,却忽略激活层与输入引入的微小偏置可能导致的分布不对称性,进而使量化映射偏向一侧,引入显著近似损失。本文针对图像超分辨率量化方案进行研究,对性能获得公认的二阶段后训练量化方案进行改进。第一,将预寻找量化上下界过程中的基于最值的均等分配改进为基于排序的非均匀分配;第二,在伪量化过程中引入了偏置量,将数据的一部分及均值进行自适应偏移,缓解数据偏置引发的估计损失。改进后的方案在效果上基本全面超越原方案,并具有同样的高压缩比以及加速比:相比原SwinIR-light模型参数量减少约67.4%、超分辨率过程加速3.99倍。