作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 杨春霞, 王宇龙 , 王新奥
    录用日期: 2026-01-06
    随着城市化与工业化的快速推进,空气污染问题日益严峻,精准预测空气质量指数(AQI)对公众健康与环境保护具有重要意义。然而,现有基于时空图神经网络的空气质量预测方法仍存在明显局限:一方面,受模型结构限制,难以有效建模其他站点在长期历史中通过复杂时空传播路径对目标站点形成的影响;另一方面,现有动态图学习方法主要依赖短序列,无法从长期观测数据中挖掘更具代表性的空间关联模式。为此,提出一种时空上下文感知图网络模型(ST-CAGN)。设计了基于预训练编码器的长序列时空上下文提取模块,将长序列历史数据编码为富含语义信息的低维表示,并高效捕捉跨站点的长期时空依赖;同时,提出一种基于长序列的多尺度动态图学习机制,克服仅利用短期序列构建动态图的局限性。该机制通过从长期历史序列的低维表示中提取稳态空间依赖特征,并与近期波动中捕捉的瞬时空间关联进行自适应融合,从而更精确地刻画站点间复杂的动态空间依赖关系。实验结果表明,ST-CAGN在三个真实空气质量数据集上均显著优于主流基线模型,在6小时、12小时和24小时预测任务中,MAE分别平均下降4.19%、5.47%和6.53%,RMSE平均降低2.10%、3.14%和3.95%,验证了该模型在长序列时空预测任务中的有效性与优越性。
  • 王琦军, 刘庆程, 顾阳, 郁彦珩
    录用日期: 2026-01-06
    针对无人机影像中目标尺寸微小、背景复杂干扰强等问题,传统目标检测算法在特征提取与多尺度融合过程中容易出现特征退化与信息损失,从而导致检测精度下降。为此,本文提出了一种基于混合动态重参数化的微小目标检测算法(HDR-YOLO)。首先,由于传统卷积在微小目标特征提取上的局限,通过引入风车形卷积(Pinwheel-shaped Convolution, PConv)重构了C3K2-PC模块,显著增强了骨干网络对目标底层细节的感知与捕捉能力。其次,针对多尺度融合中的信息退化难题,本文设计了混合动态重参数化模块(Hybrid Dynamic Reparameterization Module, HDRep),通过低失真尺度变换与深层特征精炼相结合,实现高保真多尺度特征重建。基于此,进一步提出了全新的多尺度特征融合颈部结构(Multi-Scale Feature Fusion Neck, MSFPN),该结构通过优化跨层信息流,有效提升了模型在复杂背景下的鲁棒性。在 VisDrone2019 数据集上的实验结果表明,HDR-YOLO 在 mAP@50 和 mAP@50:95上分别达到 43.7% 和 26.5%,较 YOLOv11n 基线模型分别提升 10.2% 和 7.0%。同时,在公开的 AI-TOD 数据集及自建的 HVL-Cond 数据集上的实验进一步验证了所提算法的优越泛化性能与稳定性。
  • 翟洁, 孟天鑫, 阮彤, 刘井平, 李彬彬
    录用日期: 2026-01-05
    线上“轻问诊”决策树是为轻症患者提供导诊科室、初步诊断或治疗建议的问诊决策树。基于医学文献文本构建“轻问诊”决策树,无法满足真实“轻问诊”场景中情况各异患者的问诊需求,在研究特定疾病领域最新进展方面也存在滞后性。若由医学专家基于个体经验人工构建“轻问诊”决策树,不仅效率低,而且缺乏统一的标准化表征。因此提出了一个全新的决策树生成任务,基于线上“轻问诊”对话文本数据集生成决策树(Medical Decision Tree Generation based on Online Light Consultation (DTGOLC)。面向该任务,提出了基于大语言模型的“轻问诊”决策信息摘要生成方法LCDTSG-LLM (Light Consultation Decision Text Summarization Generation Method Based on Large Language Models)和基于问诊决策路径融合的“轻问诊”决策树生成方法MDPFDT(Medical Decision Path Fusion for Decision Tree)。本文生成了5547条决策路径以及近30棵“轻问诊”决策树。最终本文将决策树集合作为外部知识库进行了检索增强生成(RAG)实验,实验结果表明,本文生成的决策树在辅助轻问诊决策任务方面的表现显著优于基线模型,其F1分数相较于以原始问诊对话文本作为知识库的基线模型,平均提高达27.58%。
  • 郭伟, 樊子茜, 曲海成
    录用日期: 2026-01-05
    针对无人机电力巡检中绝缘子缺陷图像存在的目标尺度差异大导致的小目标缺陷漏检率高以及复杂背景下检测精度低等问题,本文提出了时频协同注意力绝缘子缺陷检测算法。首先,为扩大卷积核感受野、增强对图像低频信息的提取能力,在网络主干上集成小波变换卷积模块WTCM;并在此基础上,设计多尺度卷积注意力增强模块MCAAM,通过结合通道与空间注意力机制,进一步抑制复杂背景对绝缘子目标的干扰;其次,为进一步提升模型在复杂环境下的鲁棒性,设计频域调制注意力机制FMAM,这一机制通过融合频域与空域信息,使模型能够更全面地感知图像特征,确保检测结果的稳定性和可靠性;最后,设计自适应加权特征融合AWFF,通过动态调整特征融合权重增强跨维度特征交互,进一步提升网络表征能力。实验结果表明,该算法的mAP50达到92.4%,较基线模型提升4.8%,小目标缺陷召回率提升5.2%,推理速度由112提升到了132。此外,绝缘子损坏、锤子和闪络三类缺陷的AP值分别提高了7.6%、1.7%和9.8%。相比基线模型YOLO11n,改进模型在检测精度与推理效率方面均表现出更优性能。
  • 徐智霞, 王蕊, 沈晓卫, 何兵, 康伟杰
    录用日期: 2026-01-05
    组网雷达干扰资源分配问题是典型的NP问题,同时也是一大难题,需采用各种优化算法对其进行求解,针对传统干扰资源分配优化算法计算速度慢、适应性差的问题,系统梳理了干扰资源分配的智能优化算法的研究进展。首先构建了组网雷达干扰资源分配的数学模型及求解框架,分析了其求解难点,强调智能优化算法在计算效率、全局优化能力及鲁棒性等方面的明显优势;然后以遗传算法、粒子群算法、蚁群算法及其各种改进算法为典型代表,对智能优化算法在组网雷达干扰资源分配中的实施流程、求解效果及优缺点等进行详细分析,并对融合算法及其它仿生/机器学习智能优化算法在该领域的应用进行总结归纳,从适应性、收敛性、全局搜索能力等方面对比分析了各类算法的优劣,充分展现了智能优化算法在该应用方向上的发展现状;最后结合当前组网雷达干扰资源分配所面临的多重挑战,从算法对比、寻优速度、融合创新与动态适应性四个方面对智能优化算法未来的发展方向做出了展望,对组网雷达干扰资源分配中智能优化算法的研究及工程实践具有重要的参考价值。
  • 胡静, 赵新瑜, 彭铭超
    录用日期: 2026-01-05
    跨模态图文检索作为多模态理解的核心任务之一,面对图像与文本在模态表达、语义抽象层级和结构组织等方面的天然异质性,如何实现高精度语义对齐与模态间鸿沟的跨越成为当前研究的关键挑战。为此,本文提出一种跨域特征解耦与语义原型引导的图文检索模型(DPNet),旨在提升复杂场景下的细粒度图文匹配能力与检索鲁棒性。该模型设计了频域-空间联合解耦、层次化语义增强以及双模态交互注意力机制,实现跨模态特征的结构化重构与判别表达的增强。针对传统方法难以兼顾空间结构与频域纹理的建模缺陷,提出的频域-空间解耦模块采用异构多头注意力机制,在保留局部空间语义的同时挖掘全局周期模式,实现视觉特征的多维协同表达;为弥补局部词汇与全局语义对齐的失衡,语义增强模块融合词性标注与深度可分离卷积,引导模型聚焦关键语义区域,提升对事实描述与主观评价等语义模式的建模能力;此外,针对训练样本不平衡和噪声敏感问题,提出的动态边界三元组损失可自适应调整相似度判别边界,结合语义原型对比学习进一步增强类内紧致性与类间分离性。在Flickr30K与MSCOCO两个主流数据集上的实验结果表明,所提方法在细粒度图文检索任务中在MSCOCO数据集上的R@1、R@5、R@10指标上分别取得1.0%、0.1%、0.2%和1.4%、0.6%、0.3%的性能提升,显著优于现有主流方法。本研究为复杂跨模态场景下的高精度、实时检索提供了一种高效可行的解决思路。
  • 欧阳玲, 李辉, 兰巨龙, 邬江兴
    录用日期: 2026-01-05
    动态异构冗余架构(DHR)采用多维动态重构实现执行体的异构和冗余,基于策略裁决的闭环迭代实现系统的动态更新,赋予系统内在安全基因,使其具备天然的主动防御能力。然而,DHR通常需要执行体有较大的异构性以避免共有漏洞而造成的攻击逃逸现象,异构性带来的差异会导致执行体出现因应用程序状态转换不一致、加密输出不一致,导致的输出结果无法裁决的问题。本文针对上述问题,以分布式共识理论为基础,提出了一种隐藏领导者分布式共识算法。该算法采用基于相对时间的程序进程同步方法,解决异构执行体运行状态失步问题;采用密源归一化策略,解决异构执行体数据加密和报文中的随机数差异问题。具体介绍了算法的运行机理,给出了算法流程;最后搭建了验证平台对算法的有效性进行了对比测试。测试结果表明,在复杂进程调度应用中的不同实验场景下,该算法相较于已有的同步方法,可分别提升0.82%和5.65%的进程同步率,并能实现加密数据的正确裁决处理,吞吐量相较基于加密解密的密文裁决方法可提升大约68.38%。
  • 徐冲聪, 周志峰
    录用日期: 2026-01-05
    脊柱侧凸的诊断依赖Cobb角的精确测量,而传统手工测量Cobb角存在主观性强、效率低及一致性差的问题,难以满足临床标准化与高效性需求。本研究提出了一种基于几何约束混合注意力 SwinUNet的脊柱Cobb角自动测量方法(GHA-SwinUNet)。该方法以U-Net为基础架构,引入Swin Transformer模块增强全局结构建模能力,结合混合局部通道注意力(MLCA)提升椎体局部细节感知,并设计几何约束后处理策略解决椎体黏连问题;同时,在Cobb角计算阶段,采用端板直线拟合法规避传统中点法的几何偏差。实验结果表明,该方法在自建脊柱X光数据集上分割性能优异:Dice相似系数(DSC)达0.9483、精确率(Precision)为0.9504、平均交并比(mIoU)为0.9483,较传统U-Net的DSC提升1.11%、较 MA-Net的DSC提升0.27%。同时,在Synapse和AASCE2019公开数据集的跨验证中,模型保持稳定性能(DSC分别为 0.9512、0.9425)。Cobb角自动测量与人工测量的一致性相关系数(ICC)大于0.90,平均绝对偏差(MAD)约为 3°,表明一致性良好。综上,该方法在保证分割与测量精度的同时兼顾效率,且在多源影像上泛化能力强,为脊柱侧凸的定量化评估与临床辅助诊断提供了可靠技术支撑。
  • 兰晨曦, 沈宗亮, 冯建周, 张华
    录用日期: 2025-12-30
    大语言模型具有强大的上下文学习和文本生成能力,在信息检索与简报写作等任务中潜力显著,但在处理对于时效性、真实性以及规范性有较高要求的任务时能力不足,例如在特定领域的格式化文档生成方面仍缺少有效方法。因此需要将智能体技术和模型微调技术两者结合。该文提出了融合大模型智能体架构与大语言模型微调的格式化文档生成方法,通过大模型智能体架构实现实时新闻信息的获取并验证过滤,构建特定领域大模型微调数据集,采用微调技术增强其生成风格规范文本的能力。在不同领域数据集下进行了测试优化与效果验证,实验结果表明该方法在语义相似度、文本相似性等评价指标上性能均优于基线方法。表明该方法可有效强化模型对特定领域的理解与文本生成能力,并为生成文本的时效性与真实性提供可靠保障。
  • 高六龙, 黄正坤, 姜晓巍, 孙功星, 李佳枫
    录用日期: 2025-12-30
    近年来,深度学习在计算机视觉、自然语言处理等应用领域取得了巨大的成功,致使高能物理研究者也开始关注深度学习技术,并探索其在强子喷注标记任务中的应用。最初研究者们将喷注数据转化成图像和序列数据,采用卷积神经网络和循环神经网络对喷注进行标注,但存在计算效率慢和可解释性差的问题。为了解决这些问题,研究人员对网络结构进行了多方面的改进,并在构建的多种喷注标记数据集进行训练,提升了模型分类的性能。本文对新型网络模型的重要模块进行深入分析综述,包括基于集合表示喷注的方法、等变性神经网络的应用以及喷注基础模型的探索。同时,对各种标记分类器进行了分析和比较,评估各种网络结构的性能,并对相关模型现状进行了分析与总结,探讨了深度学习模型在喷注标记任务中的应用前景。
  • 韩振, 于瓅
    录用日期: 2025-12-30
    遥感图像中的小目标检测由于特征表征能力不足、复杂背景干扰以及多尺度变化显著而面临较大挑战,尤其在资源受限的应用环境下,更需要在检测精度与模型复杂度之间实现有效平衡。针对这一问题,提出了一种高效的小目标检测框架——多尺度空间注意力YOLO(MSSA-YOLO)。首先使用自主设计的层次化特征模块(HFBlock),通过动态尺度选择和双轴多尺度卷积机制增强小目标的特征表征能力;其次设计轻量化下采样模块(LDSample),结合高效下采样与残差连接技术,在降低计算量的同时尽可能保留小目标的重要特征信息;最后引入Focal-WIoU损失函数,通过自适应加权和梯度抑制机制优化边界框回归过程,从而进一步提升检测精度。在VEDAI、VisDrone2019和AI-TOD三个公开数据集上的实验结果表明,MSSA-YOLO分别实现了0.754、0.436和0.519的mAP50指标,相较于基线模型YOLOv11s,在参数量减少8.9%的同时,mAP50分别提升7%、4.4%和18.5%。此外,与SP-YOLOv8s和SMN-YOLO等先进检测模型的对比实验显示,MSSA-YOLO在检测精度和模型效率上均取得较为明显的优势。结果表明,该方法不仅适用于小目标检测任务,还在不同尺度目标的检测中表现出较强的泛化能力,能够在资源受限和实时处理场景下提供一种可行的解决方案。
  • 肖翔, 钟永彦, 颜文, 潘文逸
    录用日期: 2025-12-30
    密集行人检测是智慧城市实现人流监测与行为分析的关键环节之一。针对现有模型在小目标检测精度低以及模型参数量大、部署受限等问题,本文提出了一种改进YOLO11的轻量化密集行人检测算法——DRS-YOLO。在YOLO11的颈部网络(Neck)中引入DualConv模块以替换标准卷积结构,增强跨尺度特征融合与空间建模能力,缓解传统卷积在密集场景下上下文信息提取不足的问题,从而在减少计算冗余的同时提升检测精度;设计RSBlock结构,强化语义特征重构与全局信息建模能力,提升模型在复杂遮挡环境下的鲁棒性与泛化性能,并有效减少参数量;构建SASP模块,缓解小目标在下采样过程中的细节丢失现象,强化模型对小目标的聚焦感知与上下文理解能力。实验结果表明,改进算法的Precision、Recall、mAP50和mAP50:95在WiderPerson数据集上分别提升1.8%、2.7%、1.4%、0.6%,在CrowdHuman上提升1.7%、1.7%、1.2%、0.8%,在BDD100K上提升2.1%、1.0%、1.0%、0.5%,同时模型大小下降至4.9MB。将算法部署在以RK3588为核心的嵌入式设备上,单帧图像平均运行时间为61.4ms,mAP50为80.3%,表明该算法在保证轻量化的同时兼顾检测精度与实时性。
  • 陈乐, 肖忠良, 陈佳, 陈理华, 陈晓磊, 王鹏, 汪卫
    录用日期: 2025-12-30
    自然语言转SQL技术旨在降低数据库查询的使用门槛,使非技术人员能够通过自然语言与数据库交互。然而,现有方法面临两大挑战:一是大语言模型在生成复杂SQL时存在能力限制;二是实际生产环境中数据库规模庞大,直接输入完整数据库结构会导致提示词过长,增加计算成本并降低生成准确性。传统基准数据集的简单性与现实场景的复杂度差异进一步加剧了这一问题。为解决上述问题,研究提出了一种基于层次化实体索引的自然语言转SQL方法,其核心是通过优化检索增强生成技术动态筛选与用户查询相关的数据库信息,从而完善提供提示词中的背景知识信息。实验基于开源数据集和生产环境数据验证了方法的有效性。实验结果表明,研究方法的SQL生成准确率仅比Spider榜单上排名第一的未公开方法低0.4,比排名第二的方法高4.2,说明了方法的有效性。未来研究方向包括细化实体划分策略及优化索引架构以支持超大规模数据库实时检索。该研究工作为实际场景下的自然语言转SQL系统提供了高效、可扩展的解决方案。
  • 李翔, 余新胜, 喻卫东, 全水龙, 吴玥, 孟渲哲
    录用日期: 2025-12-30
    为降低应用系统拟态化成本及数据维护复杂度,多业务异构执行体通过拟态数据中间件访问共享数据服务是通用性与性能兼具的最优解决方案。本文基于NETTY开展拟态数据中间件研究,采用“多到一请求;一到多回复”的总体思路,对多个执行体的数据访问请求进行归一化转发,并对数据服务响应进行多路分发回传,通过在请求归一化转发和响应多路分发回传过程中,进行基于多模一致性裁决的安全共识分析,生成安全可信数据进行响应,增强了数据访问的安全性。拟态数据中间件底层采用Java设计,具备跨平台特性,支持MYSQL与MQTT访问协议,为应用系统拟态构造提供了重要的工程设计支撑。
  • 罗广, 孙丽萍, 王赛奇, 王利国, 丁伟
    录用日期: 2025-12-24
    多模态推荐旨在通过引入视觉、文本等多模态内容特征以增强项目表示,能够有效缓解数据稀疏与冷启动问题,并更精准地捕捉用户兴趣偏好。然而,现有方法大多依赖于基于ID嵌入的超图传播机制,未能充分挖掘多模态特征中丰富的语义信息。针对上述问题,提出一种基于语义增强的多模态超图推荐模型。首先,通过构建用户-项目交互视图与项目-项目语义视图,利用图卷积网络分别从行为数据中提取高阶协同信号,以及基于多模态内容挖掘项目间深层语义关系。其次,设计模态感知融合模块动态聚合用户与项目的多模态表示,实现不同模态贡献的平衡。进而构建用户-用户与项目-项目超图,显式建模用户群体兴趣偏好与项目间的高阶语义关系。最后,为增强多模态特征与行为特征间的互信息,引入协同对比学习机制,并设计两类辅助对比任务:模态对齐损失旨在确保ID嵌入与多模态语义的一致性;邻域聚合损失增强交互结构的局部鲁棒性,从而协同实现全局语义对齐与局部结构保持。在Tiktok、Sports和Clothing三个真实数据集上的实验结果表明,所提出的模型在Recall@20指标上相比较基线最优模型分别提升1.32%、5.99%与6.58%,在NDCG@20指标上分别提升5.69%、2.00%与7.61%。
  • 曾博涵, 胡志勇, 张晨, 张兆祥, 许悦雷
    录用日期: 2025-12-24
    母机与靶机的高精度耦合对接技术在协同编队、无人机回收等任务中具有重要的战略价值。传统的手动对接操作方式面临任务难度大、成功率低和可靠性差等问题,而锥套目标的精准识别则是未来智能化耦合对接技术中的关键。现有的针对锥套目标的检测方法大都依赖于锚框、锚点的初始化以及非极大值抑制等后处理步骤,使得算法在机载嵌入式平台上部署时存在效率低,调试成本高且鲁棒性差的困难。基于DETR的检测器尽管具备端到端的检测能力,但存在推理延迟大,对弱小的锥套目标检测效果差的缺陷。本文提出了一种面向嵌入式平台实时锥套目标检测算法Drogue-DETR。该算法通过引入自适应区域选择注意力机制,降低计算复杂度,提升顶层特征提取效率,并设计了频域特征筛选模块,保留小目标边缘特征、抑制背景干扰。此外,构建的提出的多尺度注意力聚合模块深入挖掘上下文信息,进一步提升了检测的鲁棒性。在构建的锥套数据集和VisDrone数据集上的实验结果表明,Drogue-DETR优于现有的主流检测算法,满足嵌入式机载设备的使用要求。
  • 万宇豪, 张欣, 闫逸伦, 王振中, 沈熙, 张亚, 刘杉
    录用日期: 2025-12-24
    在颗粒型中药固体制剂的生产进程中,药品主要以颗粒与粉末形态存在。颗粒粒度作为关键质量指标,对中药的溶解度和利用度有着直接影响,并在后续的制剂成型工艺、产品质量控制以及用药安全保障等环节中发挥着至关重要的作用。针对中药粉体颗粒检测中存在的漏检和精度低的问题,提出一种基于改进YOLOv11和主动学习的中药颗粒智能检测系统。从实时性和计算资源考虑选择YOLOv11作为基准模型,结合空间-深度非跨步卷积(SPD-Conv)和注意力机制,提出跨子块多核注意力(CSMKA),用于替换传统的跨步卷积,增强对小颗粒的特征学习能力。利用改进模型对训练集进行反向评估,基于主动学习思想自动筛选出标注质量存在偏差的样本图像,交由专家进行精细化修正,提升训练集数据质量和模型泛化性能。颗粒检测后采用线性回归方法构建预测颗粒重量占比模型,实现对重量特性的精确评估。结果表明,引入CSMKA模块后,模型在中药颗粒检测任务中性能提升显著,mAP@0.5达到72.8%,比原始YOLOv11提高了3.0百分点;结合主动学习优化后进一步提升至75.0%。颗粒重量占比预测模型的相对误差控制在12.7%。本文构建了一个集成中药粉体颗粒检测、主动学习驱动的数据标注优化和颗粒重量占比预测的综合系统,为中药粉体质量控制提供了高效且可靠的技术支持。
  • 郭亚男, 何超群, 常颖, 张本奎, 贺康健, 曹林
    录用日期: 2025-12-19
    最近,3D Gaussian Splatting(3DGS)技术在新视角合成领域取得了突破性的进展,并广泛应用于医疗等领域。然而,当只有少量视图输入时,由于缺乏有效约束,3DGS易对训练视角过拟合,从而学习到错误的场景几何结构。针对这一挑战,本文提出了一种稀疏条件下基于混合高斯滤波的新视角合成方法(GMMSplat),该方法通过构建基于先验引导的深度正则化与基于细粒度局部裁剪的光度约束,有效校正了场景表示。首先,在训练视角上,根据单目深度的置信度图,利用混合高斯模型(Gaussian Mixture Model, GMM)动态选择阈值,丢弃置信度低于阈值的深度,确保置信度高的深度后续对渲染深度进行约束,从而减少深度误差导致的场景表示的几何坍塌。此外,为了进一步缓解过拟合问题,由训练视角插值得到虚拟视角下的扭曲图像,对扭曲图像实施局部裁剪策略,并根据扭曲图像的质量对中心裁剪区域分配更高的权重,从而有效引导场景外观重建。本方法在LLFF、Mip-NeRF360、ZED2数据集上的测试结果表明,其在关键评价指标上,超越了现有方法的性能水平,能够提升新视角合成图像的质量。其中,在LLFF(1/8分辨率)数据集上PSNR提升3.75%、推理速度提升14.52%、存储体积减小49%。
  • 白亮, 王琨, 王世煜, 韩咏, 陈奥, 齐一搏
    录用日期: 2025-12-19
    为解决工业应用场景中工件表面缺乏纹理信息导致位姿估计精度低的问题,提出了一种基于RGB图像的弱纹理工件位姿估计方法。首先利用基于改进的ResNeXt特征提取网络获取工件的特征信息,通过在卷积块之间使用密集连接减少传递过程中特征信息的损失,引入分组卷积残差块,增强模型对多通道空间特征的感知能力,并在残差连接前加入注意力模块,学习各通道权重以及定位关键区域;然后对位姿估计问题进行转化,通过级联式卷积位姿估计网络获取关键点的像素位置和方向向量场;最后利用透视投影变换算法对工件位姿进行求解。为验证方法有效性,构建包含20种背景、20000张图像的合成数据集,覆盖不同遮挡程度、光照条件与观测距离场景。消融实验表明,所提方法ADD通过率提升27.2%,达到88.5%,参数量为70.1M,推理速度为1.47 F/S。在YCB-Video数据集上,所提方法在ADD(-S)、AUC of ADD-S和AUC of ADD(-S)三项指标分别达到89.2%、95.6%和94.2%;在Linemod Occlusion数据集上平均ADD(-S)指标为88.7%,较DOPE、RePose等主流模型显著提升。实验结果证明所提方法在弱纹理、遮挡及光照变化等复杂环境下具有优越的位姿估计精度与泛化能力。
  • 冯广, 苏旭, 林忆宝, 赵志文, 黄俊辉, 孙相利, 廖贝融
    录用日期: 2025-12-15
    多模态情感分析通过融合语音、文本与视觉模态的协同信息,在提升情绪识别准确性和鲁棒性方面展现出显著优势。 然而,现有方法仍面临三重挑战:其一,缺乏对快慢节奏下多尺度情绪变化的统一建模;其二,难以清晰刻画模态间的语义 主导与从属关系;其三,模型对模态强度与信息价值的动态适配能力仍不足。为此,本文提出一种融合多尺度编码与极性感 知融合机制的多模态情感分析方法:在视觉与音频模态中引入多尺度Mamba编码器(MS-Mamba),并行建模全局与局部时 间粒度;设计极性感知融合模块(Polarity-Aware Fusion, PAF),以语义残差与带符号权重显式刻画跨模态的增强与抑制关系; 并提出全局极性驱动门控机制(Polarity-Driven Gating, PDG),在模态级以显著性–方向性解耦策略实现信息流的自适应调控。 三者协同构成“时序建模–极性对齐–全局门控”的闭环结构。在CMU-MOSI 与 CMU-MOSEI 两个公开数据集上,所提模型的 二分类准确率分别达到86.58%和86.50%,较主流基线平均提升约1.33%;F1分数分别为86.59%和86.26%,较主流基线平均 提升约1.39%。结果表明,该方法在语义对齐、时序建模与自适应融合方面均表现出良好的有效性与鲁棒性。
  • 赵莹莹, 朱率率
    录用日期: 2025-12-15
    武警工程大学密码工程学院,陕西 西安 710086;2. 网络与信息安全保密武警部队重点实验室,陕西 西安 710086) 摘 要:知识图谱作为一种以实体为节点、关系为边的结构化语义知识表示形式,能够精准刻画现实世界中各类事物及其复 杂关联,已成为人工智能、自然语言处理、推荐系统、智能问答等多个领域的核心支撑技术,为机器理解语义和实现认知智 能提供了重要基础。首先,阐述知识图谱的基本概念与体系架构,明确以“实体-关系-属性”三元组为核心的知识表示单元, 并分别剖析自顶向下和自底向上两种构建模式的适用场景与技术特点;其次,重点分析知识图谱构建过程中信息抽取、知识 融合以及知识推理三大核心环节的技术演进,系统梳理了技术发展脉络,并对比不同方法的优势与局限;再次,通过深入剖 析DBpedia 和百度两个典型知识图谱在技术路线选择上的差异,将理论方法与实际知识图谱构建场景相结合;最后,总结当 前知识图谱构建在数据质量、语义一致性、动态演化等方面面临的挑战,并展望未来研究方向,旨在为知识图谱构建的理论 研究与实际应用提供全面参考,推动该领域技术的进一步发展。
  • 黄佳慧, 徐明
    录用日期: 2025-12-15
    联邦学习作为一种无需集中原始数据的分布式学习方式,在水下自主航行器群体协同感知与决策中展现出重要潜力。然而,水下通信环境的挑战,如剧烈的水声信道衰落和有限的通信带宽,使得传统联邦学习在水下场景中面临聚合精度降低和能量开销过大的问题,难以满足长期任务和电池供电设备的需求。为此,本文提出一种智能反射面辅助的水下联邦学习联合优化框架(IRS-JOFL),该方案通过引入IRS和空中计算机制,增强上行链路质量并提升梯度聚合效率,同时联合优化设备选择与功率控制策略,既能保证模型精度,又能显著降低通信能耗。实验结果表明,在Fashion-MNIST数据集上,IRS-JOFL的准确率为86.73%,相比传统 FedAvg和未引入IRS的Air-FL方案精度提升约5.4%和3.6%,同时总能耗降低约16.3%和14.1%。在Fish数据集上,所提方案的最终Top-1精度约为86.6%,并在达到80%精度阈值时保持最低能耗。
  • 李辉, 刘佳煜, 徐雅萍
    录用日期: 2025-12-15
    医学图像分割在多模态成像数据中实现病灶或结构的像素级定位,是支撑辅助诊断与临床决策的关键任务。针对医学图像分割网络架构快速演化与评价指标存在的语义歧义、统计不稳等局限,本文旨在系统梳理网络结构、任务特征和评价指标三者间的适配关系,揭示方法发展路径与性能边界,构建面向实际应用需求的结构—指标匹配机制。基于2020—2025年Web of Science核心数据库的代表性文献,本文首先梳理 Transformer、图神经网络、扩散模型等主干架构的设计机制与演化路径,再总结轻量化、混合结构及提示引导范式的关键特征。其次,结合公开数据集实证研究,对不同网络结构在器官、肿瘤与脑组织等典型任务中的分割性能进行定量对比,涵盖DSC、HD95等常用指标,识别出HD95在边界复杂任务中波动较大,DSC对小目标敏感性不足,IoU在结构区分方面存在局限等问题。本文进一步揭示了指标误用与任务特征不匹配的统计根源,构建了任务结构–指标推荐映射,提出基于任务粒度的指标选择策略,并探讨动态网络、自监督学习与跨模态建模等方向对模型泛化能力的潜在促进作用。
  • 郑乐宇, 李克, 任毅, 张磊
    录用日期: 2025-12-12
    进化算法在求解约束多目标优化问题(CMOP)时展现出优越能力。但对于不同类型问题尤其是无约束帕累托前沿(UPF)与约束帕累托前沿(CPF)不相交且边界较远时,进化过程通常缺乏有效的差异化引导,且种群间知识转移时引入的消极个体和多样性的可行解缺失都会阻碍任务种群收敛,影响整体优化性能。为此,本文根据帕累托前沿特征重新划分了CMOP问题类型并提出了一种问题类型引导的动态知识转移协同进化算法(DKTCEA),包括独立探索和协同演化两个阶段。在独立探索阶段,主任务利用辅助任务先验知识跨过不可行区域,判断问题类型并设计了差异化进化策略为下一阶段引导种群进化做好准备。在协同演化阶段,辅助任务引入改进的ε约束处理机制提高解的可行性,并通过改进的知识转移策略从源任务确定转移到目标任务的个体,减少消极个体解的转移,提高优化种群质量并增强主任务种群的全局收敛能力。与5种最新的约束多目标优化算法相比,DKTCEA在MW和 DOC 测试集共23个问题中在逆世代距离(IGD)和超体积(HV)上分别取得14与11个最优结果,表明其所采用的进化策略和知识转移策略在解决CMOP问题上的优势,消融实验也进一步验证了各个策略的有效性。
  • 汤娜, 李昊, 李晶晶, 陈玮琪, 汤庸
    录用日期: 2025-12-12
    随着移动终端定位技术发展,轨迹数据规模剧增,海量轨迹数据存储与快速查询成研究热点。分布式框架能提供高效数据处理能力。本文首先提出了局部轨迹索引TRindex,该索引很好地保持了时间和空间数据的近邻性,支持时空查询。TRindex中设计了多层范围圆映射方法,将空间最小边界矩形(MBR)映射到一维轴上,建立了轨迹到范围圆圆心的距离的序,并根据这个序建立了空间范围树。该设计保证了空间的邻近性,为范围查询提供空间临近性;同时又形成了轨迹到参考点距离的有序关系,能实现K近邻查询的有效剪枝并能有效地减少了K近邻查询重复计算的问题。最后基于TRindex本文构建了分布式轨迹索引DTRindex,主要分为数据分区、局部索引、全局索引三部分。全局索引为改进的R*-tree,并针对每个节点设置布隆过滤器,有效地提高了查询的效率。DTRindex索引能同时有效地支持三种时空查询算法:时空范围查询、K近邻查询和移动对象轨迹查询。最后,选取了同样基于Hadoop框架的分布式轨迹索引HadoopTrajectory、单机式索引PM-tree和基于NoSQL数据库的分布式轨迹索引TMan作为实验对照对象.通过实验对比,证实了DTRindex在多项性能上表现优异:在时空范围查询效率上,相较于HadoopTrajectory、PM-tree和TMan,DTRindex分别平均提升了约57%、74%和25%;在K近邻查询上,性能平均提升了40%、48%和20%;在移动对象轨迹查询上,效率提升了50%、53%和30%。此外,消融实验验证了各核心模块的有效性,空间范围树层贡献最大,使得整体平均性能提升2.5倍,时序索引层贡献次之,平均性能提升1.2倍,移动对象双链表使得平均性能提升约90%,在移动对象轨迹查询中贡献最大,效率提升将近4倍。
  • 黄杰, 唐建航 , 章阳 , 杜罗乐, 冯毅雄
    录用日期: 2025-12-12
    工业5.0环境下智能电网拥有丰富的电力基础设施,智能电网负载检测设备种类繁多且分布广泛,使得边缘负载检测设备收集到的用户负载数据具有很强的异构性,使用分布式联邦学习进行较大模型的负载训练容易出现模型收敛不稳定的问题。针对该问题,提出了面向智能电网的分割联邦学习模型高效训练方法,该方法将神经网络模型训练应用在变电站到用户区域,通过分割层把电力负载预测这类全局模型分为顶层模型和底层模型。服务器先收集负载检测设备资源信息,再使用负载预测模型新鲜度指标定义的优先级来选择负载检测设备训练集合,并为异构负载检测设备分配合适的批量以进行底层模型训练。服务器通过合并训练集中的异构负载检测设备特征,得到较大的混合特征序列,减小设备异构性对训练数据的影响,提高模型准确性。使用KL散度来衡量训练集分布差异,通过微调批量大小减小分布差异。基于公开电力负载曲线图数据集,对比了三种基线方法,在非独立同分布数据下该方法的精确度比基线方法最高提高了3.6%、11.7%和12.9%。
  • 谌海云, 邓洲垚, 向浩睿
    录用日期: 2025-12-12
    航拍图像中的小目标检测面临着目标尺寸小、背景复杂、多尺度变化等挑战,现有检测算法在特征提取、多尺度融合和小目标感知方面存在不足,针对上述问题,研究提出一种基于改进RT-DETR的航拍小目标检测算法MA-DETR。首先,在主干网络中设计双重自适应感知网络DAPN,通过空间尺度分离模块和双重自适应池化机制,增强网络对不同尺度目标的感知能力。其次,设计自适应多尺度特征融合网络AMSFN,通过多模块协同架构,构建双向多路径特征传递机制,提升小目标特征的表达能力。并且提出基于自适应小波卷积AWC的小目标检测层,通过小波卷积和遥感锚定注意力的串行设计,在频域和空域双重增强小目标特征。最后,设计CF-CGDL损失函数,融合核心聚焦机制与角点几何距离损失,改善边界框回归精度。在VisDrone2019数据集上的实验结果表明,改进算法的mAP@50达到了43.5%,较基准模型提升了6.4%,参数量减少1.1×106,泛化实验结果显示,在DOTA v1.0和RSOD数据集上的mAP@50也分别达到了71.8%和95.5%,较基准模型提高了3.1%和7.1%,验证了该方法的有效性和鲁棒性。
  • 李潞洋, 闫锦龙, 方泽儒, 金旗旗, 薛红新
    录用日期: 2025-12-12
    在点云三维目标检测任务中,点云数据的稀疏性客观上对小目标检测构成显著挑战。具体表现为:小目标自身有效点数稀少导致结构信息缺失与边界模糊;上下文感知能力不足阻碍模型有效利用周围环境信息进行空间推理与语义补全,进而引发定位偏差;以及其固有的空间定位困难、通道表达弱和特征易被背景淹没等问题,共同制约了检测性能的提升。为缓解上述问题对检测精度造成的影响,本文提出一种融合动态特征提取与特征增强映射的动态感知三维检测算法。该模型聚焦特征提取与候选框生成两大关键阶段对小目标检测进行优化。具体而言:首先,引入动态点特征预测网络,通过自适应预测补充采样点以强化对小目标的结构感知能力;其次,构建特征增强映射网络,对原始特征及动态预测网络生成的特征进行深度融合,输出富含上下文信息的二维特征图,有效弥补上下文缺失并提升小目标的定位精度;最后,设计点云特征增强网络,在通道与空间双维度提升网络对小目标关键区域的聚焦能力。基于nuScenes数据集的实验结果表明,所提算法性能优于当前主流目标检测算法。与基准模型CenterPoint相比,平均精度(mAP)由56.1%提升至59.4%;标准化检测分数(NDS)由64.4%提升至67.4%。
  • 黄正婷, 陈学信, 林智勇, 蔡瑞初
    录用日期: 2025-12-12
    合成致死(SL)相互作用的预测在抗癌药物研发中具有重要的应用前景。然而,现有可解释SL预测方法大多为每个基因对生成固定数量的解释子图,难以充分反映SL机制固有的多样性。本文提出 DiSE4SL 模型,通过将解释子图的生成过程建模为函数空间上的随机过程,以解决解释模式数量自适应这一关键问题。该模型基于神经过程框架,首先利用基础SL预测器获取基因对的预测得分和节点嵌入,然后通过上下文编码器将结构特征与预测语义融合为统一向量表示,进而参数化高斯混合模型(GMM)的条件后验分布,将不同解释模式映射至不同高斯分量。在模型训练过程中,本文采用Gumbel-Softmax机制采样潜变量,通过模式感知的注意力权重对局部子图进行稀疏化以生成解释子图,同时引入对比损失与Lipschitz约束,促进各分量学习具有区分性且平滑的解释模式。最终,通过对潜变量采样并进行无预设簇数的聚类,DiSE4SL 能够自适应地为每个基因对提取多个解释子图。在基准数据集上的实验表明,DiSE4SL 在不牺牲预测精度的前提下达到了与最强基线相当的预测性能(AUPR 0.9337),同时在解释的多样性和忠诚性分别较次优方法提高了29.1%和9.5%,验证了该方法的有效性。
  • 任海梦, 于红绯, 艾鑫
    录用日期: 2025-12-10
    针对现有轨迹预测模型特征交互深度不足以及长时序建模能力薄弱的问题,提出了一种基于粗细粒度特征交互与长短期记忆增强的车辆轨迹预测模型。该模型以实现场景粗粒度与细粒度特征的交互式增强为目标,深度整合了双重视角固有优势,从场景中心视角提取道路结构、车流分布等粗粒度特征,构建宏观运动框架;从智能体中心视角提取目标车辆与周边智能体的相对运动、局部交互关系等细粒度特征,刻画微观行为细节。通过细粒度特征对粗粒度特征的动态约束与深度交互,有效改善特征交互深度不足的问题,实现多模态预测轨迹端点位置的精准细化。同时,为有效缓解长时序建模能力薄弱的问题,设计了含双记忆单元的长短期记忆增强模块,以捕捉长距离时序依赖特征,并通过特征加权与轨迹端点修正策略,有效增强模型对长时序轨迹的预测能力。实验结果表明,相较于主流轨迹预测模型,所提方法在关键指标上均有显著提升,在Argoverse 1数据集上,概率最小最终位移误差、最小最终位移误差和最小平均位移误差指标分别平均提升4.4%、5.4%、4.9%,在Argoverse 2数据集上,对应指标分别平均提升5.1%、6.3%、5.8%。这一结果不仅证明了所提模型在轨迹预测准确性上的提升,更验证了其在不同数据分布场景下的泛化有效性。
  • 王发堂, 宋燃, 黄于欣, 相艳
    录用日期: 2025-12-10
    多模态实体对齐(MMEA)旨在综合结构、文本与图像等多种模态信息,从不同的多模态知识图谱中识别出表示同一现实世界实体的节点。现有方法在融合多模态特征时,往往忽略了不同图谱中实体的属性类型不一致,导致实体表征偏离,影响对齐效果。为此,本文提出基于属性筛选增强与多轮指令推理的多模态实体对齐方法。该方法包括三个核心模块:首先,通过融合多模态信息并计算实体间相似度,从而获取候选实体序列;其次,在实体信息处理部分,通过属性筛选增强机制,选取图谱间语义相似的实体属性类型,从而缓解属性描述差异与冗余信息带来的干扰;最后,将对齐任务建模为多项选择问题,结合筛选后的实体属性与实体的自然语言描述来构建指令,对大语言模型进行微调;并在推理时引入多轮推理策略,将大规模候选实体划分为子序列,增强模型辨别子序列实体间语义差异的能力,从而提升最终对齐的推理准确性。在多个公开数据集FB-DB15K、FB-YAGO15K、EN-FR-15K V2、EN-DE-15K V2上的实验结果表明,本文方法相比基线方法的实体对齐性能均有提升。具体而言,在FB-DB15K、EN-FR-15K V2和EN-DE-15K V2上,本文方法的MRR指标相比次优模型分别取得了2%、1%和0.2%的绝对提升。特别是在FB-YAGO15K数据集中,本文方法的MRR和Hits@1相比次优模型MCCEA分别提升了9.1%和7.8%,取得了明显的优势。
  • 韩松, 车畅畅, 王贺龙
    录用日期: 2025-12-10
    随着自动驾驶技术的快速发展,精确的轨迹预测已成为安全驾驶的关键。鉴于此,提出一种基于LSTM-Informer多模态对抗学习的车辆驾驶意图与轨迹融合预测模型(AMLI-DIR)。该模型采用分层架构,在意图识别层,通过构建GATv2-BiLSTM网络提取目标车与周围车的空间及时序特征,并引入时空交叉注意力机制融合时空特征,从而实现驾驶意图的精准识别。在轨迹预测层,针对直行与换道场景分别构建独立的轨迹预测模型,同时利用多准则生成器生成精准的预测轨迹。在预测阶段,ALMI-DIR模型首先筛选出概率最大的意图类型,随后调用对应意图的轨迹预测模型,实现针对不同意图的精准轨迹预测。使用基于真实路况信息的NGSIM与CQSkyEyeX数据集对模型进行训练、验证与测试。实验结果表明,AMLI-DIR模型在各项评估指标上均优于其它对比模型,尤其是在长时预测阶段(3s)其均方根误差最低,仅为1.05m,较表现次优的STEI模型降低约22.2%。此外该模型的RMSE从1s到3s仅增加0.26m,误差增长率远低于其它模型,进一步验证了模型在轨迹预测任务中的有效性与优越性。
  • 陈灵强, 胡海峰, 张索非
    录用日期: 2025-12-09
    针对小规模语言模型在自动工作流生成中存在的单轮生成质量受限和搜索效率低下问题,提出一种基于蒙特卡洛树搜索和自反馈优化的工作流生成方法WGM-MCTSR(Workflow Generation Method based on Monte Carlo Tree Search and Self-Refine)。该方法通过两个核心机制提升工作流生成性能:一是设计工作流自反馈优化机制,采用生成-评估-重构的多轮迭代循环,利用反馈评估信息对工作流进行结构重构或修正,补偿小规模语言模型推理能力的不足;二是改进蒙特卡洛树搜索算法的选择和回溯阶段,引入上限置信区间(UCT)选择策略替代传统软混合选择概率,并通过子节点得分反向传播机制动态调整父节点被选概率,优化搜索方向。在GSM8K、MATH、DROP、HotpotQA、HumanEval和MBPP六个数据集上的实验表明,该方法在数学推理任务中解决率分别达到70.11%和23.45%,在问答任务中F1分数达到54.87%和52.47%,在代码生成任务中通过率达到81.83%和58.82%。与现有工作流生成方法相比,该方法在GSM8K上性能提升5.4%,在MATH上提升9.6%,在各类任务上均取得最优结果,验证了改进机制在提升小规模语言模型工作流生成效率和质量方面的有效性。
  • 李倩, 刘鹏, 姚廉, 武继刚
    录用日期: 2025-12-08
    忆阻交叉阵列作为存内计算架构的核心硬件载体,可在O(1)时间复杂度内实现矩阵运算。然而,受器件有限位宽的限制,现有方法往往需要配置大量存储单元来表示数值,导致硬件资源消耗增加,高精度与高能效难以兼得。针对这一关键问题,提出一种基于阵列感知的混合精度量化方法。该方法首先结合K-means聚类对输出通道进行重排优化,以提升子层内权重分布的一致性从而降低量化误差,提高量化后模型精度;在此基础上,依据忆阻阵列的物理约束划分子层,使子层的输出通道数与阵列并行处理能力相匹配,减少反量化操作数,降低计算复杂度。同时,引入阵列感知正则化项,将子层所需阵列数量与组Lasso正则化相结合,动态诱导权重的位级稀疏性,在压缩位宽的同时降低硬件资源开销。在不同网络(ResNet/VGG)上的实验结果表明,该方法将网络模型量化至1.3位时精度损失控制在0.2%的同时,降低约74%的硬件面积开销。与现有量化方案相比,所提出的方法在极低位宽下实现了精度与硬件资源的协同优化。
  • 赵培源, 龚晓亮
    录用日期: 2025-12-04
    针对现有康复机器人仿真研究中生物力学特性与机器人控制策略失配、人机耦合仿真自动化不足等问题,本研究创新性地整合了机器人运动学分析、训练轨迹规划设计以及肌肉骨骼模型生物力学特征,构建了一种基于OpenSim和MATLAB的上肢康复机器人人机联合仿真系统,并提出了一套自动化人机耦合仿真流程。系统实现了对匹配完成模型的同步关节角度调节与运动播放可视化展示。在机器人仿真层中,提供了正向运动学、逆向运动学的计算,并针对不同应用场景提供了四种轨迹规划算法,计算结果经格式转换后传递至生物力学仿真层。在生物力学仿真层中,结合残差缩减与计算肌肉控制补偿未建模外力(即间接补偿机器人外力数据误差)并优化肌肉激活度求解,同时支持对仿真计算结果中的肌肉激活程度、肌肉纤维长度等生物信息进行可视化展示,帮助康复医师更加精准地判断患者的康复效果。实验验证证明,与传统人工处理方法相比,RSVH系统将仿真准备时间减少约40%,并且简化了跨平台仿真操作的复杂度。更得益于其多任务并行执行能力,RSVH系统在仿真效率与自动化程度上显著优于单任务处理模式的现有系统。
  • 崔浩然, 全婷, 陈茂伟, 戴荣
    录用日期: 2025-12-04
    在计算流体力学问题求解过程中,使用AMG算法能够有效提高求解速度。作为目前最常用的CFD开源软件,OpenFOAM中采用了基于LDU矩阵格式的GAMG算法,在CPU上实现了流场求解加速。近年来CPU+GPU的异构并行计算系统蓬勃发展,国产GPGPU也取得了突破,实现了国产化替代。面向上述异构计算系统,广泛开展了CFD中的GPU加速算法研究,在国产平台上实现对OpenFOAM中GAMG算法的异构并行化设计,能够充分发挥国产算力性能,大幅度提高流场仿真效率。面向CPU+国产GPGPU加速卡的异构计算平台,设计并实现了一种针对LDU矩阵格式的GAMG并行加速方法,充分利用了GPU多线程的并行优势,实现了GAMG全部算法组件在GPU上的并行优化。最后通过对3D顶盖驱动方腔流和motorBike绕流算例的基准测试,在不同算例规模下对异构平台上的GAMG进行正确性验证和性能测试。经实验表明,所提出的算法在计算精度方面和原版本保持一致,基于Jacobi平滑器配置的GAMG异构算法相较于基于Gauss-Seidel平滑器配置的CPU串行方式实现了10-27倍的加速效果。性能分析表明耗时占比较大的限制算子和光滑算子的计算速度得到显著提高。实验结果验证了该GAMG并行求解框架在国产异构平台上的有效性和计算潜力,为CFD求解器在国产GPGPU平台上的异构并行化与工程应用提供了可行路径与技术基础。
  • 王豪, 秦进, 杨昌好
    录用日期: 2025-12-03
    蚁群优化(ACO)算法被广泛应用于求解组合优化问题时,好的启发信息有助于快速收敛到高质量的解。现有神经蚁群优化算法,如深度蚁群优化(DeepACO)和生成流蚁群采样器(GFACS)利用深度强化学习自动化设计启发信息,显著提高了现有ACO算法的求解质量。然而,现有神经蚁群优化算法仅基于问题实例的静态特征生成启发信息,未考虑每只蚂蚁的部分解时序特征。这导致启发信息难以有效引导不同蚂蚁基于探索进程进行差异化搜索,丧失多样性。同时,现有神经蚁群优化算法采用图神经网络(GNN)聚合信息时,仅聚合节点特征,未考虑将边特征与节点特征融合后再聚合,导致GNN聚合的信息不够充分。为此,融合时序特征与边特征的神经蚁群优化(TEF-NACO)算法被提出。TEF-NACO算法通过循环神经网络(RNN)提取每只蚂蚁的时序特征,再与全局图结构信息融合。并且,在GNN的节点信息聚合阶段,充分考虑节点特征与边特征,以提升GNN的信息捕捉能力。同时,为损失函数添加基于边注意力的正则项以提高训练的稳定性。实验表明,TEF-NACO算法在24个组合优化任务中的最佳表现的数量超过ACO、DeepACO和GFACS的百分比分别为100%、87.5%和75%,平均精度提升分别为21.5%、3.4%和3.2%。
  • 伍清波, 武友新, 于程远
    录用日期: 2025-12-03
    三维高斯溅射(3DGS)在新视图合成与高精度场景重建中表现卓越,然而,其过高的模型存储开销严重限制了实际应用。为此,提出了一种轻量化压缩方法,以降低3DGS模型存储开销并提升渲染效率。首先,引入基于局部颜色差异与冗余度的重要性评分度量方法,以识别并剔除冗余高斯基元;此外,提出一种融合高斯滤波与下采样的抗混叠渐进式训练策略,以提高训练的稳定性与效率;在此基础上,针对高斯基元的不同属性,采用混合量化方案以进一步提高压缩比;最后,结合Morton编码与残差编码对高斯基元的坐标属性进行压缩,进一步减少模型体积。为验证方法有效性,模型在多个真实数据集上与多种现有压缩模型进行了对比实验,结果表明,所提方法在保持与Reduced-3DGS相当渲染质量的同时,模型体积相较于原始3DGS降低97.8%,相较于Reduced-3DGS进一步压缩38.8%,同时提升了训练与渲染效率,相较于现有的其他压缩模型均具有显著优势。模型实现了压缩率与渲染质量之间的良好平衡,为推进3DGS在三维场景重建中的实际应用提供了有效解决方案。
  • 吕王靖, 戚兆波, 刘心岩, 张北辰, 张维刚
    录用日期: 2025-12-02
    长时动作预测作为计算机视觉领域的重要任务之一,旨在基于第一人称视角视频,预测视频主体在未来长时序范围内可能执行的动作序列。该任务的挑战在于未来行为具有不确定性,视频中的行动者在相同情境下可能遵循多种合理的行动轨迹,而数据集中的视频样本往往只涉及其中一种,限制了模型对多样性的学习。此外,模型输入的视频片段较短,而需预测较长的未来过程,观测信息不足与推理跨度较大的矛盾进一步加剧了预测难度。为缓解上述挑战,提出了一种名为引导协同网络的预测框架,该框架基于大小模型协同的机制,由小模型预测模块和大模型辅助模块构成,两个模块分别承担预测建模与预测空间约束的功能。小模型由视觉编码器、 提取器以及动作预测器组成,依次对输入视频进行编码、视觉辅助信息提取,并生成未来动作的预测分布。视觉辅助信息提取器通过融合手部线索与物体区域特征,引入交叉注意力机制,建模手部和物体的交互关系。大模型辅助模块基于大型语言模型,识别当前场景中出现可能性较低的物体名词,并将其用于约束小模型的预测器,通过对预测空间中不合理选项进行屏蔽,有效提升预测的准确性与合理性。此外,对损失函数进行了优化,设计名词时序平滑损失,约束预测名词的分布,使其在时序上具有连贯性。在Ego4D和50Salads数据集上进行验证评估。实验结果表明,在Ego4D数据集上与基线模型相比引导协同网络在名词的预测上取得了8.9%的改进,在动词上取得4.2%的改进。
  • 励皓轩, 张志远, 刘芮, 许沛华, 田昕
    录用日期: 2025-11-27
    高分辨率的气象数据对于本地和区域尺度的生产生活有重要意义,而基于深度学习的降尺度技术能有效弥合现有气象低分辨率数据与应用需求间的鸿沟。目前深度学习气象降尺度方法常受限于固定整数缩放因子,导致多倍率场景下训练成本高。并且,现有方法在气象数据中仍存在高频细节预测不准、结果模糊的问题。针对上述问题,研究提出一种融合隐式神经表达和自适应特征编码的深度学习超分辨率网络,用于任意倍率气象降尺度。其核心动态像素特征聚合模块利用可学习调制器动态调整特征提取过程,使像素特征能自适应不同缩放因子;图像级隐式表达模块则通过注意力机制融合坐标线性差异与邻域非线性特征,实现连续域像素值预测。结合高阶退化训练策略,在ECMWF HRES和ERA5数据集上的实验表明,同固定倍率方法相比,该方法在×2倍率下的PSNR指标可高出至少0.7 dB;而同任意倍率方法相比,该方法在×2倍率下的PSNR指标可高出至少0.48 dB。这些结果说明该方法优于现有经典方法,为气象数据应用提供了更加灵活高效的解决方案。
  • 宋呈群, 张可, 杨梦杰, 程俊
    录用日期: 2025-11-26
    针对大型设施与复杂场所安全监控中人工巡逻效率低、存在安全风险等问题,本文旨在在保证全域覆盖的同时优先关注高风险区域,并提升路径规划的效率与稳健性。为此提出风险导向的智能巡逻策略:将巡逻任务建模为“全面巡逻+单次巡逻”的组合;基于高斯混合模型构建静态/动态风险热图以评估优先级;设计基于双曲正切权重的目标点更新方法,抑制目标过度聚集,实现风险与空间分布的均衡。在路径生成方面,提出多目标点快速扩展随机树算法,包括多目标点可行路径规划与信息子集优化:多目标点可行路径规划估计任意两点间可行代价,并结合蚁群优化确定访问顺序,拼接得到贯穿所有目标点的单条可行路径;信息子集优化在以起终点为焦点、由当前最优代价确定主轴的椭圆信息子集内采样,并结合改进的快速扩展随机树重连对该路径进行迭代精炼,输出更短、更光滑的优化路径。仿真结果表明,相较于以欧氏距离为成本的基线方法,所提方法显著缩短最终路径长度,在迭代受限条件下具有更高的求解成功率与更快的收敛速度;系统能够实现全区域覆盖,并对高风险区域分配更高的巡逻频率,适用于工业厂房、危险品仓储与大型公共建筑等场景。
  • 张珑耀, 温东新, 马庄宇, 舒燕君, 李庆, 刘明义, 左德承
    录用日期: 2025-11-26
    基于大语言模型的多智能体系统虽在处理复杂任务方面展现巨大潜力,但其分布式特性与交互不确定性易引发多样化异常,威胁系统可靠性。为系统化识别并分类此种异常,本研究进行全面综述。研究选取七个代表性多智能体系统及相应数据集,收集13,418段运行轨迹,采用LLM初步分析与专家人工校验相结合的方法进行数据分析。研究构建了一个涵盖模型理解感知异常、智能体交互异常、任务执行异常和外部环境异常四个层级的细粒度异常分类框架,并结合典型案例揭示了各类异常产生的内在逻辑与外部诱因。统计分析显示,模型理解感知异常占比最高,其中“上下文幻觉”和“任务指令误解”是主要问题;智能体交互异常占16.8%,“信息隐瞒”是主因;任务执行异常占27.1%,主要表现为“决策重复出错”;外部环境异常占18.3%,以“记忆冲突”为主。此外,模型理解感知异常常作为根源性诱因,引发其他层级的异常,凸显了提升模型基础能力的重要性。此分类和根源分析旨在为构建高可靠的基于大语言模型的多智能体系统提供理论支撑与实践参考。
  • 王雯, 杨奎武, 仝松松, 魏江宏, 薛岩, 周荣魁
    录用日期: 2025-11-26
    模型知识产权保护已成为模型安全中不可忽视的问题,水印技术作为模型溯源的核心手段,通过将特殊标识嵌入模型参数或生成内容中,为版权验证提供技术支撑。然而,训练完成的含水印模型非常容易被复制并扩散,这使得攻击者能够通过微调、剪枝或对抗样本攻击等特定技术手段,破坏或去除DNN模型中嵌入的水印,使得模型所有权无法验证。为了更深入地了解模型水印攻击方法,首先对模型水印攻击进行介绍,其次对模型水印攻击方法进行分类,根据攻击者对目标模型的访问权限和信息获取能力,分为白盒水印攻击和黑盒水印攻击两类,对DNN模型水印攻击的动因、危害、攻击原理和具体实施手段梳理和分析,同时对现有模型水印攻击研究从攻击者能力以及性能影响等方面进行比较与总结。最后,进一步探讨了神经网络模型水印攻击在未来研究中的潜在积极作用,为模型安全和知识产权保护领域的深入研究提供建议。
  • 张俊娜, 王泓尊, 丁春涛
    录用日期: 2025-11-25
    后训练量化(Post-Training Quantization, PTQ)是一种高效的模型压缩方法,它无需重新训练模型,只需少量(或无需)无标签校准数据即可将高精度浮点模型的参数转换为低比特整数表示。该方法在显著降低存储与计算开销的同时,能够最大限度地保留原始模型的推理精度,因而受到学术界与工业界的广泛关注。本文从PTQ的量化步骤、方法分类、工具生态和应用进展四个维度,系统总结了PTQ的研究进展。首先,构建了清晰的量化流程框架,涵盖动态范围统计、量化参数计算、权重与激活量化、误差优化和模型生成等步骤;其次,提出了一个完整的量化方法分类体系,从量化粒度、位宽、校准方法到结构导向量化;再次,分析了支持PTQ规模化应用的工具生态,探讨了其在硬件适配和工程部署中的应用价值;最后,总结了PTQ方法的融合与应用进展,并指出PTQ方法在实践中面临的挑战,尤其是跨模态一致性、极低比特语义崩塌与硬件适配等难题。这些实践挑战的总结不仅揭示了当前技术的局限性,也为未来研究提供了重要方向。本综述为学术界与工业界提供了PTQ方法的参考框架,助力推动人工智能在资源受限场景中的广泛应用。
  • 张可, 陈嘉豪
    录用日期: 2025-11-21
    多跳图卷积网络(Multi-Hop GCN)在缓解过压缩问题上具有一定成效,然而多跳传播设计在信息聚合过程中存在一定的参数化信息压缩损失以及对局部拓扑结构敏感,导致该类模型进行节点分类任务时难以达到理想的预测效果。针对上述问题,本文从多跳图卷积模型的层内与层间两个角度出发,采用基于预测传播解耦的解耦式技术和知识跳跃模块对上述问题进行优化,从而构建一种新型多跳图卷积网络——知识-半解耦式多跳网络DrJK-Net。首先,提出一种保留激活函数的半解耦式技术简化多跳传播层内结构,通过去除隐藏层中的线性层,减少多跳传播过程中特征变化次数,降低参数化的信息压缩损失;然后,在传播层间添加知识跳跃连接,通过连接所有隐藏层嵌入,提高模型对隐藏层嵌入的自适应选择能力,降低对局部拓扑结构的敏感度;紧接着,将多跳图卷积骨架与简化层内信息传播的半解耦式技术、建立层间信息通道的知识跳跃连接模块结合,提出参数化信息压损损失更低、对局部拓扑结构适应性更强的模型框架DrJK-Net。最后,在Citeseer、CoraFull与Actor等多个公开论文网络以及社交网络数据集上进行了对比实验与消融实验,对比实验结果表明DrJK-Net在节点分类准确性上超过多数前沿模型且运行速度优势明显,而消融实验结果进一步验证了提出的半解耦式技术与引入的知识跳跃连接机制的有效性,为多跳图卷积网络的发展提供了新的思路与方法。
  • 钮 焱, 孙 杨, 李 军
    录用日期: 2025-11-21
    多模态情感识别旨在理解复杂的人类情感表达,现有方法在处理情感表达的细微差别和模态间复杂交互时,普遍面临准确性和鲁棒性不足的挑战。具体而言,传统语音特征提取方法难以全面捕捉跨越多时间尺度的情感信息,且现有融合策略在整合互补信息与处理模态间复杂关联方面效率有限,同时,类别不平衡和边界样本问题也常导致模型性能下降。针对上述问题,本文提出了一种面向语音和面部图像的多模态情感识别新方法。该方法首先在语音特征提取阶段引入多尺度注意力机制,替代传统多层感知机,能够自适应地聚焦并捕获从微观音素变化到宏观韵律模式的情感特征,实现了更全面的情感信息提取;其次,设计了自适应多专家协调决策架构,通过专家网络和自适应多模态专家协调网络,高效整合不同模态的互补信息并处理模态间的复杂交互;最后,提出了边界交叉熵损失函数,结合交叉熵与合页损失的优势,以增强模型对边界样本和类别不平衡问题的处理能力。在RAVDESS数据集上的实验表明,该方法准确率达到了89.8%,相较于基线模型提升3.1个百分点,验证了模型改进的有效性。
  • 郭伟, 孟巧巧, 金海波, 田聪聪
    录用日期: 2025-11-20
    业质检领域,钢表面缺陷检测普遍存在目标特征融合不足、边缘细微缺陷漏检及样本分类不均衡等问题,为此提出一种多尺度交互与动态协同的钢表面缺陷检测算法。在主干网络中,通过融合移位稀疏卷积和倒置残差结构,强化不同感受野下缺陷特征的交互融合,提升多尺度缺陷的特征表达能力;引入大分离核注意力机制,动态增强对细微缺陷区域的特征响应,降低裂纹、夹杂的漏检率;在颈部网络中,结合DySample动态上采样策略,实现基于缺陷内容的动态上采样,在提高小目标缺陷轮廓清晰度的同时减少计算冗余,适配边缘设备部署;此外,设计融合指数移动平均与滑动阈值机制的EMASlideLoss损失函数,动态平衡难易样本的学习权重,改善缺陷样本分布不均导致的检测偏差。在NEU-DET数据集上的实验表明,该算法平均精度均值mAP50%达到84.4%,相比于原始YOLO11n提升5.8%,精确率和召回率分别提升5.2%、4.8%的同时计算量下降8%。该算法在优化计算效率的同时提高了检测精度,更能满足工业场景下的检测需求。
  • 刘颖, 张润宇, 杨朝树
    录用日期: 2025-11-20
    日志结构合并树(Log-Structured Merge tree,LSM-tree)被广泛用于键值存储系统,凭借顺序写入机制实现高效的写入性能,但同时也带来了读写放大率高、合并任务开销大及数据冗余等问题。传统优化方案通过调整树结构、优化合并策略以及采用键值分离机制等方式提升系统性能。然而,在大数据时代,数据规模急剧飙升,LSM-tree 需要处理更频繁的写入与合并任务,导致 CPU 计算资源持续紧张,逐渐成为系统性能提升的瓶颈。此外,传统优化方案未能避免主机与存储设备间大量的I/O操作,仍面临高昂的冗余数据迁移开销。计算存储技术为应对上述挑战带来了新思路。该技术在存储层部署额外算力资源,通过任务卸载减轻CPU负担,或进一步通过近数据处理降低数据迁移带来的性能损耗。本文聚焦于基于计算存储技术的LSM-tree优化研究。首先,对计算存储技术架构进行梳理。然后,针对大数据背景下系统面临的主要瓶颈,从合并任务优化与数据迁移优化两个方面对现有方案进行分类介绍和对比讨论。最后,结合当前研究的局限性与发展趋势,对未来的研究方向进行了展望。
  • 贡同, 卢晓黎, 桑雨, 李思漫, 于博文
    录用日期: 2025-11-19
    夜间目标检测场景中,由于目标亮度较低且手动标注大规模夜间图像成本高昂,很难进行大规模的有监督训练。为解决这一问题,提出了一种基于改进RT-DETR的夜间图像域适应目标检测方法DTN-DETR。首先,设计了一种光度一致性匹配方法,将白天源域的光度特性与夜间目标域相匹配,生成类似目标域的夜间图像。其次,提出了双域优化模块改进的骨干网络,包含两个核心设计:特征优化模块和双域信息交互模块。特征优化消除特征通道中的冗余信息。双域信息交互则利用频率域和空间域信息交互,处理具有不一致频率的眩光和噪声,解决夜间场景局部多光源的耦合性现象。最后,引入了P2检测头,通过多层次特征融合提升夜间场景小目标的感知能力。在公共数据集BDD100K,SODA10M和Foggy Cityscapes上的实验结果表明,所提出的方法在目标检测任务中相较于现有的最先进方法具有显著的性能优势,验证了其有效性和鲁棒性。
  • 谭台哲, 杨洋, 战荫伟, 杨卓
    录用日期: 2025-11-14
    煤矿井下复杂光照环境导致图像存在对比度低、细节模糊的情况,现有的图像增强算法存在特征捕捉能力不够全面,且针对不同层次的语义特征之间融合方式低效等问题,本文提出了融合卷积和MLLA的煤矿井下图像增强方法(ICM),在卷积阶段堆叠了多个具有退化感知的混合专家模块,使模型能够自适应恢复在图像增强过程中由于丢失的局部纹理细节,解决伪影、细节特征不清晰的问题。使用具有背景感知能力的MLLA(Mamba Like Linear Attention)模块对图像中的长期依赖关系进行建模来提高输出增强图像的全局结构一致性和改善纹理保真度。引入交互式融合分支以编码主干特征和重建特征之间的阶段相关性,有效利用局部和全局特征辅助图像增强效果。分段损失函数在不同增强阶段设置不同的损失目标,使得网络能够在每个阶段自适应地优化。与近期表现优秀的深度学习方法对比,ICM方法在评价指标PSNR、SSIM、NIQE和LPIPS展现出最佳效果,分别为30.524dB、0.946、3.06和0.23,能够有效地提升煤矿井下低照度图像的亮度、对比度和清晰度,为矿井安全监测与智能决策提供可靠视觉支持。