作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 兰晨曦, 沈宗亮, 冯建周, 张华
    录用日期: 2025-12-30
    大语言模型具有强大的上下文学习和文本生成能力,在信息检索与简报写作等任务中潜力显著,但在处理对于时效性、真实性以及规范性有较高要求的任务时能力不足,例如在特定领域的格式化文档生成方面仍缺少有效方法。因此需要将智能体技术和模型微调技术两者结合。该文提出了融合大模型智能体架构与大语言模型微调的格式化文档生成方法,通过大模型智能体架构实现实时新闻信息的获取并验证过滤,构建特定领域大模型微调数据集,采用微调技术增强其生成风格规范文本的能力。在不同领域数据集下进行了测试优化与效果验证,实验结果表明该方法在语义相似度、文本相似性等评价指标上性能均优于基线方法。表明该方法可有效强化模型对特定领域的理解与文本生成能力,并为生成文本的时效性与真实性提供可靠保障。
  • 高六龙, 黄正坤, 姜晓巍, 孙功星, 李佳枫
    录用日期: 2025-12-30
    近年来,深度学习在计算机视觉、自然语言处理等应用领域取得了巨大的成功,致使高能物理研究者也开始关注深度学习技术,并探索其在强子喷注标记任务中的应用。最初研究者们将喷注数据转化成图像和序列数据,采用卷积神经网络和循环神经网络对喷注进行标注,但存在计算效率慢和可解释性差的问题。为了解决这些问题,研究人员对网络结构进行了多方面的改进,并在构建的多种喷注标记数据集进行训练,提升了模型分类的性能。本文对新型网络模型的重要模块进行深入分析综述,包括基于集合表示喷注的方法、等变性神经网络的应用以及喷注基础模型的探索。同时,对各种标记分类器进行了分析和比较,评估各种网络结构的性能,并对相关模型现状进行了分析与总结,探讨了深度学习模型在喷注标记任务中的应用前景。
  • 韩振, 于瓅
    录用日期: 2025-12-30
    遥感图像中的小目标检测由于特征表征能力不足、复杂背景干扰以及多尺度变化显著而面临较大挑战,尤其在资源受限的应用环境下,更需要在检测精度与模型复杂度之间实现有效平衡。针对这一问题,提出了一种高效的小目标检测框架——多尺度空间注意力YOLO(MSSA-YOLO)。首先使用自主设计的层次化特征模块(HFBlock),通过动态尺度选择和双轴多尺度卷积机制增强小目标的特征表征能力;其次设计轻量化下采样模块(LDSample),结合高效下采样与残差连接技术,在降低计算量的同时尽可能保留小目标的重要特征信息;最后引入Focal-WIoU损失函数,通过自适应加权和梯度抑制机制优化边界框回归过程,从而进一步提升检测精度。在VEDAI、VisDrone2019和AI-TOD三个公开数据集上的实验结果表明,MSSA-YOLO分别实现了0.754、0.436和0.519的mAP50指标,相较于基线模型YOLOv11s,在参数量减少8.9%的同时,mAP50分别提升7%、4.4%和18.5%。此外,与SP-YOLOv8s和SMN-YOLO等先进检测模型的对比实验显示,MSSA-YOLO在检测精度和模型效率上均取得较为明显的优势。结果表明,该方法不仅适用于小目标检测任务,还在不同尺度目标的检测中表现出较强的泛化能力,能够在资源受限和实时处理场景下提供一种可行的解决方案。
  • 肖翔, 钟永彦, 颜文, 潘文逸
    录用日期: 2025-12-30
    密集行人检测是智慧城市实现人流监测与行为分析的关键环节之一。针对现有模型在小目标检测精度低以及模型参数量大、部署受限等问题,本文提出了一种改进YOLO11的轻量化密集行人检测算法——DRS-YOLO。在YOLO11的颈部网络(Neck)中引入DualConv模块以替换标准卷积结构,增强跨尺度特征融合与空间建模能力,缓解传统卷积在密集场景下上下文信息提取不足的问题,从而在减少计算冗余的同时提升检测精度;设计RSBlock结构,强化语义特征重构与全局信息建模能力,提升模型在复杂遮挡环境下的鲁棒性与泛化性能,并有效减少参数量;构建SASP模块,缓解小目标在下采样过程中的细节丢失现象,强化模型对小目标的聚焦感知与上下文理解能力。实验结果表明,改进算法的Precision、Recall、mAP50和mAP50:95在WiderPerson数据集上分别提升1.8%、2.7%、1.4%、0.6%,在CrowdHuman上提升1.7%、1.7%、1.2%、0.8%,在BDD100K上提升2.1%、1.0%、1.0%、0.5%,同时模型大小下降至4.9MB。将算法部署在以RK3588为核心的嵌入式设备上,单帧图像平均运行时间为61.4ms,mAP50为80.3%,表明该算法在保证轻量化的同时兼顾检测精度与实时性。
  • 陈乐, 肖忠良, 陈佳, 陈理华, 陈晓磊, 王鹏, 汪卫
    录用日期: 2025-12-30
    自然语言转SQL技术旨在降低数据库查询的使用门槛,使非技术人员能够通过自然语言与数据库交互。然而,现有方法面临两大挑战:一是大语言模型在生成复杂SQL时存在能力限制;二是实际生产环境中数据库规模庞大,直接输入完整数据库结构会导致提示词过长,增加计算成本并降低生成准确性。传统基准数据集的简单性与现实场景的复杂度差异进一步加剧了这一问题。为解决上述问题,研究提出了一种基于层次化实体索引的自然语言转SQL方法,其核心是通过优化检索增强生成技术动态筛选与用户查询相关的数据库信息,从而完善提供提示词中的背景知识信息。实验基于开源数据集和生产环境数据验证了方法的有效性。实验结果表明,研究方法的SQL生成准确率仅比Spider榜单上排名第一的未公开方法低0.4,比排名第二的方法高4.2,说明了方法的有效性。未来研究方向包括细化实体划分策略及优化索引架构以支持超大规模数据库实时检索。该研究工作为实际场景下的自然语言转SQL系统提供了高效、可扩展的解决方案。
  • 李翔, 余新胜, 喻卫东, 全水龙, 吴玥, 孟渲哲
    录用日期: 2025-12-30
    为降低应用系统拟态化成本及数据维护复杂度,多业务异构执行体通过拟态数据中间件访问共享数据服务是通用性与性能兼具的最优解决方案。本文基于NETTY开展拟态数据中间件研究,采用“多到一请求;一到多回复”的总体思路,对多个执行体的数据访问请求进行归一化转发,并对数据服务响应进行多路分发回传,通过在请求归一化转发和响应多路分发回传过程中,进行基于多模一致性裁决的安全共识分析,生成安全可信数据进行响应,增强了数据访问的安全性。拟态数据中间件底层采用Java设计,具备跨平台特性,支持MYSQL与MQTT访问协议,为应用系统拟态构造提供了重要的工程设计支撑。
  • 罗广, 孙丽萍, 王赛奇, 王利国, 丁伟
    录用日期: 2025-12-24
    多模态推荐旨在通过引入视觉、文本等多模态内容特征以增强项目表示,能够有效缓解数据稀疏与冷启动问题,并更精准地捕捉用户兴趣偏好。然而,现有方法大多依赖于基于ID嵌入的超图传播机制,未能充分挖掘多模态特征中丰富的语义信息。针对上述问题,提出一种基于语义增强的多模态超图推荐模型。首先,通过构建用户-项目交互视图与项目-项目语义视图,利用图卷积网络分别从行为数据中提取高阶协同信号,以及基于多模态内容挖掘项目间深层语义关系。其次,设计模态感知融合模块动态聚合用户与项目的多模态表示,实现不同模态贡献的平衡。进而构建用户-用户与项目-项目超图,显式建模用户群体兴趣偏好与项目间的高阶语义关系。最后,为增强多模态特征与行为特征间的互信息,引入协同对比学习机制,并设计两类辅助对比任务:模态对齐损失旨在确保ID嵌入与多模态语义的一致性;邻域聚合损失增强交互结构的局部鲁棒性,从而协同实现全局语义对齐与局部结构保持。在Tiktok、Sports和Clothing三个真实数据集上的实验结果表明,所提出的模型在Recall@20指标上相比较基线最优模型分别提升1.32%、5.99%与6.58%,在NDCG@20指标上分别提升5.69%、2.00%与7.61%。
  • 曾博涵, 胡志勇, 张晨, 张兆祥, 许悦雷
    录用日期: 2025-12-24
    母机与靶机的高精度耦合对接技术在协同编队、无人机回收等任务中具有重要的战略价值。传统的手动对接操作方式面临任务难度大、成功率低和可靠性差等问题,而锥套目标的精准识别则是未来智能化耦合对接技术中的关键。现有的针对锥套目标的检测方法大都依赖于锚框、锚点的初始化以及非极大值抑制等后处理步骤,使得算法在机载嵌入式平台上部署时存在效率低,调试成本高且鲁棒性差的困难。基于DETR的检测器尽管具备端到端的检测能力,但存在推理延迟大,对弱小的锥套目标检测效果差的缺陷。本文提出了一种面向嵌入式平台实时锥套目标检测算法Drogue-DETR。该算法通过引入自适应区域选择注意力机制,降低计算复杂度,提升顶层特征提取效率,并设计了频域特征筛选模块,保留小目标边缘特征、抑制背景干扰。此外,构建的提出的多尺度注意力聚合模块深入挖掘上下文信息,进一步提升了检测的鲁棒性。在构建的锥套数据集和VisDrone数据集上的实验结果表明,Drogue-DETR优于现有的主流检测算法,满足嵌入式机载设备的使用要求。
  • 万宇豪, 张欣, 闫逸伦, 王振中, 沈熙, 张亚, 刘杉
    录用日期: 2025-12-24
    在颗粒型中药固体制剂的生产进程中,药品主要以颗粒与粉末形态存在。颗粒粒度作为关键质量指标,对中药的溶解度和利用度有着直接影响,并在后续的制剂成型工艺、产品质量控制以及用药安全保障等环节中发挥着至关重要的作用。针对中药粉体颗粒检测中存在的漏检和精度低的问题,提出一种基于改进YOLOv11和主动学习的中药颗粒智能检测系统。从实时性和计算资源考虑选择YOLOv11作为基准模型,结合空间-深度非跨步卷积(SPD-Conv)和注意力机制,提出跨子块多核注意力(CSMKA),用于替换传统的跨步卷积,增强对小颗粒的特征学习能力。利用改进模型对训练集进行反向评估,基于主动学习思想自动筛选出标注质量存在偏差的样本图像,交由专家进行精细化修正,提升训练集数据质量和模型泛化性能。颗粒检测后采用线性回归方法构建预测颗粒重量占比模型,实现对重量特性的精确评估。结果表明,引入CSMKA模块后,模型在中药颗粒检测任务中性能提升显著,mAP@0.5达到72.8%,比原始YOLOv11提高了3.0百分点;结合主动学习优化后进一步提升至75.0%。颗粒重量占比预测模型的相对误差控制在12.7%。本文构建了一个集成中药粉体颗粒检测、主动学习驱动的数据标注优化和颗粒重量占比预测的综合系统,为中药粉体质量控制提供了高效且可靠的技术支持。
  • 郭亚男, 何超群, 常颖, 张本奎, 贺康健, 曹林
    录用日期: 2025-12-19
    最近,3D Gaussian Splatting(3DGS)技术在新视角合成领域取得了突破性的进展,并广泛应用于医疗等领域。然而,当只有少量视图输入时,由于缺乏有效约束,3DGS易对训练视角过拟合,从而学习到错误的场景几何结构。针对这一挑战,本文提出了一种稀疏条件下基于混合高斯滤波的新视角合成方法(GMMSplat),该方法通过构建基于先验引导的深度正则化与基于细粒度局部裁剪的光度约束,有效校正了场景表示。首先,在训练视角上,根据单目深度的置信度图,利用混合高斯模型(Gaussian Mixture Model, GMM)动态选择阈值,丢弃置信度低于阈值的深度,确保置信度高的深度后续对渲染深度进行约束,从而减少深度误差导致的场景表示的几何坍塌。此外,为了进一步缓解过拟合问题,由训练视角插值得到虚拟视角下的扭曲图像,对扭曲图像实施局部裁剪策略,并根据扭曲图像的质量对中心裁剪区域分配更高的权重,从而有效引导场景外观重建。本方法在LLFF、Mip-NeRF360、ZED2数据集上的测试结果表明,其在关键评价指标上,超越了现有方法的性能水平,能够提升新视角合成图像的质量。其中,在LLFF(1/8分辨率)数据集上PSNR提升3.75%、推理速度提升14.52%、存储体积减小49%。
  • 白亮, 王琨, 王世煜, 韩咏, 陈奥, 齐一搏
    录用日期: 2025-12-19
    为解决工业应用场景中工件表面缺乏纹理信息导致位姿估计精度低的问题,提出了一种基于RGB图像的弱纹理工件位姿估计方法。首先利用基于改进的ResNeXt特征提取网络获取工件的特征信息,通过在卷积块之间使用密集连接减少传递过程中特征信息的损失,引入分组卷积残差块,增强模型对多通道空间特征的感知能力,并在残差连接前加入注意力模块,学习各通道权重以及定位关键区域;然后对位姿估计问题进行转化,通过级联式卷积位姿估计网络获取关键点的像素位置和方向向量场;最后利用透视投影变换算法对工件位姿进行求解。为验证方法有效性,构建包含20种背景、20000张图像的合成数据集,覆盖不同遮挡程度、光照条件与观测距离场景。消融实验表明,所提方法ADD通过率提升27.2%,达到88.5%,参数量为70.1M,推理速度为1.47 F/S。在YCB-Video数据集上,所提方法在ADD(-S)、AUC of ADD-S和AUC of ADD(-S)三项指标分别达到89.2%、95.6%和94.2%;在Linemod Occlusion数据集上平均ADD(-S)指标为88.7%,较DOPE、RePose等主流模型显著提升。实验结果证明所提方法在弱纹理、遮挡及光照变化等复杂环境下具有优越的位姿估计精度与泛化能力。
  • 冯广, 苏旭, 林忆宝, 赵志文, 黄俊辉, 孙相利, 廖贝融
    录用日期: 2025-12-15
    多模态情感分析通过融合语音、文本与视觉模态的协同信息,在提升情绪识别准确性和鲁棒性方面展现出显著优势。 然而,现有方法仍面临三重挑战:其一,缺乏对快慢节奏下多尺度情绪变化的统一建模;其二,难以清晰刻画模态间的语义 主导与从属关系;其三,模型对模态强度与信息价值的动态适配能力仍不足。为此,本文提出一种融合多尺度编码与极性感 知融合机制的多模态情感分析方法:在视觉与音频模态中引入多尺度Mamba编码器(MS-Mamba),并行建模全局与局部时 间粒度;设计极性感知融合模块(Polarity-Aware Fusion, PAF),以语义残差与带符号权重显式刻画跨模态的增强与抑制关系; 并提出全局极性驱动门控机制(Polarity-Driven Gating, PDG),在模态级以显著性–方向性解耦策略实现信息流的自适应调控。 三者协同构成“时序建模–极性对齐–全局门控”的闭环结构。在CMU-MOSI 与 CMU-MOSEI 两个公开数据集上,所提模型的 二分类准确率分别达到86.58%和86.50%,较主流基线平均提升约1.33%;F1分数分别为86.59%和86.26%,较主流基线平均 提升约1.39%。结果表明,该方法在语义对齐、时序建模与自适应融合方面均表现出良好的有效性与鲁棒性。
  • 赵莹莹, 朱率率
    录用日期: 2025-12-15
    武警工程大学密码工程学院,陕西 西安 710086;2. 网络与信息安全保密武警部队重点实验室,陕西 西安 710086) 摘 要:知识图谱作为一种以实体为节点、关系为边的结构化语义知识表示形式,能够精准刻画现实世界中各类事物及其复 杂关联,已成为人工智能、自然语言处理、推荐系统、智能问答等多个领域的核心支撑技术,为机器理解语义和实现认知智 能提供了重要基础。首先,阐述知识图谱的基本概念与体系架构,明确以“实体-关系-属性”三元组为核心的知识表示单元, 并分别剖析自顶向下和自底向上两种构建模式的适用场景与技术特点;其次,重点分析知识图谱构建过程中信息抽取、知识 融合以及知识推理三大核心环节的技术演进,系统梳理了技术发展脉络,并对比不同方法的优势与局限;再次,通过深入剖 析DBpedia 和百度两个典型知识图谱在技术路线选择上的差异,将理论方法与实际知识图谱构建场景相结合;最后,总结当 前知识图谱构建在数据质量、语义一致性、动态演化等方面面临的挑战,并展望未来研究方向,旨在为知识图谱构建的理论 研究与实际应用提供全面参考,推动该领域技术的进一步发展。
  • 黄佳慧, 徐明
    录用日期: 2025-12-15
    联邦学习作为一种无需集中原始数据的分布式学习方式,在水下自主航行器群体协同感知与决策中展现出重要潜力。然而,水下通信环境的挑战,如剧烈的水声信道衰落和有限的通信带宽,使得传统联邦学习在水下场景中面临聚合精度降低和能量开销过大的问题,难以满足长期任务和电池供电设备的需求。为此,本文提出一种智能反射面辅助的水下联邦学习联合优化框架(IRS-JOFL),该方案通过引入IRS和空中计算机制,增强上行链路质量并提升梯度聚合效率,同时联合优化设备选择与功率控制策略,既能保证模型精度,又能显著降低通信能耗。实验结果表明,在Fashion-MNIST数据集上,IRS-JOFL的准确率为86.73%,相比传统 FedAvg和未引入IRS的Air-FL方案精度提升约5.4%和3.6%,同时总能耗降低约16.3%和14.1%。在Fish数据集上,所提方案的最终Top-1精度约为86.6%,并在达到80%精度阈值时保持最低能耗。
  • 李辉, 刘佳煜, 徐雅萍
    录用日期: 2025-12-15
    医学图像分割在多模态成像数据中实现病灶或结构的像素级定位,是支撑辅助诊断与临床决策的关键任务。针对医学图像分割网络架构快速演化与评价指标存在的语义歧义、统计不稳等局限,本文旨在系统梳理网络结构、任务特征和评价指标三者间的适配关系,揭示方法发展路径与性能边界,构建面向实际应用需求的结构—指标匹配机制。基于2020—2025年Web of Science核心数据库的代表性文献,本文首先梳理 Transformer、图神经网络、扩散模型等主干架构的设计机制与演化路径,再总结轻量化、混合结构及提示引导范式的关键特征。其次,结合公开数据集实证研究,对不同网络结构在器官、肿瘤与脑组织等典型任务中的分割性能进行定量对比,涵盖DSC、HD95等常用指标,识别出HD95在边界复杂任务中波动较大,DSC对小目标敏感性不足,IoU在结构区分方面存在局限等问题。本文进一步揭示了指标误用与任务特征不匹配的统计根源,构建了任务结构–指标推荐映射,提出基于任务粒度的指标选择策略,并探讨动态网络、自监督学习与跨模态建模等方向对模型泛化能力的潜在促进作用。
  • 郑乐宇, 李克, 任毅, 张磊
    录用日期: 2025-12-12
    进化算法在求解约束多目标优化问题(CMOP)时展现出优越能力。但对于不同类型问题尤其是无约束帕累托前沿(UPF)与约束帕累托前沿(CPF)不相交且边界较远时,进化过程通常缺乏有效的差异化引导,且种群间知识转移时引入的消极个体和多样性的可行解缺失都会阻碍任务种群收敛,影响整体优化性能。为此,本文根据帕累托前沿特征重新划分了CMOP问题类型并提出了一种问题类型引导的动态知识转移协同进化算法(DKTCEA),包括独立探索和协同演化两个阶段。在独立探索阶段,主任务利用辅助任务先验知识跨过不可行区域,判断问题类型并设计了差异化进化策略为下一阶段引导种群进化做好准备。在协同演化阶段,辅助任务引入改进的ε约束处理机制提高解的可行性,并通过改进的知识转移策略从源任务确定转移到目标任务的个体,减少消极个体解的转移,提高优化种群质量并增强主任务种群的全局收敛能力。与5种最新的约束多目标优化算法相比,DKTCEA在MW和 DOC 测试集共23个问题中在逆世代距离(IGD)和超体积(HV)上分别取得14与11个最优结果,表明其所采用的进化策略和知识转移策略在解决CMOP问题上的优势,消融实验也进一步验证了各个策略的有效性。
  • 汤娜, 李昊, 李晶晶, 陈玮琪, 汤庸
    录用日期: 2025-12-12
    随着移动终端定位技术发展,轨迹数据规模剧增,海量轨迹数据存储与快速查询成研究热点。分布式框架能提供高效数据处理能力。本文首先提出了局部轨迹索引TRindex,该索引很好地保持了时间和空间数据的近邻性,支持时空查询。TRindex中设计了多层范围圆映射方法,将空间最小边界矩形(MBR)映射到一维轴上,建立了轨迹到范围圆圆心的距离的序,并根据这个序建立了空间范围树。该设计保证了空间的邻近性,为范围查询提供空间临近性;同时又形成了轨迹到参考点距离的有序关系,能实现K近邻查询的有效剪枝并能有效地减少了K近邻查询重复计算的问题。最后基于TRindex本文构建了分布式轨迹索引DTRindex,主要分为数据分区、局部索引、全局索引三部分。全局索引为改进的R*-tree,并针对每个节点设置布隆过滤器,有效地提高了查询的效率。DTRindex索引能同时有效地支持三种时空查询算法:时空范围查询、K近邻查询和移动对象轨迹查询。最后,选取了同样基于Hadoop框架的分布式轨迹索引HadoopTrajectory、单机式索引PM-tree和基于NoSQL数据库的分布式轨迹索引TMan作为实验对照对象.通过实验对比,证实了DTRindex在多项性能上表现优异:在时空范围查询效率上,相较于HadoopTrajectory、PM-tree和TMan,DTRindex分别平均提升了约57%、74%和25%;在K近邻查询上,性能平均提升了40%、48%和20%;在移动对象轨迹查询上,效率提升了50%、53%和30%。此外,消融实验验证了各核心模块的有效性,空间范围树层贡献最大,使得整体平均性能提升2.5倍,时序索引层贡献次之,平均性能提升1.2倍,移动对象双链表使得平均性能提升约90%,在移动对象轨迹查询中贡献最大,效率提升将近4倍。
  • 黄杰, 唐建航 , 章阳 , 杜罗乐, 冯毅雄
    录用日期: 2025-12-12
    工业5.0环境下智能电网拥有丰富的电力基础设施,智能电网负载检测设备种类繁多且分布广泛,使得边缘负载检测设备收集到的用户负载数据具有很强的异构性,使用分布式联邦学习进行较大模型的负载训练容易出现模型收敛不稳定的问题。针对该问题,提出了面向智能电网的分割联邦学习模型高效训练方法,该方法将神经网络模型训练应用在变电站到用户区域,通过分割层把电力负载预测这类全局模型分为顶层模型和底层模型。服务器先收集负载检测设备资源信息,再使用负载预测模型新鲜度指标定义的优先级来选择负载检测设备训练集合,并为异构负载检测设备分配合适的批量以进行底层模型训练。服务器通过合并训练集中的异构负载检测设备特征,得到较大的混合特征序列,减小设备异构性对训练数据的影响,提高模型准确性。使用KL散度来衡量训练集分布差异,通过微调批量大小减小分布差异。基于公开电力负载曲线图数据集,对比了三种基线方法,在非独立同分布数据下该方法的精确度比基线方法最高提高了3.6%、11.7%和12.9%。
  • 谌海云, 邓洲垚, 向浩睿
    录用日期: 2025-12-12
    航拍图像中的小目标检测面临着目标尺寸小、背景复杂、多尺度变化等挑战,现有检测算法在特征提取、多尺度融合和小目标感知方面存在不足,针对上述问题,研究提出一种基于改进RT-DETR的航拍小目标检测算法MA-DETR。首先,在主干网络中设计双重自适应感知网络DAPN,通过空间尺度分离模块和双重自适应池化机制,增强网络对不同尺度目标的感知能力。其次,设计自适应多尺度特征融合网络AMSFN,通过多模块协同架构,构建双向多路径特征传递机制,提升小目标特征的表达能力。并且提出基于自适应小波卷积AWC的小目标检测层,通过小波卷积和遥感锚定注意力的串行设计,在频域和空域双重增强小目标特征。最后,设计CF-CGDL损失函数,融合核心聚焦机制与角点几何距离损失,改善边界框回归精度。在VisDrone2019数据集上的实验结果表明,改进算法的mAP@50达到了43.5%,较基准模型提升了6.4%,参数量减少1.1×106,泛化实验结果显示,在DOTA v1.0和RSOD数据集上的mAP@50也分别达到了71.8%和95.5%,较基准模型提高了3.1%和7.1%,验证了该方法的有效性和鲁棒性。
  • 李潞洋, 闫锦龙, 方泽儒, 金旗旗, 薛红新
    录用日期: 2025-12-12
    在点云三维目标检测任务中,点云数据的稀疏性客观上对小目标检测构成显著挑战。具体表现为:小目标自身有效点数稀少导致结构信息缺失与边界模糊;上下文感知能力不足阻碍模型有效利用周围环境信息进行空间推理与语义补全,进而引发定位偏差;以及其固有的空间定位困难、通道表达弱和特征易被背景淹没等问题,共同制约了检测性能的提升。为缓解上述问题对检测精度造成的影响,本文提出一种融合动态特征提取与特征增强映射的动态感知三维检测算法。该模型聚焦特征提取与候选框生成两大关键阶段对小目标检测进行优化。具体而言:首先,引入动态点特征预测网络,通过自适应预测补充采样点以强化对小目标的结构感知能力;其次,构建特征增强映射网络,对原始特征及动态预测网络生成的特征进行深度融合,输出富含上下文信息的二维特征图,有效弥补上下文缺失并提升小目标的定位精度;最后,设计点云特征增强网络,在通道与空间双维度提升网络对小目标关键区域的聚焦能力。基于nuScenes数据集的实验结果表明,所提算法性能优于当前主流目标检测算法。与基准模型CenterPoint相比,平均精度(mAP)由56.1%提升至59.4%;标准化检测分数(NDS)由64.4%提升至67.4%。
  • 黄正婷, 陈学信, 林智勇, 蔡瑞初
    录用日期: 2025-12-12
    合成致死(SL)相互作用的预测在抗癌药物研发中具有重要的应用前景。然而,现有可解释SL预测方法大多为每个基因对生成固定数量的解释子图,难以充分反映SL机制固有的多样性。本文提出 DiSE4SL 模型,通过将解释子图的生成过程建模为函数空间上的随机过程,以解决解释模式数量自适应这一关键问题。该模型基于神经过程框架,首先利用基础SL预测器获取基因对的预测得分和节点嵌入,然后通过上下文编码器将结构特征与预测语义融合为统一向量表示,进而参数化高斯混合模型(GMM)的条件后验分布,将不同解释模式映射至不同高斯分量。在模型训练过程中,本文采用Gumbel-Softmax机制采样潜变量,通过模式感知的注意力权重对局部子图进行稀疏化以生成解释子图,同时引入对比损失与Lipschitz约束,促进各分量学习具有区分性且平滑的解释模式。最终,通过对潜变量采样并进行无预设簇数的聚类,DiSE4SL 能够自适应地为每个基因对提取多个解释子图。在基准数据集上的实验表明,DiSE4SL 在不牺牲预测精度的前提下达到了与最强基线相当的预测性能(AUPR 0.9337),同时在解释的多样性和忠诚性分别较次优方法提高了29.1%和9.5%,验证了该方法的有效性。
  • 任海梦, 于红绯, 艾鑫
    录用日期: 2025-12-10
    针对现有轨迹预测模型特征交互深度不足以及长时序建模能力薄弱的问题,提出了一种基于粗细粒度特征交互与长短期记忆增强的车辆轨迹预测模型。该模型以实现场景粗粒度与细粒度特征的交互式增强为目标,深度整合了双重视角固有优势,从场景中心视角提取道路结构、车流分布等粗粒度特征,构建宏观运动框架;从智能体中心视角提取目标车辆与周边智能体的相对运动、局部交互关系等细粒度特征,刻画微观行为细节。通过细粒度特征对粗粒度特征的动态约束与深度交互,有效改善特征交互深度不足的问题,实现多模态预测轨迹端点位置的精准细化。同时,为有效缓解长时序建模能力薄弱的问题,设计了含双记忆单元的长短期记忆增强模块,以捕捉长距离时序依赖特征,并通过特征加权与轨迹端点修正策略,有效增强模型对长时序轨迹的预测能力。实验结果表明,相较于主流轨迹预测模型,所提方法在关键指标上均有显著提升,在Argoverse 1数据集上,概率最小最终位移误差、最小最终位移误差和最小平均位移误差指标分别平均提升4.4%、5.4%、4.9%,在Argoverse 2数据集上,对应指标分别平均提升5.1%、6.3%、5.8%。这一结果不仅证明了所提模型在轨迹预测准确性上的提升,更验证了其在不同数据分布场景下的泛化有效性。
  • 王发堂, 宋燃, 黄于欣, 相艳
    录用日期: 2025-12-10
    多模态实体对齐(MMEA)旨在综合结构、文本与图像等多种模态信息,从不同的多模态知识图谱中识别出表示同一现实世界实体的节点。现有方法在融合多模态特征时,往往忽略了不同图谱中实体的属性类型不一致,导致实体表征偏离,影响对齐效果。为此,本文提出基于属性筛选增强与多轮指令推理的多模态实体对齐方法。该方法包括三个核心模块:首先,通过融合多模态信息并计算实体间相似度,从而获取候选实体序列;其次,在实体信息处理部分,通过属性筛选增强机制,选取图谱间语义相似的实体属性类型,从而缓解属性描述差异与冗余信息带来的干扰;最后,将对齐任务建模为多项选择问题,结合筛选后的实体属性与实体的自然语言描述来构建指令,对大语言模型进行微调;并在推理时引入多轮推理策略,将大规模候选实体划分为子序列,增强模型辨别子序列实体间语义差异的能力,从而提升最终对齐的推理准确性。在多个公开数据集FB-DB15K、FB-YAGO15K、EN-FR-15K V2、EN-DE-15K V2上的实验结果表明,本文方法相比基线方法的实体对齐性能均有提升。具体而言,在FB-DB15K、EN-FR-15K V2和EN-DE-15K V2上,本文方法的MRR指标相比次优模型分别取得了2%、1%和0.2%的绝对提升。特别是在FB-YAGO15K数据集中,本文方法的MRR和Hits@1相比次优模型MCCEA分别提升了9.1%和7.8%,取得了明显的优势。
  • 韩松, 车畅畅, 王贺龙
    录用日期: 2025-12-10
    随着自动驾驶技术的快速发展,精确的轨迹预测已成为安全驾驶的关键。鉴于此,提出一种基于LSTM-Informer多模态对抗学习的车辆驾驶意图与轨迹融合预测模型(AMLI-DIR)。该模型采用分层架构,在意图识别层,通过构建GATv2-BiLSTM网络提取目标车与周围车的空间及时序特征,并引入时空交叉注意力机制融合时空特征,从而实现驾驶意图的精准识别。在轨迹预测层,针对直行与换道场景分别构建独立的轨迹预测模型,同时利用多准则生成器生成精准的预测轨迹。在预测阶段,ALMI-DIR模型首先筛选出概率最大的意图类型,随后调用对应意图的轨迹预测模型,实现针对不同意图的精准轨迹预测。使用基于真实路况信息的NGSIM与CQSkyEyeX数据集对模型进行训练、验证与测试。实验结果表明,AMLI-DIR模型在各项评估指标上均优于其它对比模型,尤其是在长时预测阶段(3s)其均方根误差最低,仅为1.05m,较表现次优的STEI模型降低约22.2%。此外该模型的RMSE从1s到3s仅增加0.26m,误差增长率远低于其它模型,进一步验证了模型在轨迹预测任务中的有效性与优越性。
  • 陈灵强, 胡海峰, 张索非
    录用日期: 2025-12-09
    针对小规模语言模型在自动工作流生成中存在的单轮生成质量受限和搜索效率低下问题,提出一种基于蒙特卡洛树搜索和自反馈优化的工作流生成方法WGM-MCTSR(Workflow Generation Method based on Monte Carlo Tree Search and Self-Refine)。该方法通过两个核心机制提升工作流生成性能:一是设计工作流自反馈优化机制,采用生成-评估-重构的多轮迭代循环,利用反馈评估信息对工作流进行结构重构或修正,补偿小规模语言模型推理能力的不足;二是改进蒙特卡洛树搜索算法的选择和回溯阶段,引入上限置信区间(UCT)选择策略替代传统软混合选择概率,并通过子节点得分反向传播机制动态调整父节点被选概率,优化搜索方向。在GSM8K、MATH、DROP、HotpotQA、HumanEval和MBPP六个数据集上的实验表明,该方法在数学推理任务中解决率分别达到70.11%和23.45%,在问答任务中F1分数达到54.87%和52.47%,在代码生成任务中通过率达到81.83%和58.82%。与现有工作流生成方法相比,该方法在GSM8K上性能提升5.4%,在MATH上提升9.6%,在各类任务上均取得最优结果,验证了改进机制在提升小规模语言模型工作流生成效率和质量方面的有效性。
  • 李倩, 刘鹏, 姚廉, 武继刚
    录用日期: 2025-12-08
    忆阻交叉阵列作为存内计算架构的核心硬件载体,可在O(1)时间复杂度内实现矩阵运算。然而,受器件有限位宽的限制,现有方法往往需要配置大量存储单元来表示数值,导致硬件资源消耗增加,高精度与高能效难以兼得。针对这一关键问题,提出一种基于阵列感知的混合精度量化方法。该方法首先结合K-means聚类对输出通道进行重排优化,以提升子层内权重分布的一致性从而降低量化误差,提高量化后模型精度;在此基础上,依据忆阻阵列的物理约束划分子层,使子层的输出通道数与阵列并行处理能力相匹配,减少反量化操作数,降低计算复杂度。同时,引入阵列感知正则化项,将子层所需阵列数量与组Lasso正则化相结合,动态诱导权重的位级稀疏性,在压缩位宽的同时降低硬件资源开销。在不同网络(ResNet/VGG)上的实验结果表明,该方法将网络模型量化至1.3位时精度损失控制在0.2%的同时,降低约74%的硬件面积开销。与现有量化方案相比,所提出的方法在极低位宽下实现了精度与硬件资源的协同优化。
  • 赵培源, 龚晓亮
    录用日期: 2025-12-04
    针对现有康复机器人仿真研究中生物力学特性与机器人控制策略失配、人机耦合仿真自动化不足等问题,本研究创新性地整合了机器人运动学分析、训练轨迹规划设计以及肌肉骨骼模型生物力学特征,构建了一种基于OpenSim和MATLAB的上肢康复机器人人机联合仿真系统,并提出了一套自动化人机耦合仿真流程。系统实现了对匹配完成模型的同步关节角度调节与运动播放可视化展示。在机器人仿真层中,提供了正向运动学、逆向运动学的计算,并针对不同应用场景提供了四种轨迹规划算法,计算结果经格式转换后传递至生物力学仿真层。在生物力学仿真层中,结合残差缩减与计算肌肉控制补偿未建模外力(即间接补偿机器人外力数据误差)并优化肌肉激活度求解,同时支持对仿真计算结果中的肌肉激活程度、肌肉纤维长度等生物信息进行可视化展示,帮助康复医师更加精准地判断患者的康复效果。实验验证证明,与传统人工处理方法相比,RSVH系统将仿真准备时间减少约40%,并且简化了跨平台仿真操作的复杂度。更得益于其多任务并行执行能力,RSVH系统在仿真效率与自动化程度上显著优于单任务处理模式的现有系统。
  • 崔浩然, 全婷, 陈茂伟, 戴荣
    录用日期: 2025-12-04
    在计算流体力学问题求解过程中,使用AMG算法能够有效提高求解速度。作为目前最常用的CFD开源软件,OpenFOAM中采用了基于LDU矩阵格式的GAMG算法,在CPU上实现了流场求解加速。近年来CPU+GPU的异构并行计算系统蓬勃发展,国产GPGPU也取得了突破,实现了国产化替代。面向上述异构计算系统,广泛开展了CFD中的GPU加速算法研究,在国产平台上实现对OpenFOAM中GAMG算法的异构并行化设计,能够充分发挥国产算力性能,大幅度提高流场仿真效率。面向CPU+国产GPGPU加速卡的异构计算平台,设计并实现了一种针对LDU矩阵格式的GAMG并行加速方法,充分利用了GPU多线程的并行优势,实现了GAMG全部算法组件在GPU上的并行优化。最后通过对3D顶盖驱动方腔流和motorBike绕流算例的基准测试,在不同算例规模下对异构平台上的GAMG进行正确性验证和性能测试。经实验表明,所提出的算法在计算精度方面和原版本保持一致,基于Jacobi平滑器配置的GAMG异构算法相较于基于Gauss-Seidel平滑器配置的CPU串行方式实现了10-27倍的加速效果。性能分析表明耗时占比较大的限制算子和光滑算子的计算速度得到显著提高。实验结果验证了该GAMG并行求解框架在国产异构平台上的有效性和计算潜力,为CFD求解器在国产GPGPU平台上的异构并行化与工程应用提供了可行路径与技术基础。
  • 王豪, 秦进, 杨昌好
    录用日期: 2025-12-03
    蚁群优化(ACO)算法被广泛应用于求解组合优化问题时,好的启发信息有助于快速收敛到高质量的解。现有神经蚁群优化算法,如深度蚁群优化(DeepACO)和生成流蚁群采样器(GFACS)利用深度强化学习自动化设计启发信息,显著提高了现有ACO算法的求解质量。然而,现有神经蚁群优化算法仅基于问题实例的静态特征生成启发信息,未考虑每只蚂蚁的部分解时序特征。这导致启发信息难以有效引导不同蚂蚁基于探索进程进行差异化搜索,丧失多样性。同时,现有神经蚁群优化算法采用图神经网络(GNN)聚合信息时,仅聚合节点特征,未考虑将边特征与节点特征融合后再聚合,导致GNN聚合的信息不够充分。为此,融合时序特征与边特征的神经蚁群优化(TEF-NACO)算法被提出。TEF-NACO算法通过循环神经网络(RNN)提取每只蚂蚁的时序特征,再与全局图结构信息融合。并且,在GNN的节点信息聚合阶段,充分考虑节点特征与边特征,以提升GNN的信息捕捉能力。同时,为损失函数添加基于边注意力的正则项以提高训练的稳定性。实验表明,TEF-NACO算法在24个组合优化任务中的最佳表现的数量超过ACO、DeepACO和GFACS的百分比分别为100%、87.5%和75%,平均精度提升分别为21.5%、3.4%和3.2%。
  • 伍清波, 武友新, 于程远
    录用日期: 2025-12-03
    三维高斯溅射(3DGS)在新视图合成与高精度场景重建中表现卓越,然而,其过高的模型存储开销严重限制了实际应用。为此,提出了一种轻量化压缩方法,以降低3DGS模型存储开销并提升渲染效率。首先,引入基于局部颜色差异与冗余度的重要性评分度量方法,以识别并剔除冗余高斯基元;此外,提出一种融合高斯滤波与下采样的抗混叠渐进式训练策略,以提高训练的稳定性与效率;在此基础上,针对高斯基元的不同属性,采用混合量化方案以进一步提高压缩比;最后,结合Morton编码与残差编码对高斯基元的坐标属性进行压缩,进一步减少模型体积。为验证方法有效性,模型在多个真实数据集上与多种现有压缩模型进行了对比实验,结果表明,所提方法在保持与Reduced-3DGS相当渲染质量的同时,模型体积相较于原始3DGS降低97.8%,相较于Reduced-3DGS进一步压缩38.8%,同时提升了训练与渲染效率,相较于现有的其他压缩模型均具有显著优势。模型实现了压缩率与渲染质量之间的良好平衡,为推进3DGS在三维场景重建中的实际应用提供了有效解决方案。
  • 吕王靖, 戚兆波, 刘心岩, 张北辰, 张维刚
    录用日期: 2025-12-02
    长时动作预测作为计算机视觉领域的重要任务之一,旨在基于第一人称视角视频,预测视频主体在未来长时序范围内可能执行的动作序列。该任务的挑战在于未来行为具有不确定性,视频中的行动者在相同情境下可能遵循多种合理的行动轨迹,而数据集中的视频样本往往只涉及其中一种,限制了模型对多样性的学习。此外,模型输入的视频片段较短,而需预测较长的未来过程,观测信息不足与推理跨度较大的矛盾进一步加剧了预测难度。为缓解上述挑战,提出了一种名为引导协同网络的预测框架,该框架基于大小模型协同的机制,由小模型预测模块和大模型辅助模块构成,两个模块分别承担预测建模与预测空间约束的功能。小模型由视觉编码器、 提取器以及动作预测器组成,依次对输入视频进行编码、视觉辅助信息提取,并生成未来动作的预测分布。视觉辅助信息提取器通过融合手部线索与物体区域特征,引入交叉注意力机制,建模手部和物体的交互关系。大模型辅助模块基于大型语言模型,识别当前场景中出现可能性较低的物体名词,并将其用于约束小模型的预测器,通过对预测空间中不合理选项进行屏蔽,有效提升预测的准确性与合理性。此外,对损失函数进行了优化,设计名词时序平滑损失,约束预测名词的分布,使其在时序上具有连贯性。在Ego4D和50Salads数据集上进行验证评估。实验结果表明,在Ego4D数据集上与基线模型相比引导协同网络在名词的预测上取得了8.9%的改进,在动词上取得4.2%的改进。
  • 励皓轩, 张志远, 刘芮, 许沛华, 田昕
    录用日期: 2025-11-27
    高分辨率的气象数据对于本地和区域尺度的生产生活有重要意义,而基于深度学习的降尺度技术能有效弥合现有气象低分辨率数据与应用需求间的鸿沟。目前深度学习气象降尺度方法常受限于固定整数缩放因子,导致多倍率场景下训练成本高。并且,现有方法在气象数据中仍存在高频细节预测不准、结果模糊的问题。针对上述问题,研究提出一种融合隐式神经表达和自适应特征编码的深度学习超分辨率网络,用于任意倍率气象降尺度。其核心动态像素特征聚合模块利用可学习调制器动态调整特征提取过程,使像素特征能自适应不同缩放因子;图像级隐式表达模块则通过注意力机制融合坐标线性差异与邻域非线性特征,实现连续域像素值预测。结合高阶退化训练策略,在ECMWF HRES和ERA5数据集上的实验表明,同固定倍率方法相比,该方法在×2倍率下的PSNR指标可高出至少0.7 dB;而同任意倍率方法相比,该方法在×2倍率下的PSNR指标可高出至少0.48 dB。这些结果说明该方法优于现有经典方法,为气象数据应用提供了更加灵活高效的解决方案。
  • 宋呈群, 张可, 杨梦杰, 程俊
    录用日期: 2025-11-26
    针对大型设施与复杂场所安全监控中人工巡逻效率低、存在安全风险等问题,本文旨在在保证全域覆盖的同时优先关注高风险区域,并提升路径规划的效率与稳健性。为此提出风险导向的智能巡逻策略:将巡逻任务建模为“全面巡逻+单次巡逻”的组合;基于高斯混合模型构建静态/动态风险热图以评估优先级;设计基于双曲正切权重的目标点更新方法,抑制目标过度聚集,实现风险与空间分布的均衡。在路径生成方面,提出多目标点快速扩展随机树算法,包括多目标点可行路径规划与信息子集优化:多目标点可行路径规划估计任意两点间可行代价,并结合蚁群优化确定访问顺序,拼接得到贯穿所有目标点的单条可行路径;信息子集优化在以起终点为焦点、由当前最优代价确定主轴的椭圆信息子集内采样,并结合改进的快速扩展随机树重连对该路径进行迭代精炼,输出更短、更光滑的优化路径。仿真结果表明,相较于以欧氏距离为成本的基线方法,所提方法显著缩短最终路径长度,在迭代受限条件下具有更高的求解成功率与更快的收敛速度;系统能够实现全区域覆盖,并对高风险区域分配更高的巡逻频率,适用于工业厂房、危险品仓储与大型公共建筑等场景。
  • 张珑耀, 温东新, 马庄宇, 舒燕君, 李庆, 刘明义, 左德承
    录用日期: 2025-11-26
    基于大语言模型的多智能体系统虽在处理复杂任务方面展现巨大潜力,但其分布式特性与交互不确定性易引发多样化异常,威胁系统可靠性。为系统化识别并分类此种异常,本研究进行全面综述。研究选取七个代表性多智能体系统及相应数据集,收集13,418段运行轨迹,采用LLM初步分析与专家人工校验相结合的方法进行数据分析。研究构建了一个涵盖模型理解感知异常、智能体交互异常、任务执行异常和外部环境异常四个层级的细粒度异常分类框架,并结合典型案例揭示了各类异常产生的内在逻辑与外部诱因。统计分析显示,模型理解感知异常占比最高,其中“上下文幻觉”和“任务指令误解”是主要问题;智能体交互异常占16.8%,“信息隐瞒”是主因;任务执行异常占27.1%,主要表现为“决策重复出错”;外部环境异常占18.3%,以“记忆冲突”为主。此外,模型理解感知异常常作为根源性诱因,引发其他层级的异常,凸显了提升模型基础能力的重要性。此分类和根源分析旨在为构建高可靠的基于大语言模型的多智能体系统提供理论支撑与实践参考。
  • 王雯, 杨奎武, 仝松松, 魏江宏, 薛岩, 周荣魁
    录用日期: 2025-11-26
    模型知识产权保护已成为模型安全中不可忽视的问题,水印技术作为模型溯源的核心手段,通过将特殊标识嵌入模型参数或生成内容中,为版权验证提供技术支撑。然而,训练完成的含水印模型非常容易被复制并扩散,这使得攻击者能够通过微调、剪枝或对抗样本攻击等特定技术手段,破坏或去除DNN模型中嵌入的水印,使得模型所有权无法验证。为了更深入地了解模型水印攻击方法,首先对模型水印攻击进行介绍,其次对模型水印攻击方法进行分类,根据攻击者对目标模型的访问权限和信息获取能力,分为白盒水印攻击和黑盒水印攻击两类,对DNN模型水印攻击的动因、危害、攻击原理和具体实施手段梳理和分析,同时对现有模型水印攻击研究从攻击者能力以及性能影响等方面进行比较与总结。最后,进一步探讨了神经网络模型水印攻击在未来研究中的潜在积极作用,为模型安全和知识产权保护领域的深入研究提供建议。
  • 张俊娜, 王泓尊, 丁春涛
    录用日期: 2025-11-25
    后训练量化(Post-Training Quantization, PTQ)是一种高效的模型压缩方法,它无需重新训练模型,只需少量(或无需)无标签校准数据即可将高精度浮点模型的参数转换为低比特整数表示。该方法在显著降低存储与计算开销的同时,能够最大限度地保留原始模型的推理精度,因而受到学术界与工业界的广泛关注。本文从PTQ的量化步骤、方法分类、工具生态和应用进展四个维度,系统总结了PTQ的研究进展。首先,构建了清晰的量化流程框架,涵盖动态范围统计、量化参数计算、权重与激活量化、误差优化和模型生成等步骤;其次,提出了一个完整的量化方法分类体系,从量化粒度、位宽、校准方法到结构导向量化;再次,分析了支持PTQ规模化应用的工具生态,探讨了其在硬件适配和工程部署中的应用价值;最后,总结了PTQ方法的融合与应用进展,并指出PTQ方法在实践中面临的挑战,尤其是跨模态一致性、极低比特语义崩塌与硬件适配等难题。这些实践挑战的总结不仅揭示了当前技术的局限性,也为未来研究提供了重要方向。本综述为学术界与工业界提供了PTQ方法的参考框架,助力推动人工智能在资源受限场景中的广泛应用。
  • 张可, 陈嘉豪
    录用日期: 2025-11-21
    多跳图卷积网络(Multi-Hop GCN)在缓解过压缩问题上具有一定成效,然而多跳传播设计在信息聚合过程中存在一定的参数化信息压缩损失以及对局部拓扑结构敏感,导致该类模型进行节点分类任务时难以达到理想的预测效果。针对上述问题,本文从多跳图卷积模型的层内与层间两个角度出发,采用基于预测传播解耦的解耦式技术和知识跳跃模块对上述问题进行优化,从而构建一种新型多跳图卷积网络——知识-半解耦式多跳网络DrJK-Net。首先,提出一种保留激活函数的半解耦式技术简化多跳传播层内结构,通过去除隐藏层中的线性层,减少多跳传播过程中特征变化次数,降低参数化的信息压缩损失;然后,在传播层间添加知识跳跃连接,通过连接所有隐藏层嵌入,提高模型对隐藏层嵌入的自适应选择能力,降低对局部拓扑结构的敏感度;紧接着,将多跳图卷积骨架与简化层内信息传播的半解耦式技术、建立层间信息通道的知识跳跃连接模块结合,提出参数化信息压损损失更低、对局部拓扑结构适应性更强的模型框架DrJK-Net。最后,在Citeseer、CoraFull与Actor等多个公开论文网络以及社交网络数据集上进行了对比实验与消融实验,对比实验结果表明DrJK-Net在节点分类准确性上超过多数前沿模型且运行速度优势明显,而消融实验结果进一步验证了提出的半解耦式技术与引入的知识跳跃连接机制的有效性,为多跳图卷积网络的发展提供了新的思路与方法。
  • 钮 焱, 孙 杨, 李 军
    录用日期: 2025-11-21
    多模态情感识别旨在理解复杂的人类情感表达,现有方法在处理情感表达的细微差别和模态间复杂交互时,普遍面临准确性和鲁棒性不足的挑战。具体而言,传统语音特征提取方法难以全面捕捉跨越多时间尺度的情感信息,且现有融合策略在整合互补信息与处理模态间复杂关联方面效率有限,同时,类别不平衡和边界样本问题也常导致模型性能下降。针对上述问题,本文提出了一种面向语音和面部图像的多模态情感识别新方法。该方法首先在语音特征提取阶段引入多尺度注意力机制,替代传统多层感知机,能够自适应地聚焦并捕获从微观音素变化到宏观韵律模式的情感特征,实现了更全面的情感信息提取;其次,设计了自适应多专家协调决策架构,通过专家网络和自适应多模态专家协调网络,高效整合不同模态的互补信息并处理模态间的复杂交互;最后,提出了边界交叉熵损失函数,结合交叉熵与合页损失的优势,以增强模型对边界样本和类别不平衡问题的处理能力。在RAVDESS数据集上的实验表明,该方法准确率达到了89.8%,相较于基线模型提升3.1个百分点,验证了模型改进的有效性。
  • 郭伟, 孟巧巧, 金海波, 田聪聪
    录用日期: 2025-11-20
    业质检领域,钢表面缺陷检测普遍存在目标特征融合不足、边缘细微缺陷漏检及样本分类不均衡等问题,为此提出一种多尺度交互与动态协同的钢表面缺陷检测算法。在主干网络中,通过融合移位稀疏卷积和倒置残差结构,强化不同感受野下缺陷特征的交互融合,提升多尺度缺陷的特征表达能力;引入大分离核注意力机制,动态增强对细微缺陷区域的特征响应,降低裂纹、夹杂的漏检率;在颈部网络中,结合DySample动态上采样策略,实现基于缺陷内容的动态上采样,在提高小目标缺陷轮廓清晰度的同时减少计算冗余,适配边缘设备部署;此外,设计融合指数移动平均与滑动阈值机制的EMASlideLoss损失函数,动态平衡难易样本的学习权重,改善缺陷样本分布不均导致的检测偏差。在NEU-DET数据集上的实验表明,该算法平均精度均值mAP50%达到84.4%,相比于原始YOLO11n提升5.8%,精确率和召回率分别提升5.2%、4.8%的同时计算量下降8%。该算法在优化计算效率的同时提高了检测精度,更能满足工业场景下的检测需求。
  • 刘颖, 张润宇, 杨朝树
    录用日期: 2025-11-20
    日志结构合并树(Log-Structured Merge tree,LSM-tree)被广泛用于键值存储系统,凭借顺序写入机制实现高效的写入性能,但同时也带来了读写放大率高、合并任务开销大及数据冗余等问题。传统优化方案通过调整树结构、优化合并策略以及采用键值分离机制等方式提升系统性能。然而,在大数据时代,数据规模急剧飙升,LSM-tree 需要处理更频繁的写入与合并任务,导致 CPU 计算资源持续紧张,逐渐成为系统性能提升的瓶颈。此外,传统优化方案未能避免主机与存储设备间大量的I/O操作,仍面临高昂的冗余数据迁移开销。计算存储技术为应对上述挑战带来了新思路。该技术在存储层部署额外算力资源,通过任务卸载减轻CPU负担,或进一步通过近数据处理降低数据迁移带来的性能损耗。本文聚焦于基于计算存储技术的LSM-tree优化研究。首先,对计算存储技术架构进行梳理。然后,针对大数据背景下系统面临的主要瓶颈,从合并任务优化与数据迁移优化两个方面对现有方案进行分类介绍和对比讨论。最后,结合当前研究的局限性与发展趋势,对未来的研究方向进行了展望。
  • 贡同, 卢晓黎, 桑雨, 李思漫, 于博文
    录用日期: 2025-11-19
    夜间目标检测场景中,由于目标亮度较低且手动标注大规模夜间图像成本高昂,很难进行大规模的有监督训练。为解决这一问题,提出了一种基于改进RT-DETR的夜间图像域适应目标检测方法DTN-DETR。首先,设计了一种光度一致性匹配方法,将白天源域的光度特性与夜间目标域相匹配,生成类似目标域的夜间图像。其次,提出了双域优化模块改进的骨干网络,包含两个核心设计:特征优化模块和双域信息交互模块。特征优化消除特征通道中的冗余信息。双域信息交互则利用频率域和空间域信息交互,处理具有不一致频率的眩光和噪声,解决夜间场景局部多光源的耦合性现象。最后,引入了P2检测头,通过多层次特征融合提升夜间场景小目标的感知能力。在公共数据集BDD100K,SODA10M和Foggy Cityscapes上的实验结果表明,所提出的方法在目标检测任务中相较于现有的最先进方法具有显著的性能优势,验证了其有效性和鲁棒性。
  • 谭台哲, 杨洋, 战荫伟, 杨卓
    录用日期: 2025-11-14
    煤矿井下复杂光照环境导致图像存在对比度低、细节模糊的情况,现有的图像增强算法存在特征捕捉能力不够全面,且针对不同层次的语义特征之间融合方式低效等问题,本文提出了融合卷积和MLLA的煤矿井下图像增强方法(ICM),在卷积阶段堆叠了多个具有退化感知的混合专家模块,使模型能够自适应恢复在图像增强过程中由于丢失的局部纹理细节,解决伪影、细节特征不清晰的问题。使用具有背景感知能力的MLLA(Mamba Like Linear Attention)模块对图像中的长期依赖关系进行建模来提高输出增强图像的全局结构一致性和改善纹理保真度。引入交互式融合分支以编码主干特征和重建特征之间的阶段相关性,有效利用局部和全局特征辅助图像增强效果。分段损失函数在不同增强阶段设置不同的损失目标,使得网络能够在每个阶段自适应地优化。与近期表现优秀的深度学习方法对比,ICM方法在评价指标PSNR、SSIM、NIQE和LPIPS展现出最佳效果,分别为30.524dB、0.946、3.06和0.23,能够有效地提升煤矿井下低照度图像的亮度、对比度和清晰度,为矿井安全监测与智能决策提供可靠视觉支持。
  • 段杰, 宋丽娟, 马子睿
    录用日期: 2025-11-13
    基于深度学习的生存预测在整合全玻片图像(Whole Slide Images, WSI)与基因组学数据方面取得进展,但WSI的超高分辨率与转录组的高维特性使特征提取与跨模态融合面临挑战。原型聚合虽可将图块与基因表达压缩为形态学与通路原型以降复杂度,仍存在两大瓶颈:难以捕捉两种模态原型间的细粒度交互; WSI形态学原型与基因通路原型间存在显著的表示异质性。为此,本文提出基于多层次最优传输的弱监督生存预测模型(MOTSurv),包含三项协同创新:其一,双模态原型编码器(病理编码器集成金字塔位置编码PPEG、通路编码器建模通路内相关性)以强化模态内结构与保留模态特异性;其二,级联的多层次最优传输融合机制,先完成粗粒度全局对齐,再细化匹配并纠偏误配,兼顾对齐精度与信息保持;其三,正交解缠模块(ODM),通过模态间特异性正交、模态内特异-共享正交与全局特异-共享正交的多层约束,实现特征解缠并提升可解释性。基于TCGA的BLCA、BRCA与LUAD三数据集的实验结果表明,MOTSurv较先进方法在C-index上平均提升4.22%,消融研究进一步验证了各组件的独立与协同贡献,展示了模型在多模态对齐、结构化表征与生物学可解释性方面的综合优势。
  • 王泽宇, 吉根林, 朱炜
    录用日期: 2025-11-13
    基于骨架的零样本动作识别任务借助的是文本标签描述信息和骨架动作信息来对可见类别与未见类别的动作进行区分。现有的方法通常受到视觉特征生成质量不高问题的限制,无法准确对齐语义造成在相似动作的识别上效果欠佳。为了解决这个问题,本文提出了基于双鉴别器和时空自校准的方法(DD-STSC)来探索视觉语义对齐。该方法通过变分自编码器和生成对抗网络的结合,利用鉴别器和生成器进行对抗训练,挖掘不同特征间的差异化信息,同时在解纠缠中更好的分离出有用信息与无用信息,以此进一步提升生成样本的质量。此外,还引入了动作自校准模块(ASCM),通过在时空方向对骨架信息进行学习可以更有效地获得需要的关键运动信息,从而提高分类任务的准确率。在公开数据集NTU60、NTU120、PKU51上进行了实验,结果表明所提出的方法优于现有主流的方法。
  • 徐海喆, 黄凌霄, 姚新波, 高勇占, 周开元
    录用日期: 2025-11-13
    针对基于对比语言-图像预训练(CLIP)的弱监督语义分割(WSSS)中存在的图像细粒度语义对齐不足、文本上下文局部细节感知有限和伪标签图像局部细节感知不足、噪声扩散等关键问题,提出特征融合对比学习框架FFCLIP,该框架以冻结的CLIP模型为骨干,通过引入全景感知注意力(PPA)、矩形校准模块(RCM)和加权跨模态融合(WFF)三大创新模块,显著提升了跨模态语义对齐能力、局部边界感知能力以及伪标签质量。基于CLIP主干网络构建的多阶段弱监督语义分割训练架构,在VOC2012验证集和测试集上分别取得76.9%和77.5%的mIoU,较主流方法CTI提升2.8%和4.3%;在COCO2014数据集上的达到47.1%的mIoU,显著优于CPAL等基线模型。实验表明,FFCLIP在保持低计算成本(新增6M参数,显存占用峰值6.2GB)的同时,显著提升了弱监督条件下的语义分割精度,为多模态学习与弱监督分割的融合提供了新思路。代码链接:https://github.com/xuwudang/FFCLIP
  • 苏娜, 裴厚清, 徐力 , 王经钧 , 纪淑娟
    录用日期: 2025-11-11
    现有日志异常检测技术在语义建模中往往忽略时间上下文信息,模态融合能力不足,并且普遍过度依赖日志解析,这些局限使模型难以捕捉语义内容突变与时间行为异常并存的复杂模式。为解决上述挑战,本文提出了一种无日志解析的端到端检测模型(Log Spatio-Temporal Fusion,LogSTF)。该模型采用语义与时间双分支结构,语义分支获取上下文感知的语义特征,时间分支以时间级与序列级的双粒度建模同时捕捉局部突发与全局演化的时间模式;在此基础上,通过跨模态的双向交叉注意力实现模态融合,显式建立语义与时间之间的细粒度依赖,从而提升对复杂日志行为的建模与判别能力。在HDFS、BGL和Thunderbird三个公开日志数据集上进行实验,结果表明LogSTF在三个数据集上的F1值分别达到99.64%、98.45%和99.67%,与最新的两个基准模型LAnoBERT和LogFormer相比,F1值平均相对提升5.20%和2.03%,通过消融实验验证了时间信息与模态协同对性能提升的关键作用。基于轻量语义扰动下的鲁棒性测试,验证了LogSTF在非理想日志条件下的稳健性与泛化表现。该方法在无需日志解析的前提下,实现了对复合型异常模式的高精度识别。
  • 李旭, 罗德哲, 王红军
    录用日期: 2025-11-10
    随着全球海上运输的快速发展,船舶轨迹预测在航运安全与管理中扮演着重要角色。然而,面对大规模船舶轨迹数据及复杂海上环境的不确定性,如何实现高精度且物理合理的连续轨迹预测仍是一个关键挑战。传统预测方法在处理复杂海上环境和大规模动态数据时存在局限。为此,本文提出了一种基于地理约束的多方法融合船舶轨迹预测模型。该模型通过引入地理约束损失函数,优化了轨迹预测中的位置精度、航向稳定性和物理合理性。同时,结合双向门控循环单元、注意力机制和多尺度卷积等模块,设计了多方法融合的船舶轨迹预测网络结构,提升了时序特征提取和多尺度信息融合的能力。实验结果表明,本文模型在多个海域数据集上均表现出较低的预测误差,特别是在长时间预测中相较于现有模型具有显著优势。研究证明该模型在船舶轨迹预测中具有较高的准确性和稳定性,能够为海事领域的实际应用提供有效支持。
  • 姚迅, 何园, 胡新荣, 杨捷
    录用日期: 2025-11-10
    序列推荐系统在捕捉用户动态兴趣方面表现出色,但其开放性使其极易遭受数据投毒攻击。攻击者通过篡改物品的文本描述,能有效操纵推荐结果,这对模型的鲁棒性构成了严峻挑战。现有防御策略大多依赖静态规则或固定强度的扰动,难以应对语义层面日益复杂和多变的文本攻击。为解决此问题,本文提出了一个名为RADAR的双阶段协同防御框架。该框架有机融合了训练时鲁棒性增强与推理时实时防护:首先,在训练阶段引入动态对抗训练,提升模型抵御未知文本扰动的内在能力;其次,在推理阶段利用大语言模型(LLM)进行精准的语义级异常检测与内容修复。实验结果表明,RADAR框架防御性能卓越。在Scientific数据集的攻击测试中,相较于最强的基准模型(Cert-LLM),RADAR能将恶意项目曝光的增幅从3.1796%锐减至0.9921%,有力地证明了该框架在增强序列推荐系统安全性与鲁棒性方面的有效性。
  • 郭洋, 孙静宇
    录用日期: 2025-11-07
    随着量子计算技术的发展,传统图像加密算法面临抗量子攻击能力不足的挑战,而现有量子图像加密算法存在量子比特消耗大、混沌系统参数空间有限等问题。针对上述待解问题,本文提出一种基于混沌系统的双量子图像加密算法,以实现低资源消耗与高安全性的平衡。首先,提出双位平面量子图像表示模型(DBRQI),仅需 个量子比特存储 灰度图像,较 BRQI 模型减少50%量子比特消耗,其次,构建三维超混沌系统(3D-CHCMM),4个控制参数的参数空间较现有系统提升33%,3个李雅普诺夫指数均为正值且通过15项NIST测试,可生成高随机性伪随机序列。算法通过DBRQI映射量子态,经奇偶位平面置乱与行列随机置乱打乱像素信息,再与伪随机序列执行异或操作生成密文。实验结果表明:加密图像水平相关性低至0.0041、信息熵达7.9993、NPCR为99.6251%,抗攻击与抗干扰能力显著增强。本文算法为当前量子硬件受限场景下的图像加密提供了高效解决方案。
  • 张瑶, 张俊三, 马俊朋, 姚宗全, 刘天一
    录用日期: 2025-11-07
    针对复杂场景下多尺度目标检测任务中存在的跨层级特征交互不足、特征表达能力有限等问题,提出一种基于 YOLOv8 的改进模型CAFR-YOLO。首先,设计了一种新颖的跨尺度特征重组流程,构建了通道注意力引导的跨尺度特征重组模块(CAFR)。该模块通过以特定层级为融合主干,结合尺度对齐、注意力加权融合及特征子集拼接策略,有效缓解了传统特征金字塔结构中跨层级交互不足的问题。其次,在局部层面,主干网络中引入 C2f_DCNv3 模块,利用可变形卷积的动态采样特性显著提升了模型的几何适应性;在全局角度,结合可切换空洞卷积(SAC)与 C2f 模块构建 C2f_SAConv 模块,通过动态空洞率优化了多尺度语义特征融合,二者从不同维度增强了模型对复杂场景的鲁棒性。最后,采用 SPDConv 替代传统卷积架构,通过空间-通道维度的特征重组增强了模型表征能力,同时降低了计算复杂度。实验结果表明,在PASCAL VOC数据集上,CAFR-YOLO取得了86.3%的mAP@0.5和67.2%的mAP@0.5:0.95,计算量与原模型相当;在MS COCO数据集上,map@0.5和mAP@0.5:0.95分别提升了3.5%和3.9%。与现有主流方法相比,CAFR-YOLO在多项指标上均表现出显著优势,在保持计算效率的同时,显著提升了多尺度目标检测的精度和鲁棒性,为实时目标检测任务提供了新的解决方案。