作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 李元昊, 应方立
    录用日期: 2025-07-01
    学习解耦表征以提升图像生成模型的可控性是计算机视觉领域的重要研究方向。然而,现有解耦表征学习方法存在两大局限性:一是依赖大规模标注数据,二是难以有效处理特征间的复杂依赖关系。为突破这些限制,本研究提出一种基于希尔伯特-施密特独立性准则(HSIC)的通用解耦生成方法。该方法创新性地将HSIC这一非参数统计方法转化为生成模型潜在空间的独立性正则化机制,通过施加HSIC正则项优化非线性依赖关系的度量目标,引导模型学习独立的特征表示。具体而言,本研究通过实验将HSIC准则融入两类主流生成模型架构的优化过程:在变分自编码器(VAE)模型类中,通过结合变分推断重构与HSIC正则项,优化潜在分布的解耦性;在扩散模型(DM)类中,通过将HSIC正则项嵌入反向过程的时间步优化,逐步实现渐进式特征解耦。实验结果表明,这种能够在不同模型架构中实现的通用方法提升了潜在表示的独立性,且在无监督场景下保持稳定性能,为建模特征间复杂依赖关系提供了新途径。为进一步验证解耦空间的语义一致性,本研究通过潜在空间插值实验,生成轨迹更加平滑的结果,证明了HSIC正则有效构建了线性可分的解耦空间。在评估体系方面,本研究采用标准解耦指标与基于HSIC的自定义指标进行双重验证,结果二者呈正相关,证实了解耦评价标准的客观性。
  • 孟慧 , 张鲁慧 , 闫玺玺 , 汤永利
    录用日期: 2025-06-30
    目前大多数的唯一环签名(URS)方案基于离散对数问题,仅有Nguyen和王俊卉提出的URS能够满足后量子安全性。然而,这些方案各有局限:Nguyen的方案使用零知识证明导致计算资源消耗大,而王俊卉的方案则因格基结构的设计使密钥长度较长,增加了存储开销。此外,两种方案均依赖数字证书管理公钥,需要存储和管理大量的证书文件,进一步增加了系统的存储和管理成本。为此,本文提出了一个NTRU格上基于身份的高效URS方案。首先,利用NTRU格密码体制公私钥长度较短的特性,减少密钥存储开销;其次,采用紧凑高斯采样算法生成用户私钥,以提高密钥生成效率;最后,通过引入身份基机制构造公钥,从而消除对证书的依赖。安全性分析表明,该方案在随机预言机模型(ROM)下具有无条件匿名性、不可伪造性和唯一性,其安全性可归约到NTRU格上的小整数解问题。性能分析表明,与现有的基于格的URS方案相比,该方案具有较短的公钥长度和更低的计算开销,在签名生成和验证时间开销上平均分别减少了约15%和13%。
  • 黎东丰, 陈雨人, 余博
    录用日期: 2025-06-25
    在现有基于U-Net的路面裂缝检测方法中,编码器各层次特征间的交互未能得到充分考虑,容易因下采样过程中的信息丢失而导致检测结果不完整或出现漏检。为此,本文提出一种基于多层次特征融合的路面裂缝检测方法。首先,在编码阶段,提取裂缝在不同层次上的特征,形成从浅层到深层的裂缝特征表示;其次,在跳跃连接,采用基于改进通道交叉Transformer的跨层次融合策略,增强各层次特征间的互补性,丰富裂缝特征的表达;最后,在解码阶段,利用特征融合模块,优化解码器对编码器特征的利用方式,促进裂缝特征的传递,提高对裂缝特征的感知能力。为验证所提方法的有效性,在DeepCrack和CRACK500两个公开数据集上进行一系列的对比实验和消融实验。实验结果表明,所提方法的综合表现优于DeepCrack、Swin-UNet等6种方法,在DeepCrack数据集上的F1分数分别提高了2.30%和2.51%,在CRACK500数据集上则分别提高了1.65%和1.00%。
  • 谭仲夏, 刘奇坤, 蒋翠玲, 万永菁
    录用日期: 2025-06-20
    由于脑卒中的检查时间较长且治疗时间窗有限,因此研发一种快速且高准确性的脑卒中医学图像分割模型对于临床诊断具有重要意义。基于Mamba的U-Net架构具有较低复杂度以及大尺寸图像处理能力,近年来在医学图像处理领域得到广泛关注。分数阶傅里叶变换能够转换信号到空频域之间的任意分数域,在分数域内可以观测空频域中不显著的特征,故引入分数阶傅里叶变换,在分数域观察病灶特征。因此,基于分数阶傅里叶变换与Mamba网络,提出了一种针对脑卒中医学图像分割的模型FRFTMamba-UNet。该模型在Mamba网络中引入了分数域,并设计了一种与U-Net编码器相连接的多级残差模块,此外,在U-Net型网络中实现了分层特征提取策略,针对U-Net的浅层与深层分别设计了不同的特征提取模块,浅层添加了基于卷积神经网络的残差卷积以有效提取浅层特征,深层使用Mamba架构进一步提取深层特征。所提出方法的准确率和效率在AISD、ATLAS和ISLES22三个脑卒中数据集上普遍优于现有基于Mamba模块的SOTA模型,在AISD数据集上其Dice指标达到64.27%,ATLAS数据集上DSC指标达到62.24%,ISLES22数据集上其DSC指标达到85.24%。
  • 高雄, 苟光磊, 周琳杰, 贾朋昊
    录用日期: 2025-06-20
    细粒度图像分类任务中,充足的样本能够提供丰富的局部特征信息。然而,在小样本场景下,数据稀疏性导致模型难以充分捕捉具有判别性的局部信息。为解决这个问题,提出了一种融合轴向注意力与尺度感知机制的小样本学习方法。首先,设计了频率自适应特征选择模块,旨在减少背景噪声和非目标区域的干扰,突出判别性局部特征,从而扩大不同类别间的特征区分度。其次,构建轴向尺度联合增强模块,融合全局上下文信息,关注关键区域,并行处理不同感受野的特征,增强对不同尺度细节的表征能力。最后,采用双相似度量模块,通过两种相似度度量方式指导学习,提升特征的泛化性,减少特定特征的偏向性。在公开数据集CUB_200_2011和Stanford Dogs上,该方法在1-shot和5-shot场景下的分类准确率分别提升了1.4、1.45个百分点和1.86、3.49个百分点。在Stanford Cars数据集上,1-shot场景下达到最优性能,5-shot场景下也取得了竞争力的结果。实验结果表明,该方法有效提升了小样本细粒度图像分类的性能,更好地捕捉了判别性特征信息。
  • 张克威, 温昕, 张文慧, 曹锐
    录用日期: 2025-06-20
    药物研发是一项复杂、成本高但是成功率低的过程。分子属性预测是药物研发过程中基础但是具有挑战性的任务,准确地预测分子性质可以加速药物研发的进程,降低研发成本。随着机器学习,尤其是深度学习的发展,分子属性预测研究取得了很大的进展。但是现在的许多方法使用的分子表征单一,或者没有通过多维表征之间的潜在关联对其进行融合。因此,本研究提出一种新的分子属性预测方法—多表征融合的分子属性预测模型(MRFP),创新性地设计了一种分子表征融合算法,通过融合分子指纹与分子图两种不同类型的表征,生成更全面、细致的分子表征,从而为分子属性预测提供更准确的输入。此外,为了更好地提取分子图中的特征,依据分子特性,设计了一个新的分子图读出模块三阶卷积读出模块(TCNN),该模块能够有效捕捉分子图所表达的信息。通过在MoleculeNet中六个分类数据集和三个预测数据集上的实验,证明了本研究的性能,分类指标平均提高了2.8%,预测指标平均降低了0.47。这一研究不仅为分子属性预测提供了一种新的解决方案,也为药物研发领域中的分子设计和筛选提供了有力的支持,具有广泛的应用前景和潜力。
  • 皮成东, 胡滨
    录用日期: 2025-06-19
    利用传统计算机视觉技术来解决复杂场景中的碰撞检测问题是一项十分艰巨的任务,尤其是面临虚碰撞干扰时模型误检率较高而准确率较低。针对该问题,论文基于哺乳动物视网膜分层结构特性,借助灵长类动物大脑皮层中央前回多感觉皮质区(PZ)神经元对特定视野区的危险感知特性,提出了一种能有效降低复杂场景中虚碰撞干扰的生物启发式增强碰撞检测神经网络(ECDNN)。该网络包含突触前和突触后两部分神经子网络结构。其中,突触前子网络基于哺乳动物视网膜信息分层处理,逐级传递特性,从低阶视觉信息感知全局膨胀视焦点(FOE)来划分动态聚焦感受野,以此获取关键视觉信息。突触后子网络整合聚焦感受野内由迫近视觉刺激引发的膜电位兴奋响应,输出表征迫近碰撞危险的警报信号。实验表明,该模型不仅能有效过滤复杂场景中虚碰撞干扰,降低模型误检,还将碰撞检测准确率提升至96%以上,可为构建人工智能交互系统提供重要基础。
  • 郑鲲, 张梓嫣, 李晓理
    录用日期: 2025-06-19
    面向在线教育中人脸视频的生理参数测量是当前智慧教育研究的热点。传统的远程光电容积描记法(rPPG)无法适应在线教育场景中的光照环境变化,影响了基于人脸视频进行生理参数测量的灵活性和准确性。面向在线教育中的典型光照场景,提出了一种基于光照自适应的血容量脉冲信号(BVP)提取方法,并结合生成对抗网络(GAN)与卷积神经网络(CNN)构建了BVP信号双重校正模型。首先基于模拟退火算法计算不同光照条件下正交色度信号的最优解。同时,建立利用平均灰度强度进行光照场景分类的光照场景预测机制,实现光照场景自适应的最优色度信号。进一步结合GAN与CNN模型对BVP信号进行双重校正,以确保最终输出的生理参数更加准确可靠。模型在面向典型教育场景重组的四个公开数据集上进行了验证,实验结果表明,心率的均方根误差(RMSE)平均降低了8.3 bpm,展示了该模型在不同光照条件下的鲁棒性和准确性。该模型在提升心率及心率变异性预测准确性方面具有显著优势,可为复杂光照环境下的非接触式生理参数检测提供有效支持。
  • 史康威, 柴一栋, 钱洋, 姜元春, 刘业政
    录用日期: 2025-06-19
    Web应用防火墙(WAF)是保护网络应用免受网络攻击的一种有效手段,近年来网络应用的快速发展使得WAF的相关研究更加具有现实意义。常见的WAF构建方法主要有基于规则的方法和基于机器学习的方法。基于规则的WAF通过预定义的一组规则来检测攻击,这些规则通常过于复杂,难以动态和手动更新。基于机器学习的WAF主要通过支持向量机等方法来对负载进行判别,但是很难做到像基于规则方法那样对突发的恶意负载进行识别,并且很难达到基于规则方法的广度。对此本文提出一种基于预训练语言模型的WAF加固方法,对基于规则的WAF使用预训练语言模型对其进行加固。方法首先通过对预训练语言模型收集的恶意、良性的负载进行微调使其具有初步的判别能力,之后迭代使用被WAF拦截的恶意负载多次进行微调,学习被WAF拦截负载的文本特征。在部署时,预训练语言模型被部署在WAF的前面对来访负载进行初步判别,此外,对部分被预训练语言模型拦截请求返回虚假回应使得本文所提方法的效果得到进一步加强。在2款开源WAF上针对SQL注入、跨站脚本攻击2种Web攻击类型与2种攻击方法进行对抗实验,结果显示,经过预训练语言模型加固的WAF对2种攻击方法生成负载的平均拦截率分别从40.01%、36.07%提升到了96.91%、97.13%,并且误报率维持为0,验证了所提方法的有效性。
  • 张航, 王劲松
    录用日期: 2025-06-13
    对于计算资源有限的用户设备(UD)而言,处理计算密集型任务是较为困难的。边缘计算通过将计算资源扩展到网络边缘给予了帮助,其关键使能功能之一便是计算任务的合理卸载。如何协调众多边缘节点的计算资源进行任务卸载,且在任务卸载过程中保障数据安全是其重要挑战。因此,提出了一种基于深度强化学习(DRL)的任务安全卸载方法。首先构建了边缘计算网络模型,并为其设计了可变的安全防护机制以适应性的保障数据安全。然后,将边缘计算网络模型和目标进行形式化,并将其进一步转化为马尔可夫决策过程(MDP)。最后,提出了一种基于惩罚动作空间的DRL方法,以给出最优的任务卸载策略。仿真结果表明,所提方案可以在进行安全防护的同时,降低时延和能源消耗成本,且始终保持零任务丢失率。
  • 王纶羽, 顾益军
    录用日期: 2025-06-11
    恶意加密流量分类领域模型通过增加流量特征维度扩展学习判别表征的丰富性,但仍然存在选择模型与恶意加密流量数据特征不匹配与特征选择不充分的问题,同时缺乏对加密流量数据特征的讨论研究。为此,针对物联网恶意加密流量分类领域提出基于多表征融合的分类模型,一方面使用抽象表征学习模型学习流量会话的数据包级字节关联表征与会话统计表征,另一方面使用明文表征学习模型学习未加密明文的会话连接表征,最后根据抽象表征学习模型对分类结果的置信分数融合两个模型的分类结果获得最终的恶意流量分类结果。为验证模型的先进性,与其他7种基于不同方法的基准模型表现进行比较,模型在F1值指标上达到0.7694的结果,相较其他现有基准模型指标均有大幅提升。同时为讨论验证各个模块与流量表征学习的适配性、选择特征所含判别表征之间的互补性,生成10种基于不同输入与不同模型架构的变体模型进行比较,结果表明该模型具有更优的检测性能,证明模型架构的适配与表征之间的互补。
  • 神显豪, 顾玲, 陈谊 , 杨家志
    录用日期: 2025-06-06
    随着可再生能源的规模化并网和新型电力系统智能化转型的加速,电力物联网(Power Internet of Things, PIoT)已成为实现电力系统智能化的关键。然而,偏远地区电力物联网设备(Power Internet of Things Device, PIoTD)面临着网络覆盖不足、能量收集受限、通信条件差等诸多问题。为解决这些问题,首先提出了一种基于人工智能的云-边缘-设备合作框架,采用多无人机无线携能通信技术(UAV Simultaneous Wireless Information and Power Transfer, UAV-SWIPT)来为能量受限的PIoTD提供持续能量。通过空天地网络中低空组网的UAV搭载SWIPT服务,辅助SAG-PIoT设备能量补充和通信中继框架。此外,为优化多无人机协同工作,提升数据中继、发射功率分配、全局能耗效率(Global Energy Efficiency, GEE)及PIoTD关联调度,引入了一种多智能体深度强化学习算法以解决动态环境下全局信息不完整和高维度变量耦合问题。仿真结果表明,所提算法相比于其他几种基准算法,收敛速度快,能耗效率表现优异,另一方面,在最大化最小传输速率方面,MADDPG最高,达到了 bits/s。同时还发现SWIPT功率分割最佳比例在0.7左右,此时GEE最高。
  • 袁立宁, 冯文刚, 刘钊
    录用日期: 2025-06-06
    针对现有学术文献分类方法忽视文献数据之间关联信息的问题,提出了一种融合图卷积网络(GCN)和对比学习的文献分类模型对比图卷积网络(CGCN)。首先基于文献内容和引用关系定义两类“同质—异质”关联信息,并将其转换为构建对比损失的自监督信息;然后,利用对比损失优化GCN特征提取过程,推动同质文献特征表示彼此接近、异质文献彼此远离;最后,利用交叉熵损失和softmax函数实现“端到端”的学术文献分类。在三个基准学术文献数据集上,CGCN的文献分类表现优于当前较为先进的基线模型,特别是Cora数据集上Micro-F1和 Macro-F1指标值相较原始的GCN模型提高8.29%和7.91%。CGCN通过基于“同质—异质”关系构建的对比损失,增强了模型对文献数据潜在信息的表征能力,提高了分类的准确性和泛化性,为学术文献分类研究提供了新思路和新方法。
  • 陈海秀, 陈子昂, 房威志, 卢海涛, 黄仔洁, 成荣
    录用日期: 2025-06-05
    密集行人检测是大型公共场所人流监控系统发展的关键问题之一。针对密集行人检测场景中由于人群遮挡导致的小目标检测困难以及模型轻量化的部署需求,本文提出一种改进的YOLOv8-n密集行人检测模型CAD-YOLO(CGDown-Adaptive Fusion Module-Dyhead)。嵌入了CGDown下采样模块,通过高效的上下文信息提取机制,有效缓解了传统目标检测器在处理密集场景时上下文特征易丢失的问题,显著增强了对密集行人特征的捕获能力以及对小目标的聚焦性能。设计了一种BiFPN-Adaptive结构并重构了颈部网络,通过自适应融合不同尺度的特征信息,使模型在提取被遮挡行人及中小型目标行人特征时表现更加精准,同时大幅减少了模型的参数量与计算成本。引入了动态检测头Dyhead,结合新增的160×160尺度的小目标检测层,使模型能够更加精确地捕获密集小目标区域的细微特征,从而有效缓解遮挡场景中的漏检问题。实验结果显示,相较于YOLOv8-n,CAD-YOLO在Crowd Human数据集上和在WiderPerson数据集上的检测精度分别提升了5.1%和2.1%。尽管性能大幅提升,CAD-YOLO的参数量仅为2.9M,模型计算量为12.3GFLOPs,满足了在边缘设备或移动设备上部署时低功耗、高精度的要求。
  • 刘涛, 苘大鹏, 许晨, 吕继光, 冯驻, 曾凡一, 周雪, 杨武
    录用日期: 2025-06-05
    传统的干净标签后门攻击通常无法在触发器和目标类之间建立有效的强连接,导致攻击成功率较低,大量实验经验表明这种失效现象在联邦学习中更加严重。攻击失败的主要原因在于触发器的随机选择使其缺少和目标类的直接联系。为此面向联邦学习设计一种可学习触发器后门攻击,充分利用中心服务器下发的任务信息和共享模型训练与目标类强相关的触发器,将该训练过程形式化为双目标优化问题并求解。在约束条件下找到最佳扰动尽可能模糊图像的原始特征,从而最大化模型对触发器的学习能力;然后对这些模糊图像添加规定范围内允许的触发器作为输入进行训练,最小化其图像分类损失并利用小批量投影梯度下降的优化方法快速生成最优触发器。用该触发器激活的后门攻击在联邦学习中仍能保证出色的攻击性能。三个数据集上的实验结果表明提出的方法在联邦学习中攻击成功率远高于现有的各类干净标签后门攻击,尤其在CIFAR-10上其攻击成功率相较基线方法有82%以上的提升。所提出的攻击方法对联邦学习的安全性提出了新的挑战。
  • 李俊亮, 马俊朋, 刘梦萱, 刘玉雪, 张俊三
    录用日期: 2025-06-03
    医学影像报告自动生成任务存在影像对比度低、异常区域较小的难题,仅依靠影像信息难以精准刻画异常特征,因此如何引入外部知识来增强视觉表征成为解决问题的关键。此外,异常特征的共现关系复杂,依赖单一样本难以捕捉,如何利用相似实例建模共现模式至关重要。针对上述挑战,本文提出一种相似实例引导下融合异质图的医学影像报告生成方法,包括结合异质图的图像特征记忆模块和相似实例特征融合模块。结合异质图的图像特征记忆模块提取报告实体关系,构建报告对应异质图为桥梁,引导模型关注图像异常区域,增强异常视觉特征;相似实例特征融合模块检索相似实例,融合相似实例的异常视觉特征,增强异常区域特征表达的同时,获取更全面的异常信息。在 IU X-ray 和 MIMIC-CXR 这两个医学影像数据集上进行的实验评估显示,所提方法在 BLEU 系列评分指标上表现优秀,IU X-ray上B1~B4分别为0.539,0.353,0.265,0.193。同时,该方法在 METEOR 和 ROUGE-L 指标上的表现同样卓越。实验结果表明,所提方法在自然语言生成指标和生成报告的准确性、完整性方面优于现有主流方法,证明了方法的有效性。
  • 胡伟, 陈韵而, 杜璞良
    录用日期: 2025-06-03
    :针对当前短期电价预测方法中变分模态分解(VMD)参数优化效率低、单一预测模型特征表达能力不足及特征冗余等问题,本文提出一种基于多策略改进冠豪猪优化算法与深度学习的短期电价预测方法。首先,通过引入莱维飞行策略、周期性种群变异和动态调整参数机制改进冠豪猪优化算法(CPO),提高其全局搜索能力与收敛速度,并用于优化VMD的模态数量 和惩罚因子 参数,以提高信号分解精度。其次,构建融合特征加权的深度学习模型,通过设计动态加权模块抑制噪声干扰并强化关键特征的影响,结合sLSTM的长期依赖捕捉能力与Transformer并行计算优势,实现多尺度特征的协同优化处理。最后,构建MSICPO-VMD-WF-sLSTM-Transformer混合模型进行电价预测。实验结果表明:多策略改进冠豪猪优化算法(MSICPO)相较于原始CPO算法和其他传统优化算法,实现了VMD参数优化中的最优解精度和优化效率的精细化平衡,所提混合预测模型在预测精度方面表现良好,拟合度系数达到0.95。此外,跨区域数据预测实验也进一步验证了模型在不同区域电力市场的适用性和可泛化性。本文所提方法不仅为智能优化算法的改进与多特征预测技术提供了理论参考,而且为复杂电力市场下短期电价预测提供了高精度、强泛化的解决方案。
  • 耿霞, 林贤文, 杨治
    录用日期: 2025-06-03
    在基于文本的行人重识别任务中,基于图文预训练模型的参数初始化已成为主流范式,这有效缓解了单模态模型因跨模态信息缺失导致的特征对齐瓶颈。现有方法聚焦于挖掘图像-文本联合嵌入空间中不同尺度下的语义特征进行优化,但新对齐范式的引入易使原模型在微调过程中陷入局部最优。为了解决上述问题,本文提出了一种基于提示的信息传输框架(PIT),通过在单模态编码器和跨模态图像文本编码器的原始前向过程中嵌入跨模态提示标识符,促进早期特征融合,隐式地引导模型更加聚焦于模态不变的信息。PIT包含基于跨模态提示的对比学习损失以及提示训练策略。基于跨模态提示的对比损失旨在通过约束图文特征之间的相似度,构建兼具模态内区分度与模态间语义一致性的共享特征嵌入空间。提示训练策略可以视为一种自蒸馏方法,通过将无提示特征与基准真相产生的伪目标视为另一种行人图文对的特征视图,监督跨模态提示特征的训练过程,使最终学习到的特征嵌入相较于无提示特征包含更丰富的多模态信息。PIT在完全微调的基础上仅需要添加0.61M的参数就能为模型分别在三个公共数据集上带来 1.48%、1.5% 和1.55% 的Rank-1提升。
  • 顾滢双, 桂韬, 张奇
    录用日期: 2025-06-03
    大语言模型的事实性幻觉指的是模型生成内容与真实世界事实存在冲突的现象,这一问题显著降低了其在医疗、法律、科学研究等高风险领域的可信度与应用价值。现有的幻觉缓解方法主要依赖输入优化、监督学习或外部知识库,但这些方法存在泛化能力有限、对大规模标注数据依赖性强、实时性受限等问题,难以根本性提升模型的事实性偏好。为此,该文提出了一种基于语义熵反馈强化学习的事实性幻觉缓解框架。通过引入语义熵作为衡量模型语义级别不确定性的度量标准,该方法能够精准评估模型对自身生成内容的置信度,并将其作为奖励信号嵌入强化学习训练过程,使模型在生成过程中主动规避高幻觉风险的回答。相比于传统基于预测熵的方法,语义熵能够更有效地区分语义等价表达,并在无需外部知识库的情况下增强模型的事实性。在多个公开数据集上的实验表明,该文方法在保持生成内容丰富、连贯的基础上,相较于效果最好的基线模型,事实判断准确率最多提升5.7%,事实生成准确率最多提升7.8%,显著验证了其在事实性幻觉缓解方面的优越性。
  • 张雷, 李世华 , 高豪, 汪小勇
    录用日期: 2025-05-26
    随着城市轨道交通能耗日益剧增,如何提高再生制动能量利用以降低列车运行能耗成为关键。本文聚焦多列车协同运行过程的追踪列车运行控制策略优化问题。首先,在传统运行工况演变策略的基础上,针对追踪运行场景提出“牵引-惰行-牵引-巡航-惰行-制动”策略。其次,构建空间域列车动力学模型、状态转移方程以及能耗模型,并应用插值法将时域的运行协同问题转变为空间域的工况转换点求解问题。随后,构建以运行能耗与准时性为目标的优化决策模型,并结合蜣螂优化算法进行高效求解。最后,以北京地铁亦庄线为仿真线路,对比分析了基于通信的列车控制(CBTC)与列车自主控制(TACS)架构以及不同演变策略对优化效果的影响。结果表明:相较于CBTC架构,TACS架构显著提升列车协同运行优化效果;所提出策略满足准时性需求的同时,在不同发车间隔下的能耗表现均优于传统策略。列车净吸收能耗最多可提高14.651 kWh,真实运行能耗最多可降低11.284 kWh。因此,所提出的工况演变策略与优化求解方法可有效改善列车运行能耗,对城轨列车运控技术发展具有一定借鉴意义。代码已在Github公开:https://github.com/eva-777/Tracking-Train-Operation-Optimization.git。
  • 万祖坤, 王润民, 马天明, 宋星东, 袁晟榕, 丁亚军
    录用日期: 2025-05-23
    视觉问答(Visual Question Answering, VQA)理解和解析输入图像及其对应的文本问题,进而提供与问题相关的自然语言答案,已成为跨模态分析领域一个前景广阔的研究方向。现有工作极大程度上依赖于数据集的一些因素,如伪相关、数据集偏差和捷径学习,都对算法鲁棒性带来了极大的挑战。现有基于集成学习的方法通过训练偏差模型捕捉数据集偏差,但由于偏差模型对偏差样本的识别能力不足,导致其难以充分学习偏差信息,进而削弱去偏效果。为了增强偏差模型学习数据集偏差的能力,本文针对 VQA 任务提出了一种自适应偏差学习网络(命名为 ABLNet)。ABLNet 的核心设计包括: 首先,提出了一种自适应的样本重加权机制,基于每个样本的梯度信息动态分配权重,从而增强模型对数据集中偏差特征的学习,提升模型的泛化能力。其次,提出了一种基于受限学习的网络剪枝策略,通过限制偏差模型的学习能力,使其依赖于数据集中的表面相关性和偏差特征。在 VQA-CPv1、VQA-CPv2 和 VQA-v2 这些具有挑战性的 VQA 数据集上进行了大量实验,实验结果证明了我们方法的优越性。
  • 曹小菲, 王润民, 崔灵馨, 柴欣灵, 丁亚军, 韩昌
    录用日期: 2025-05-23
    乳腺超声图像分割在计算机辅助诊断中具有重要意义,而现有方法受限于标注数据稀缺的瓶颈。近年来,生成模型在医学图像合成领域展现出潜力,但现有方法难以同时保证图像真实性与掩码语义一致性。针对超声图像数据集规模较小所带来的分割模型性能瓶颈,本文提出了一种创新的超声图像数据集扩增方法。首先,结合病理学视角,根据良性肿瘤与恶性肿瘤的特征,设计了一个掩码生成模块,该模块能够高效生成多个语义合理的掩码。接着,为了生成与这些掩码相对应的超声图像,本文提出了一种掩码引导的扩散模型(MDM)。该模型通过归一化方法将掩码信息引入扩散模型的去噪网络,从而生成语义上与掩码高度一致的超声图像。实验表明,所提方法在图像保真度(FID)和语义对齐(mIoU)指标上均取得显著优于主流生成模型。通过逐步增量生成数据的策略验证,分割模型的性能随数据量增加显著提升,证明了生成数据的有效性。
  • 陈凯, 陈志华, 戴蕾
    录用日期: 2025-05-22
    智能体深度确定性策略梯度算法(MADDPG)在解决多智能体路径规划问题时,通过引入全局信息缓解了环境非平稳性问题。然而,在复杂环境下,多智能体强化学习算法仍存在奖励稀疏、智能体协作水平低等缺陷。为解决上述问题,提出了一种基于状态动作预测的多智能体路径规划算法(SA-MADDPG)。其中,设计了基于长短期记忆网络的新奇奖励模块,能够在不依赖当前观测和动作的情况下,给予智能体新奇奖励值,以缓解奖励稀疏问题。此外,设计了一个动作预测模块,通过显式地引入协作信息,并提出了一个基于Q值增益的动态权重项,指导智能体权衡自身任务策略优化与协作任务策略优化,以提升智能体协作水平。最终,构建了一个基于无人机的三维多智能体路径规划仿真环境,以综合评估提出算法的性能。实验结果表明SA-MADDPG的平均奖励和平均回合时间:在障碍物密度实验中,分别提高5.26%-15.81%和减少10.96%-16.05%;在智能体数量实验中,提高16.32%-22.9%和减少15.03%-25.15%。
  • 田青, 申珺妤, 郁江森
    录用日期: 2025-05-22
    无监督域适应(Unsupervised Domain Adaptation, UDA) 旨在将知识从标记的源域迁移到未标记的目标域,从而提高目标域模型的性能。然而,传统的UDA方法假设源域和目标域的类别空间完全一致,无法处理目标域中存在的未知类别,这限制了其在实际场景中的应用。开放集域适应(Open-Set Domain Adaptation, OSDA)通过引入对未知类别的识别解决了这一问题,但如何有效减少域间差异和类别不平衡对模型性能的负面影响仍是一个重要挑战。现有的OSDA方法往往忽略了域特定特征,并简单地将域差异直接进行最小化。这可能导致类别之间的边界不清晰并削弱模型的泛化能力。因此,为了解决这一问题,本文提出通过最优传输距离正则化和近邻聚类方法的开放集域适应(Open-Set Domain Adaptation with Optimal Transport Distance Regularization and Neighborhood Clustering, OTRNC),该方法通过最优传输距离正则化方法来最大化高、低置信度样本组之间的分布距离,减少未知类别对域适应过程的干扰。之后利用动态近邻检索和不变特征学习,减少目标域内的类内变化,增强特征的泛化能力。实验结果表明,OTRNC在多个基准数据集上均表现出色。
  • 高林萍, 徐伟, 陈曦, 穆奕博, 张开
    录用日期: 2025-05-22
    随着软件规模和复杂性指数级地增长,对程序运行时行为的监控和分析变得越来越困难,动态二进制插桩技术是解决这一问题的有效手段,现有成熟的二进制插桩软件有Pin和Valgrind等,主要支持x86、ARM等主流架构,但在新兴的自主指令集架构上缺乏支持。龙架构作为我国自主研制的指令集架构,具有较好的自主性、先进性与兼容性,但其发展时间较短,生态环境尚不完善,特别是在调试工具链方面存在明显短板。为了填补这一空白,推动龙架构生态的成熟,推出一款支持龙架构的动态二进制插桩软件具有重要意义。本研究旨在设计并实现一款基于QEMU框架的动态二进制插桩软件,以支持龙架构的程序监控与分析。该软件对标Pin,设计实现了五个基础插桩粒度及相关插桩API,并在此基础上开发了20多个插桩工具,供用户直接使用或学习插桩工具的编写。为了提升框架性能,研究通过优化条件跳转指令的翻译、基本块链接和插桩内联等方法对框架进行了改进。性能测试结果表明,优化后的框架在指令级插桩效率上提升了100多倍,基本块级插桩效率提高了近33倍。最后,本研究将源代码在GitHub上开源,以促进龙架构生态的进一步发展,并为相关领域的研究者提供参考和学习资源。
  • 冯 涛, 胡 滨, 徐光源
    录用日期: 2025-05-22
    公共场所人群逃逸行为极易引发严重的公共安全灾难事故,传统计算机视觉技术能检测其少许特征,但面对复杂动态视觉场景捉襟见肘。针对该问题,基于蝗虫视觉神经结构特性、借助蝗虫小叶巨型运动检测器(LGMD)危险感知机理、哺乳动物视网膜流明自适应机制,提出一种增强型人群逃逸检测神经网络(ECEDNN)。所提出的神经网络采集视野域中人群活动引发的流明变化;借助哺乳动物视网膜流明自适应机制,调谐视觉响应兴奋以适应光照场景;视觉兴奋与抑制混合过滤背景噪声并采用中心环绕机制增强运动边缘;最后,神经尖峰自适应调谐用于实现对人群突发逃逸行为的检测并对其输出强烈膜电位兴奋。论文工作涉及生物视感机制启发的人群活动检测研究,可为人工智能中的人群行为活动感知、异常检测等提供新思想、新方法。
  • 胡财富, 魏波, 任芮彬
    录用日期: 2025-05-22
    随着网络环境的不断演进以及互联网应用的不断涌现,基于先前流量训练的机器学习分类器对新样本空间的适用性逐渐变弱,导致分类模型的识别能力下降,从而无法满足日益增长的网络业务和网络安全需求。若根据经验人工更新分类器需要耗费大量精力,且难以保证新分类器的泛化性能。与此同时,新数据的不断涌入对平衡模型训练精度与计算资源存储带来了严峻的挑战。基于此,本文创新性地提出一种采用空间优化技术的增量学习策略,以实现高效的网络流量分类。首先,通过优化新旧流量样本的空间分布,让新旧各类别所在的簇保持最小间隔,避免新旧任务因共享同一个特征空间而产生分布冲突。然后,在优化后的特征空间内,利用少量旧数据样本进行回放,并结合知识蒸馏技术来维持原始模型参数的稳定性,仅对模型的扩展部分进行调整,以最小的代价更新分类器。在USTC-TFC2016数据集上的实验表明,与其他方法相比,本文所提方法在模型精度、资源消耗与性能以及消融实验方面,均表现出较高的稳定性与有效性。
  • 谢晴晴, 刘媛媛
    录用日期: 2025-05-20
    在网络安全领域,网络钓鱼攻击日益复杂且频繁,传统基于预定义参考模板的网络钓鱼检测方案依赖品牌与域名映射列表,通过视觉特征匹配识别品牌意图并验证域名一致性,实现可解释的钓鱼检测。这类方案虽能抵御零日钓鱼攻击,但需持续更新参考列表以覆盖新兴品牌,而这也导致高昂的维护成本。为此,该方案利用大语言模型(LLM)和检索增强生成(RAG)技术提出了一种新颖的基于参考的网络钓鱼检测方案Phish-RAGLLM。Phish-RAGLLM无需依赖预定义的参考列表,将传统的视觉问题重构为语言问题,利用LLM蕴含的丰富品牌知识,并通过RAG技术结合外部品牌知识库增强模型生成能力,有效抑制了LLM可能出现的幻觉问题,提升了检测的精确度和鲁棒性。实验结果表明,与当前最佳模型PhishLLM相比,Phish-RAGLLM能权衡模型性能、推理成本以及知识库完备性,以GPT-3.5-turbo-instruct作为主干LLM,将F1分数提升了5.88%,运行效率提升了12.5%,且在面对数据集变化和提示注入攻击时表现出较强的鲁棒性。基于LLM的特性,Phish-RAGLLM对多语言钓鱼网站表现出良好的适应性,能够有效检测不同语言环境下的钓鱼网页。此外,实地评估表明该方案具有比VirusTotal这一威胁情报来源更为广泛的检测能力,进一步验证了其可行性和有效性。
  • 王朝扬, 孙未未
    录用日期: 2025-05-20
    组合优化问题在物流路径规划等领域具有重要应用价值,但其解空间随问题规模呈指数级扩张,导致传统方法面临严峻挑战。近年来基于强化学习的神经组合优化方法能够在保持较短求解耗时的同时,解质量已接近传统求解器的水平。主流方法POMO(Policy Optimization with Multiple Optima)通过对称性优化增强了训练稳定性,但其单向序列生成机制仍存在双重局限:一方面,传统构造式方法难以充分挖掘问题对称性特征;另一方面,终点信息无法有效参与远端节点的决策过程。针对这一问题,提出了基于双向构造策略(BCS)的BCS-POMO模型,它能通过起点与终点双向并行构造解序列,动态选择更有把握的扩展方向,避免模型因单向构造而陷入两难的抉择之中。该模型利用构造序列对称性实现权重参数共享,并通过批量并行计算提升效率。实验表明,BCS-POMO有效强化了终点信息在构造过程中的决策辅助作用,在旅行商问题(TSP)和有能力约束的车辆路径调度问题(CVRP)上分别使误差降低了16%和18%,验证了双向构造策略对终点信息利用的有效性和对称性建模的优势。
  • 郭子赟, 田有亮, 李梦倩
    录用日期: 2025-05-19
    联邦学习利用客户端的数据资源协作训练全局模型,全局模型效果取决于客户端的数据资源质量和其参与的积极性。因此,客户端期望在贡献高质量数据资源后得到相应价格补偿以提升自己参与训练的积极性。此外,由于客户端上传的本地模型参数蕴含着私有数据资源信息,进而面临着隐私泄露的风险。为了解决这些问题,提出了一个基于激励机制的自适应隐私保护联邦学习方案。首先,设计了先决博弈拍卖机制,确保客户端诚实报告成本并实现纳什均衡(NE)。其次,基于训练时间和模型损失值设计了训练质量评估算法,根据总训练质量评估值的高低给予客户端相应的价格补偿,激励高质量数据的客户端参与训练。最后,采用自适应差分隐私技术,对本地模型参数进行扰动,通过动态噪声分配提升模型可用性。理论分析表明,设计方案满足安全性和隐私保护需求,实验结果也验证了其有效性。
  • 陈新锣, 赵爽, 曹芳
    录用日期: 2025-05-19
    随着多媒体技术的发展,未经授权伪造和传播虚假信息的难度大大降低,可能引发一系列负面后果,亟需有效的内容认证方法以确保图像内容的真实性和安全性。近年来,感知图像哈希在图像认证领域展现出了非常优越的性能,然而,现有算法在处理文字占比较大的图像时效果并不理想,也无法有效应对划线等新型内容保留操作。因此,提出了一种基于感知哈希的图文图像内容认证算法。所提算法采用了环分割的图像划分方法,统计了每个环内尺度不变特征变换(SIFT)关键点的频率特征和分布特征,这些特征具有旋转不变性,可以有效提升所提算法的抗冲突性。通过获取关键点信息,所提算法对包括不规则划线在内的内容保留操作都具有良好的鲁棒性。构建了一个图文图像(TPMI)数据集对所提算法进行实验,与一些有代表性的算法相比,该算法在感知鲁棒性、抗冲突性和安全性方面都具有更好的性能。对于图像进行部分的篡改,能够很好的将每个篡改图像判断为与原始图像相似。此外,还针对现实中常见的划线攻击进行了实验,结果表明能够有效识别这类攻击图像。
  • 朱星坡, 王晓阳
    录用日期: 2025-05-19
    二分图中bi-triangle(6-环)的枚举是局部聚类系数计算等图分析任务的核心操作。随着实际二分图数据规模不断扩大,其数据量已超出单机处理能力,亟需依托分布式算法实现高效枚举。然而,现有分布式分图枚举算法(GP算法)存在子图组合数据量庞大,消息过载及重复枚举等问题。对此,基于bi-triangle拓扑特性定制分图策略,提出两种优化算法:方法1将bi-triangle视为由三个wedge结构组成,以wedge组为基本单位生成子图,并提出基于A型和V型wedge组拼接的子图组合构造机制,显著减少子图组合的数量和数据规模,最终以wedge三元组枚举bi-triangle。此外,为解决消息过载和重复枚举,方法1提出基于分布式存储系统的子图读取机制和顶点有序性的去重机制。方法2将bi-triangle视为由两个zedge结构组成,先以wedge组为基本单位执行第一次分图,再通过“压缩zedge组”的构造与还原机制完成第二次分图,最终以zedge二元组枚举bi-triangle,实现比方法1更低阶的计算复杂度。实验表明,与GP算法相比,方法1在子图组合数据量上平均减少205倍,枚举时间至少降低45倍;方法2则分别平均减少30倍,至少降低101倍。
  • 游奕桁, 王鑫, 马梦露, 王惠
    录用日期: 2025-05-19
    知识图谱作为人工智能领域的关键数据组织形式,在大数据与大模型蓬勃发展的当下,被广泛应用于众多领域。随着知识图谱规模不断扩大,现有存储结构暴露出数据导入速度慢、存储空间占用大等问题。为此,本文提出一种“关系型+键值对”的混合存储方案(KGHS),并设计基于属性频率的实体聚类算法。KGHS借助基于属性频率的实体聚类算法,对不同属性频率的实体簇进行分类。对于高频属性,利用关系型数据库存储,发挥其查询效率高的优势;对于稀有属性,则采用键值对形式存储,以展现键值对存储在处理稀疏数据时的灵活性。这种设计有效规避了关系型存储面对稀疏数据时产生大量空值的弊端,减少了键值对存储中键的重复存储问题,在确保数据灵活性的同时,显著提升了存储效率。在合成数据集和真实数据集上的实验显示,与现有方案相比,KGHS在真实数据集上存储空间节省50%以上,数据导入速度提升一个量级,且查询性能不受显著影响,充分说明KGHS有效地解决了大规模知识图谱的存储难题,为知识图谱在各个领域的广泛应用提供了有力的存储支持,具有重要的理论意义和实际应用价值。
  • 许鑫豪, 李子奇, 尹贺峰, 张永宏
    录用日期: 2025-05-19
    印制电路板(Printed Circuit Board, PCB)表面纹理复杂、缺陷尺寸小且种类繁多、形状各异,为准确检测小目标,通常需要添加更小尺度的检测头,导致计算成本大大提高,检测速度减慢。针对这一问题,提出了一种多尺度特征融合学习的PCB小目标缺陷检测模型PCB-Det。该模型在YOLOv8架构基础上,采用轻量级主干网络PP-HGNet替代原有主干网络,并结合GSPPFCSPC模块进行多层级特征提取,拓展感受野以丰富特征信息。同时,设计了Pro-BiFPN多尺度特征融合网络,通过增强相邻层特征之间的交互,优化浅层细节信息和深层语义信息的融合效果。此外,模型还使用共享特征分支对原有检测头进行轻量化改进,并引入Wise-IoU损失函数,动态调整损失权重,加速模型收敛。实验结果表明,PCB-Det在PCB_DATASET缺陷数据集上的平均精度达到98.1%,相比基准模型提升了3.5%,有效减少了漏检与误检,提高了PCB小目标缺陷的检测能力。
  • 徐少平, 王子超, 唐祎玲, 熊思龙
    录用日期: 2025-05-16
    人类视觉皮层采用分层结构,其中双目融合与双目竞争首先发生在低级视觉区域,但当前基于深度学习的立体图像质量评价模型普遍采用在网络的不同层次上融合左右视点图像特征来估计立体图像质量值,对人类低级视觉区域感知的模拟程度存在不足。鉴于此,本文提出了一种仿双目竞争的立体图像质量评价方法。首先,模拟双目视觉竞争现象,构建了一个基于无监督方法的双目图像融合模型。通过左右视点图像的梯度幅值响应来评估图像降质程度,确定左右视点图像的融合权重。并利用深度卷积神经网络对输入图像先验知识的获取能力,建立基于编码器-解码器架构的无监督图像生成网络,以左右视点两幅图像作为学习对象,实现左右视点图像的融合。其次,利用在大规模图像数据库上预训练的ResNet50模型从融合图像中提取质量感知特征,并构建了一个基于支持向量回归的特征质量映射模型来估计立体图像的质量值。实验结果显示,在四个经典立体图像基准测试数据库上,所提出方法在PLCC(Pearson linear correlation coefficient)和SROCC(Spearman rank order correlation coefficient)两个评价指标上均超过了0.96,并且均方根误差均优于对比方法。这表明,所提出的基于无监督双目图像融合的方法能够有效模拟双目视觉效应,从而显著提高立体图像质量评价的准确性。
  • 潘银仓, 张东, 李冠宇, 陈恒
    录用日期: 2025-05-16
    知识图谱的嵌入技术旨在将复杂的语义信息映射为易于计算的低维向量形式,从而支持高效的链接预测、知识补全等任务。然而,现有模型因受限于单一数学结构,难以同时兼顾三维方向敏感旋转与非交换组合特性,导致现有方法无法有效覆盖复杂关系模式的联合推理需求。为此提出融合四元数与对偶复数的TransQD知识图谱嵌入模型,针对因单一数学结构导致的表达瓶颈,TransQD首次引入四元数嵌入与对偶复数嵌入的协同机制:四元数嵌入部分通过汉密尔顿乘积建模三维方向敏感的旋转操作,捕捉实体间空间方向性交互;对偶复数嵌入部分利用其非交换性乘法运算严格表征顺序依赖关系,例如路径组合中顺序调换导致语义变化的场景,二者通过权重分配实现互补,从而覆盖更全面的关系模式。最后,TransQD在多个公开数据集上进行的链接预测与路径查询回答任务中均表现出卓越性能,同时设计并进行消融实验验证了双组件协同的必要性。
  • 袁寰宇, 傅建明
    录用日期: 2025-05-16
    对Android应用的逆向分析不仅有助于检测正常应用中是否存在隐私泄露、密码学误用等安全问题,也可用于分析恶意应用的行为。在此过程中,定位Native层二进制代码中的密码函数并识别其使用的密码算法及具体功能是一项极具挑战性的任务。现有的密码函数识别方法中,动态分析由于可以获取运行时信息,具有较高的准确性。然而,现有基于动态分析的工具主要针对x86/x64架构,难以有效应用于以64位ARM架构为主的Android应用程序。为解决这一问题,本文提出了一种基于挂钩的识别方法,用于定位和识别Android应用Native层代码中的密码函数。该方法首先基于常量特征、运算类指令统计特征、加密类指令特征这三类静态特征筛选出疑似密码函数,然后使用Frida对筛选出的函数执行挂钩操作,收集函数的传入参数、返回值等调用信息。最终,通过将被挂钩函数的运行结果与开源密码算法库中已知密码函数的运行结果进行匹配,识别密码函数的类型及功能。本文在三款主流Android应用上对该方法进行了测试,实验结果表明,该方法能够有效识别真实Android应用Native层代码中的密码函数。
  • 张茹, 孙伟峰, 张鹏, 张超, 戴永寿
    录用日期: 2025-05-16
    随着电磁信号分析技术和方法的不断更新,对电磁信号分析软件功能的快速迭代能力提出了更高要求。然而,传统架构由于系统耦合度高,模块间依赖性强,导致软件维护难度大、更新效率低,难以满足新功能的扩展需求。为了解决上述问题,提出一种基于插件式的电磁信号分析软件架构设计方法,旨在通过插件式设计降低系统耦合度,提升软件的可扩展性与维护效率。首先,依据软件的功能需求分析,制定了软件架构设计原则,并在此基础上设计了层次化模块化的电磁信号分析软件总体架构。然后,基于“平台+插件”的思想,设计了平台扩展接口和标准插件接口,以规范插件的开发与集成。同时,基于Qt框架的动态插件加载机制,设计并实现了插件管理器,并开发了支持跨平台运行的电磁信号分析原型软件。最后,基于EMSA度量方法对原型软件的可扩展性进行评估,同时在实际应用场景下进行测试验证。实验结果表明,插件式电磁信号分析软件的扩展能力相比模块化架构提升了58.33%,并在实际应用过程中表现出较高的稳定性和鲁棒性。
  • 李丹波, 颜学雄, 毛恩辉
    录用日期: 2025-05-15
    HTTP协议作为互联网通信的核心基础设施,其现代通信模型依赖多服务器协同工作。若处理链中的服务器未严格遵循协议规范或存在语义解释差异,将引发系统性特征的语义不一致问题,导致访问控制绕过、多Host问题、请求走私及缓存污染等安全威胁。差分模糊测试通过观测不同服务器对报文处理结果的差异,分析语义不一致问题。为了解决现有工具中字段集合范围失准、突变效率低、观测维度单一的问题,提出了一种改进的差分模糊测试方法。首先,基于关键首部的报文构建方法,筛选核心字段精简测试空间;基于字段语义的突变方法,结合语义分类与漏洞特征设计突变方法,丰富测试用例;扩展的报文分析方法,扩展报文分析范围至请求和响应报文,完整地观测通信过程,覆盖现有语义不一致问题的场景。最后,针对常用的7款服务器进行测试,分析发现18类服务器处理差异问题并验证出9对存在语义不一致问题的组合。相比同类工具t-reqs,将测试集合规模降低一个数量级,平均提升12.67%的有效测试用例占比,在同样的观测角度下额外发现2类新的差异问题,扩展测试范围覆盖当前语义不一致问题的四类场景。
  • 刘梓熠, 沙灜
    录用日期: 2025-05-15
    视觉语言导航 (VLN) 任务旨在引导智能体根据语言指令在3D或真实环境中移动到目标位置。然而,传统端到端深度学习VLN算法存在不足,智能体在导航规划中一旦出现错误动作,就容易进入错误路径,导致无法继续遵循指令或探索不必要的区域。为了解决这一问题,本文提出一种基于大模型和探索模块的智能体Nav-Explore。该智能体利用大模型强大的推理能力,结合语言指令和当前视觉信息预测下一步动作,并引入探索模块以平衡探索与利用。探索模块通过 ε - 贪婪策略决定智能体在正常导航和探索模式间切换,当随机概率小于 ε 时进入探索模式,智能体通过探索可能的未来路径,提前评估下一步行动的可行性,从而有效避免错误决策;而当随机概率大于 ε 时,智能体直接采用大模型输出的动作进行导航。这种模块化设计使得 Nav-Explore 方法能够有效地提升导航成功率,并增强智能体在未见环境中的泛化能力。实验结果表明,Nav-Explore在Touchdown和Map2seq两个户外环境VLN 基准数据集上取得了优异的性能,显著提升了导航成功率。此外,Nav-Explore也展现出较强的泛化能力,能够在不同的环境中有效地完成导航任务。
  • 闫世泽, 方志军
    录用日期: 2025-05-15
    知识图谱作为一种图结构数据组织方式,为推荐系统提供了更为丰富的语义信息和上下文背景,使得推荐系统能够有效地处理复杂的用户行为和物品特征。现有的基于知识图谱的推荐方法仍然面临诸如信息过度平滑和异常数据处理等问题,尤其是在大规模数据处理的场景中,过度平滑往往导致模型无法捕捉到个性化的用户需求,异常数据的干扰也可能影响推荐结果的准确性和鲁棒性。为此,提出了一种基于用户行为融合特征与异常点检测的知识图谱推荐模型。该模型通过引入用户融合行为特征,有效避免信息过度平滑的问题。且该模型结合了异常点检测机制,通过识别和剔除噪声数据和异常行为,显著提升了推荐结果的准确性和鲁棒性,减少了不良数据对推荐结果的影响。为了验证模型的有效性,在三个真实世界数据集上进行了实验。实验结果表明,与现有的最优基线模型相比,提出的模型在AUC和F1等指标上分别平均提升了6.77%和5.09%,尤其在数据稀疏程度较高的数据集上,模型的性能提升尤为显著,能够有效缓解数据稀疏性带来的问题。
  • 石旭, 解庆, 汤梦姿, 王玉菡, 刘永坚
    录用日期: 2025-05-15
    在互联网技术迅猛发展的当下,个性化推荐系统对于帮助用户筛选感兴趣内容扮演着至关重要的角色。传统的推荐方法在处理大规模数据和捕捉用户复杂偏好方面存在局限性,而现有的基于图神经网络(GNN)的推荐方法主要侧重于挖掘用户与物品间的直接交互关系,虽然提高了推荐的准确性,但其往往忽略了如文本、图像、音视频等多模态信息的融合与利用。元路径作为异构图中描述节点间复合关系的概念,有助于进一步提升嵌入质量和推荐效果,但现有模型要么忽略节点内容特征,要么丢弃了元路径上的中间节点,又或者仅考虑单一的元路径。针对现有多模态推荐系统的挑战,提出了一种基于元路径引导的多模态推荐方法(MAMGNN)。首先通过构建多模态异构图,整合来自不同模态的信息,然后利用元路径来引导信息在同种元路径内及不同种元路径间进行传播和聚合。此外,此方法还引入了图神经网络和注意力机制,以学习用户和物品的高质量嵌入表示,从而生成更精确且具有可解释性的推荐结果。在MovieLens-20M和H&M两个真实世界数据集上的广泛实验及小范围内的用户调研表明,MAMGNN在预测用户对项目的偏好程度方面效果显著提升,相较于基线模型,在Precision@10、Recall@10 和 NDCG@10三个指标上分别提高了约2.93%、1.98%、2.12%和3.43%、1.18%、2.40%。
  • 代子男, 张捷, 陈冲冲, 谌章义, 陈付龙
    录用日期: 2025-05-14
    中文医疗命名实体识别旨在从医疗文本中识别具有特定意义的实体,如疾病、药物、症状及身体部位等多种类型的医疗实体。这一任务可为临床辅助决策、医疗信息整合和病案管理等方面提供有力支持。现有的中文医疗命名实体识别研究尚未充分考虑医疗文本的复杂结构,存在专业术语繁多、嵌入信息单一以及语义信息利用不足等问题。为此,提出了一种融合多级别粒度特征的中文医疗文本命名实体识别模型。该模型首先利用BERT预训练模型生成文本的字嵌入表示,并设计了一维卷积神经网络和二维卷积神经网络提取字符的字形与笔画特征,同时通过外部词库引入词级特征,以增强对词与实体边界的信息表达。此外,模型还加入句子级特征以捕获全局语义特征。通过交叉注意力机制将上述多级别的粒度特征进行迭代融合,得到包含深层语义信息的嵌入表示,最后并利用条件随机场输出实体识别结果。在CCKS2017和CCKS2019数据集上的实验结果表明,该模型F1分数达到92.88%和87.86%,相较于当前主流模型展现了更优异的识别性能。
  • 李红棒, 董理, 王让定, 严迪群, 李元满, 廖鑫
    录用日期: 2025-05-14
    二维码作为一种高效的信息存储和传输方式,广泛应用于支付、广告和物流等领域。然而,现有二维码隐写技术在噪声和干扰环境下的鲁棒性和隐蔽性尚存不足,难以满足高安全性信息传输的需求。为此,研究提出了一种基于路径规划和像素翻转的鲁棒二维码隐写算法。该算法通过将二维码视为迷宫,结合路径规划算法选择像素进行翻转,确保在不影响二维码正常识别的前提下增强秘密信息的抗干扰能力。在技术实现上,首先设计了路径规划算法用于选择最优像素点,以减少信息嵌入对二维码图像质量的影响;其次,结合像素翻转技术实现秘密信息的嵌入,并分析其在不同噪声条件下的表现。实验采用噪声攻击、图像扰动、物理失真等典型干扰场景对算法进行测试,并以嵌入容量、图像质量以及信息恢复率为评价指标。结果显示,该算法在提高二维码隐写的鲁棒性和隐蔽性方面具有显著优势,适用于信息安全需求较高的场景,同时为二维码隐写技术的进一步发展提供了新的思路。
  • 林澍, 黄家玮, 邵婧, 李思覃, 梁琦, 王启乐, 赵艺琳
    录用日期: 2025-05-14
    在网络通信和网络流量管理等领域中,快速、准确地识别大流对流量拥塞控制、恶意流量监测等任务具有重要意义。然而,现实网络环境中的数据流传输速率极高,使得大流检测变得异常复杂和具有挑战性。目前,大多数现有的大流检测方法主要依赖单一维度的统计数据,通常仅基于流中数据包的估计值进行流量统计与分析。这种方法的局限性在于忽略了其他潜在维度的关键信息,例如数据包间隔的分布特性,这些信息在准确识别大流时可能起到关键作用。针对上述问题提出了一种新颖的大流检测算法——间隔值草图。该算法通过引入两个维度的流量特征,即流的估计值大小和数据包间隔分布特性,优化了大流的保护与小流的替换策略。具体而言,间隔值草图通过结合数据包间隔特性,可以有效区分大流与小流,从而在低内存条件下显著提升检测性能。为验证间隔值草图的准确性和有效性,采用了两个真实网络流量数据集——CAIDA和MAWI进行实验分析。结果表明,间隔值草图在多种内存设置和流量分布情况下均表现出显著的优势。与现有方法相比,间隔值草图不仅能够在内存资源受限的情况下保持较高的检测精度,还在F1分数上实现了显著提升,最高可达到现有设计方案的2.4倍。
  • 沈勤丰, 黄璐瑶
    录用日期: 2025-05-14
    连续学习是一种能在连续的数据流中训练模型的深度学习范式,适合日益开放复杂的智能应用场景。连续学习最大的挑战是“灾难性遗忘”,即模型在学习新知识后会遗忘过去学习的知识。现有的连续学习忽视了不确定性对模型训练的影响,且大多数方法都聚焦于连续学习后续阶段的改进,对模型初始阶段研究较少。本文提出一种基于不确定性校正的可信连续学习方法,通过在初始阶段约束模型输出的不确定性来弥补模型参数漂移带来的分类误差,从而缓解“灾难性遗忘”。本文方法可以与其它连续学习方法相结合并形成改进模型,具有较强的通用性。本文对三种经典的连续学习方法进行改进,实验结果表明均能有效提高原始模型的性能:在两个数据集上平均准确率提升1.2%-19.1%。除此之外,本文引入期望校准误差评判连续学习模型的可靠性,实验表明,对比原始模型,基于本文方法的改进模型具有更低的期望校准误差,这证明基于本文方法的改进模型更加可信。
  • 宋书汉, 田有亮, 王帅
    录用日期: 2025-05-14
    联邦学习作为一种分布式机器学习框架,能够在保护数据隐私的同时实现模型协同训练。然而,联邦学习在隐私保护、参与方互信及恶意攻击等方面仍面临挑战,尤其是在分层架构联邦学习中,中心服务器、中间层及终端设备的不可信性可能导致隐私泄露或恶意操纵。此外,恶意用户可能上传异常参数破坏训练进程,影响模型性能。因此,如何在分层联邦学习中高效实现安全验证和恶意检测,成为亟待解决的问题。本文针对分层架构联邦学习中的参与方无法互信、拜占庭攻击等问题,提出一种分层架构下的非交互式验证联邦学习安全聚合方案。首先,基于承诺方案设计多层架构下的联邦学习非交互式验证机制,允许各参与方进行互相验证。其次,基于零知识范围证明构造恶意更新的约束与检测方案,使服务器能检测并剔除恶意用户。再次,基于中国剩余定理设计噪声掩码方案,在保证用户本地隐私的同时,还支持用户的退出与重连;最后,安全性分析与实验评估表明,本方案能够以较高的效率实现安全相互验证以及恶意检测。
  • 朱文倩, 宋丽娟, 郭新茹, 马子睿
    录用日期: 2025-05-13
    在基于神经隐式表面学习的多视图三维重建过程中,复杂物体的几何形状和外观表示存在潜在的模糊性。因此,物体的几何细节信息在纹理稀疏区域、边界区域与较大光滑区域中容易丢失,难以精确恢复。为解决这个问题,提出了一种基于多视图混合一致性约束的神经隐式表面重建方法。该方法采用多视图立体(MVS)、多视图光度一致性与特征一致性、体渲染技术来优化隐式表面表示,从而重建具有精细几何细节的复杂物体模型。首先,提出了一个基于多视图立体的稠密点生成模块,通过MVS生成稠密点,来补充物体表面纹理稀疏区域与边界区域的细节信息,从而实现物体表面的多视图几何优化。其次,提出了多视图混合一致性约束模块,通过符号距离函数(SDF)定位零水平集,利用多视图光度一致性约束来对物体光滑区域进行几何约束,监督所提取的隐式表面,并对经过线性插值的SDF过零处的表面点应用多视图特征一致性约束,弥补纹理稀疏区域或结构复杂区域像素匹配的误差,从而优化物体重建模型。最后,通过应用体渲染技术,利用隐式的SDF得出高质量的图像渲染,以实现复杂物体的精确表面重建。实验结果表明,在DTU数据集中,相比于Colmap等方法,所提方法峰值信噪比(PSNR)提升了40.3%以上,实现了物体表面的精确重建。
  • 叶宇航, 任潇宁, 吴月明
    录用日期: 2025-05-09
    针对现有代码克隆检测工具在多语言适配与大规模克隆分析方面存在的不足,提出一种基于解析树和图形处理器(GPU)加速的大规模代码克隆检测方法—TGMM。该方法采用三级处理架构进行克隆分析:首先,根据各编程语言的词法与语法规则生成标准化解析树,并从中提取满足特定粒度要求的子树;其次,通过对子树进行剪枝和语义等价转换,实现子树的简化与非功能性差异的消除;最后,利用GPU并行构建全局后缀数组,实现大规模代码块相似度的快速计算。实验环节从克隆检测效能和语言扩展性两个维度对TGMM进行了测试:在公开的基准数据集BigCloneBench上,TGMM以97%的精确率显著优于对比的7种主流工具,其平均执行时间较次优工具缩短50%以上,同时保证召回率在各类克隆类型上与对比工具相当;在语言拓展性测试中,TGMM成功解析30种主流编程语言中的25种。此外,通过应用TGMM对GitHub排名前45的项目(涵盖9种编程语言)执行多粒度克隆分析,首次揭示了不同语言在克隆分布密度上的显著差异,并详细分析了其背后成因,从而为软件维护提供了切实有效的参考依据。
  • 罗正东, 张国昊, 韩云飞, 王轶, 周喜
    录用日期: 2025-05-09
    现有表格数据预测方法主要聚焦于传统分类和回归的研究,然而在表格数据领域中存在一种标签具有有序关系的数据类型,其预测任务被称为表格有序分类。目前表格有序分类方法主要采用检索相似特征的方式,通过相似特征与类间有序距离融合增强样本特征表示。但现有方法忽略了标签有序知识的充分利用,因此提出一种基于标签有序熵优化的方法,通过挖掘标签有序知识中蕴含的有序熵,有效指导模型学习有序信息。具体而言,首先建立有序熵计算模块,利用预测标签与真实标签之间的等级顺序差异量化有序熵。通过逐步分析和推导,将标签有序熵设计为一种新颖排序损失函数,作为正则项引入模型,鼓励模型学习标签等级顺序关系,以减少无序预测带来的信息损失。然后,将有序熵优化排序损失函数与模型原有损失函数相结合,共同提升模型的预测能力。最后,在多个有序表格数据集上的实验结果显示,该方法相较于多种基线模型取得了性能提升,充分证明了有序熵优化模型在表格有序分类任务中的有效性与优势。