作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用

Please wait a minute...
  • 全选
    |
  • 孙伟, 陈俊杰
    录用日期: 2025-10-13
    玉米是重要的经济作物,广泛应用于工业、畜牧业及粮油加工等领域,病害的及时识别对保障产量具有重要意义。当前,卷积神经网络(CNN)等深度学习方法已广泛应用于病害识别,但多数方法仅依赖图像信息,忽略其他模态特征,且模型参数规模较大,部署成本较高,限制了实际应用。为解决上述问题,提出一种基于图像-文本多模态的轻量级缓存模型MF-cache,模型参数量仅为0.061M,兼具低计算开销与较高识别精度。该模型借助多模态预训练模型CLIP提取图像与文本特征,通过并行融合策略获取融合特征,用于构建含领域知识的可学习key-value缓存结构。此外,采用加权的两阶段融合机制,用于动态调整不同模态对分类结果的贡献比例,提高分类稳定性与合理性。为增强鲁棒性,还引入多种数据增强策略,提升样本多样性,缓解小样本带来的过拟合问题。在自建数据集CornI&T与公开数据集PlantVillage上的实验结果显示,该方法分别达到99.72%与98.80%的准确率,具备良好的泛化性能。结果表明,所提方法在保持低计算开销的同时,具备良好的识别性能,为作物病害检测提供了一种高效可行的解决方案,并展示了多模态预训练模型与小样本学习在农业智能识别领域的应用潜力。
  • 蒋雨宏, 蒋清泉, 张瑞, 席慧娟, 吴炯桃
    录用日期: 2025-10-13
    在电子商务平台中,用户的点击数据急剧增长。在推荐系统中通过对电商用户的长期行为序列建模,对于捕获用户的偏好至关重要。目前普遍使用两阶段点击率(Click-through Rate , CTR)预测模型来预测长序列用户的点击率,即第一阶段通过近似检索从海量历史行为中筛选与目标项目相关的子序列,第二阶段对子序列进行精细兴趣建模。但是,在两阶段模型中存在着第二阶段搜索过程中存在着较少关注用户行为趋势性特征的问题;存在着跨阶段语义错配问题,导致第二阶段子序列未能完整传递用户真实兴趣结构。为此,提出一种可以感知趋势的概率注意力结构。该模型提出趋势感知特征建模,捕捉用户行为中的时序趋势。且结合概率注意力机制,统一跨阶段的兴趣表征,显著提升了长序列电商用户点击率预测的预测精度。为了验证模型的有效性,在两个真实的电商数据集上进行了实验。与最先进的基线模型相比,该模型在AUC和Logloss两个指标上最高提升了1.14%和4.2%。说明该模型不仅能识别用户行为中的趋势特征与动态偏好结构,更验证了跨阶段语义一致性的优化价值。
  • 杨春霞, 王新奥, 王宇龙
    录用日期: 2025-10-11

    高精度的空气污染预测对环境治理与公共健康防护至关重要。本文针对预测任务中存在的时空异质性和多特征耦合问题,提出了一种多重解耦的时空动态图卷积网络(MD-STDGCN),旨在精细化建模本地污染物排放的特异性时序模式和跨区域污染物输送的动态交互过程。该模型首先采用双路径自监督掩码预训练进行特征增强,时间路径通过局部子序列重建强化时序特征提取能力,空间路径通过节点序列重建捕捉空间异质性,从而缓解分布偏移和异质性带来的表征退化问题。其次,模型引入多级残差分解与层级式预测框架,逐步提取时空序列的全局时序模式、局部时空模式和短期扰动成分:利用通道独立卷积与多尺度因果时间注意力提取宏观趋势;通过自适应权重估计门与动态图卷积,建模具有方向性和时滞性的空间输送特征;再由GRU补充性地建模短期扰动成分。最终,模型融合双路径增强表征与多分支预测结果,实现端到端的多步预测。实验结果表明,MD-STDGCN全面优于基线模型,其预测精度在所有数据集上均有显著提升:在KnowAir、长三角和KnowAir_V2数据集上,平均MAE分别降低了7.34%、1.88%和12.57%,RMSE分别降低了7.64%、2.44%和11.29%。MD-STDGCN通过双路径特征增强、多级解耦与动态图学习有效缓解了特征纠缠和异质性的影响,提升了预测精度与鲁棒性,可为空气质量监测与治理决策提供可靠支持。

  • 冯国平, 陈志坚, 林志煜, 洪亮
    录用日期: 2025-10-11
    以电力领域为例对术语识别任务进行了研究,旨在解决电力行业在数字化转型过程中面临的术语识别挑战。电力行业面临着数据孤岛和知识难以活化利用的问题,要求有更高效的方法将文档中的术语实体转化为可操作的知识以支持决策制定和技术创新。为了应对专业术语难以辨认、新颖术语难以发现等问题,提出了一种基于动态领域图谱与大小模型协同的术语识别方法,从候选术语提取和术语筛选分类两个任务阶段中分别提高术语自动识别的查全率和查准率。首先使用已有术语库构建初代知识图谱,然后查询目标文本相关的节点并结合术语特征进行模型过滤,利用检索增强提示辅助大语言模型提取候选术语,再通过对抗训练获得术语分类的深度学习模型,根据深度学习模型的分类结果迭代动态术语知识图谱。实验结果显示,方法的准确率、召回率和F1值在迭代过程中逐步提升,最终达到了0.8647、0.8565和0.8542,与其他术语识别方法相比,在上述三者指标上均显示出优越性。
  • 李光, 周义强, 高心丹
    录用日期: 2025-09-29
    RGB-T(RGB-Thermal)语义分割是在照明不良或者完全黑暗的情况下实现可靠的语义场景理解的一种解决方案。热成像通过捕捉物体红外辐射特征,能在低光条件下保持稳定的边缘检测能力,可以有效弥补RGB图像在低光下导致的纹理细节丢失问题。然而,对于现有的RGB-T语义分割方法,在多个层次的信息交互中,未能对不同模态之间的有效信息进行充分利用,导致产生不准确的预测结果。为了解决这一问题,构建了CMFANet(Cross-Modal Fusion Attention Network)跨模态融合的注意力网络。首先设计了一个跨模态融合模块,旨在建立RGB图像和热图像特征之间的互补关系;其次考虑到多维度和多尺度信息的重要性,在编码端引入多维度注意力模块用来强化深层特征提取,在解码端引入多尺度特征聚合模块来帮助模型捕捉纹理细节和轮廓信息;最后在解码端引入小波变换与卷积优势互补,提高分割精确性。在MFNet数据集上,平均准确率(mAcc)和平均交并比(mIoU)指标分别达到73.8%和59.0%;在PST900数据集上,mAcc和mIoU指标分别达到90.71%和85.15%。与现有前沿方法相比,模型在关键目标(如MFNet的汽车、行人、自行车和PST900的幸存者、背包)上表现尤为突出,可视化结果验证了其能有效融合RGB与热成像模态信息,在低光场景下恢复纹理细节与目标轮廓,展现出了更好的分割效果和良好的泛化能力。
  • 许岱, 张秀再, 杨昌军, 钟扬, 郭琳
    录用日期: 2025-09-29
    高分辨率遥感影像的高原湖泊水体精准识别对区域生态保护和水资源管理具有重要意义。针对高原场景中水体占比低、细节特征易丢失所引发的多尺度特征融合不充分与高频细节衰减,进而导致边界模糊、细小水体漏检及复杂场景误分割等难题,提出基于频域-空域协同的双分支多级融合网络(Wavelet-ResNet-Swin Network, WRS-Net)。通过自适应多级小波分解提取水体的低频轮廓与高频细节特征,同时采用多阶段ResNet50,在各阶段末通过高频门控单元增强纹理响应,捕获空间语义信息;继而设计跨模态注意力融合模块实现多尺度语义与细节的协同优化,结合特征对齐模块解决跨层级特征错位问题;最后通过Swin Transformer进行全局上下文建模。在自建高原湖泊数据集上的实验表明结果,WRS-Net的Acc和mIoU两个指标分别为96.52%和93.44%,优于其它对比网络,提升了对遥感影像中高原湖泊水体识别的精度。
  • 李洁, 李林森
    录用日期: 2025-09-29
    随着物流业务的发展,无人机群协同配送成为降本增效的关键方案。面向传统配送业务的需求及无人机自身的约束,提出一种面向时间窗约束的无人机群绿色协同配送机制。首先,构建多任务点配送场景,设定任务时间窗、任务等级、无人机载重能力与飞行姿态相关能耗等参数,建立以任务收益最大化和能耗最小化为优化目标的多约束模型;然后,通过对斑马优化算法进行离散化处理,使其适应于无人机群路径规划和任务分配的离散问题,设计个体编码规则,引导种群在解空间中进行高效搜索,生成配送方案;最后,在不同任务规模和约束条件下构建仿真环境,对该机制进行系统性测试和对比验证。实验结果表明,所提出的机制在能耗控制、任务收益与收敛速度等方面均显著优于IGCPA、AGA和ACO算法,能够在满足复杂任务约束的同时提升配送效率、降低能源消耗,展现出良好的工程应用前景。
  • 张丽娜, 张晨煜, 王博毅, 姜天, 申腾飞
    录用日期: 2025-09-29
    心血管疾病的全球蔓延使得心电图(electrocardiogram,ECG)信号分析成为临床诊断的关键工具。然而,ECG信号的多标签分类多依赖完整的12导联,且面临导联间的时空特征融合不充分、类别不平衡等挑战。为此,提出了一种基于少数导联的端对端深度学习模型,通过轻量化多尺度倒残差特征提取模块提取ECG信号的跨尺度时域特征,结合时序卷积网络与双向门控循环单元捕捉信号中的时序依赖,提升模型对复杂时空特征的建模能力。为优化特征融合过程,设计了一种双向的时域-时序交叉注意力模块,自适应融合多导联时空信息。针对类别不平衡问题,设计动态加权焦点损失函数,该损失函数通过动态调整样本权重增强少数类识别能力。在CPSC-2018数据集上的实验结果表明,在仅使用I、II和V1导联信号的情况下,该模型平均F1-score达到0.841,其中房颤、左/右束支传导阻滞的F1-score分别为0.942、0.906和0.951。在PTB-XL数据集上的实验结果同样表现优异,验证了其在资源受限环境中的应用潜力,为精简导联下的ECG多标签分类提供了新思路。
  • 张东, 彭长根, 谭伟杰, 蔡传达
    录用日期: 2025-09-29
    可搜索加密的提出为云端数据的加密搜索提供了有效的解决方案,有效缓解了本地存储与计算资源受限的问题。然而,目前大多数方案主要依赖关键字词频统计或单一语义检索,不能同时支持关键字和语义并存的检索任务;且大多数方案普遍采用树形存储结构,对于大规模数据集的检索效率不高。因此,本文基于Milvus向量数据库及其内置的分层可导航小世界图(Hierarchical Navigable Small World,HNSW)数据结构,提出一种高效的混合密文检索方案。方案采用北京智源研究院推出的第三代通用文本嵌入模型(BAAI General Embedding Model v3,BGE-M3)提取高质量的文档语义向量和关键字向量,通过AES、基于哈希的消息认证码密钥派生函数(HMAC-based Extract-and-Expand Key Derivation Function,HKDF)及随机矩阵变换等密码学技术对原始向量进行加密处理,利用加密后的向量构建HNSW索引,并存储到Milvus向量数据库。检索时,通过动态加权融合排序对语义与关键字检索结果进行重排序,在大规模数据环境下实现实时、高效的密文检索。同时,方案支持动态插入、更新和删除操作,具有良好的扩展性。在真实数据集上的实验结果表明,所提出的方案在保障数据安全的同时,提升了检索效率和检索精度,降低了计算开销。
  • 刘浩南, 周刚, 刘江涛, 贾振红, 王佳佳
    录用日期: 2025-09-25
    棉花生长期间各类昆虫种群动态直接影响农业决策,精准掌握不同昆虫的种群密度是棉花科学种植与虫害防控的关键前提。在虫害检测任务中,目前的小目标检测算法虽然可以有效地检测到小目标昆虫,但在处理较大的昆虫时往往失效。为此,本研究提出了MSDSR-YOLO(Multi-scale Dynamic Super-Resolution Reconstruction YOLO)目标检测模型,利用图像超分辨率技术与动态卷积的有机结合,在提升小目标检测能力的同时进一步优化对其他尺度目标的检测性能。该模型设计了一种新的特征图超分辨率重建网络SMAR-SRNet(Self-Modulated Attention-Residual Super-Resolution Network)并将其嵌入到YOLOv11模型中配合P5-to-P3的特征融合策略,实现了主干深层特征的精准重建并与原始浅层特征进行跨层级融合,增强了对小目标样本的检测能力以及对局部和非局部特征的捕获能力。然后,本研究将全维动态卷积(ODConv)引入网络的主干和颈部结构,结合C3K2模块构建了C3K2-OD,其通过多维动态卷积核提升了模型捕获丰富上下文线索的能力,增强了网络对多尺度昆虫检测的鲁棒性。最后,本研究构建了一个包含7种不同尺度棉田昆虫的新疆地区黄色粘虫板棉田昆虫数据集XJ-CottonPest2024。实验表明在自建数据集和公开数据集上,MSDSR-YOLO均能达到最优的mAP50值,且对不同尺度昆虫进行对比分析后进一步证明所提网络在以小目标为主、多尺度共存昆虫检测中的优势,有助于在智慧农业领域的应用。
  • 李佳坤, 刘艳青, 杜方, 余振华, 冯宇, 王慧, 霍显浩
    录用日期: 2025-09-25
    针对通用医学大模型在脑肿瘤领域存在的专业数据匮乏、临床适应性不足及生成内容准确性有限等问题,提出了一种专用于脑肿瘤诊疗领域的大型语言模型BrainTumorLLM。该模型基于Meta-Llama-3-8B-Instruct模型,通过监督微调(Supervised Fine-tuning,SFT)和人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF)技术优化,结合自建的高质量脑肿瘤问答数据集BrainTumorQA进行训练。数据集采用宏观-微观协同的构建框架,共包含11,000条问答对,涵盖宏观医学知识(症状、诊断方法、治疗方案)及微观临床病例(1252份真实脑肿瘤MRI报告),并通过脱敏处理与信息约束策略保障数据安全。技术实现中,采用低秩适配(Low-Rank Adaptation,LoRA)技术提升训练效率,设计宏观与微观两级提示模板引导模型生成专业化回答,并引入人类反馈学习,通过专家偏好驱动优化机制以及近端策略优化(Proximal Policy Optimization,PPO)算法强化生成内容的临床一致性。实验结果表明,BrainTumorLLM在脑肿瘤问答任务中显著优于通用及医学领域模型,在自动评估环节,其BLUE-1、BLUE-2上分别达到了0.3383和0.2684,ROUGE-1、ROUGE-2和ROUGE-L得分分别为0.3237、0.1466和0.2611,与较基底模型相比困惑度从20.362大幅降至7.674,充分显示了该模型在脑肿瘤诊疗领域的专业性、精准性及临床应用潜力,为脑肿瘤的诊断、治疗决策以及医学科研等工作提供有力的智能化辅助支持。
  • 耿永康, 庞春颖, 李佳, 周苇锟, 马圣哲
    录用日期: 2025-09-23
    近年来,多模态磁共振成像技术在脑疾病诊断与脑网络分析中展现出显著优势,但如何有效在磁共振数据rs-fMRI(静息态功能连接)、DTI(白质纤维结构)等多模态进行数据优化和关联化,并提取具有强拓扑表征能力的低维脑网络特征的研究仍面临挑战。针对多模态脑网络(rs-fMRI/DTI)分析中特征优化与拓扑信息捕获和利用的问题,本文提出联合优化框架。首先,为缓解特征分布偏移与模态异质性,提出基于SPAMS的多模态字典学习数据增强策略,通过联合优化功能连接的脑网络、弥散结构脑网络,构建共享稀疏字典,生成解剖-功能一致性增强数据,来提升组间相似性与特征质量。其次,为有效捕获脑网络复杂拓扑信息,提出黎曼流形约束损失自编码器(RM-Loss AE),将特征空间建模为正定矩阵流形,引入对数欧氏度量(Log-Euclidean Metric)等优化重构损失。在ADNI(阿尔茨海默病)和ABIDE-II(自闭症)数据集上的综合实验表明,本文方法显著提升了特征可分性(Fisher Score)、分类性能(AUC)以及rs-fMRI与DTI模态间的耦合强度等指标,为多模态脑网络表征学习提供了新范式,推动其在精准医疗中的应用。
  • 闫平, 杨杰龙, 黄道缘, 钟石峰
    录用日期: 2025-09-19
    强化学习在机器人控制中面临奖励函数设计困难的挑战,而模仿学习虽规避了奖励工程的难题,却需依赖高成本的专家动作数据。为此,研究提出一种基于预测-协同优化的机械臂零动作模仿学习框架。该方法融合模型预测控制(MPC)与最大后验概率(MAP)的贝叶斯修正,通过多步动作序列优化实现机械臂精准操控,同时消除对专家动作数据和人工奖励设计的依赖。框架的核心是利用MPC的滚动优化机制,以最小化多步状态误差为目标,动态调整动作序列,增强对噪声和预测不确定性的鲁棒性。在此过程中,MAP方法被引入到单步优化,通过先验分布与似然性修正每个动作,提升动作优化的局部合理性与效率。与传统方法不同,该框架仅依赖专家状态而非专家动作,通过预测模型生成目标状态,避免了专家动作数据收集的困难,同时克服了预测误差累积的问题。实验结果表明,该方法在多种机械臂仿真任务中均优于现有基线方法,其中平均回报提升约45.8%,预测误差降低约50.7%,展现了更高的动作执行精度和对复杂环境的适应能力,并在真实机械臂平台上实现了稳定的控制,验证了跨平台工程化潜力。
  • 陈自良, 钟原, 李平
    录用日期: 2025-09-19
    联邦学习框架下,各参与方通过共享模型参数而非原始数据来协同训练全局模型,这种分布式训练方式在保护数据隐私的同时,也带来了新的安全挑战。由于分布式的本地训练难以监督,联邦学习系统更容易遭受模型中毒攻击。大多数现有的模型中毒攻击方法是对模型所有参数进行操作,通过统计相似性检查,可较容易检测到模型的显著改变。为了进一步分析该类攻击方法可能存在的隐秘方式,研究了一种针对联邦学习敏感参数扰动的模型中毒攻击方法(FedMSP)。该方法通过分析模型参数的梯度变化,精准识别出对模型性能具有显著影响的敏感参数,并对这些敏感参数施加扰动,以提高本地中毒模型的抗检测性,降低整体模型性能。此外,还提出了一种基于距离和方向不变性的攻击机制。该机制通过保持攻击向量的距离和方向不变,使攻击者能够有效规避现有的防御机制,显著提升模型中毒攻击的成功率。实验结果表明,针对Fashion-MNIST和CIFAR-100数据集构建联邦预测模型,当无防御条件时,该攻击方法将模型的测试准确率由原来的99.48%和61.37%分别降低至14.43%、8.27%;加入防御机制后,模型准确率回升至15.75%、10.87%,但仍显著低于正常水平。此外,FedMSP在多种安全聚合算法中展现出最优或接近最优的攻击效果,充分证明了其降低模型性能和减缓收敛速度的能力,为联邦学习的安全性研究提供了新的视角和挑战。
  • 晏燕, 王龙, 寇馨予
    录用日期: 2025-09-19
    针对现有轨迹隐私保护方法存在轨迹效用性不高和隐私保护不充分的问题,提出一种基于Peephole LSTM的生成对抗网络轨迹隐私保护方案。该方案设计了融合窥孔链接机制的生成器模型,使各门控单元能够根据细胞状态的即时值自适应调整,从而更有效地感知上下文信息并捕捉轨迹序列内的依赖关系;判别器则利用长短期记忆网络判断合成轨迹的真伪。通过生成器和判别器的对抗训练,生成符合原有统计特征的轨迹数据,降低了攻击者识别用户的概率,从而增强用户轨迹信息的隐私保护。针对轨迹生成任务的多维特性,设计了新的轨迹损失函数,用以度量合成轨迹与真实轨迹在空间、时间、兴趣点类别上的相似度损失。通过在真实世界语义轨迹数据集Foursquare NYC上执行的轨迹-用户链接任务等实验证明,与LSTM-TrajGAN、TCAC-GAN等模型相比,本文方案生成的合成轨迹在降低重新识别概率的同时更好地保留了原始轨迹的空间、时间和兴趣点类别属性特征,从而有效平衡了轨迹数据的隐私性和效用性,确保其在时空分析和地理应用中的有效性。
  • 李伟, 李小玲, 刘子琼, 黄颖
    录用日期: 2025-09-19
    处理约束多目标优化最关键的是如何在满足约束条件和目标函数最小化的同时,平衡算法的多样性和收敛性。现有的基于分解的约束多目标优化算法在面对具有复杂约束前沿的问题时,不能很好的利用不可行解信息,且难以平衡种群的收敛性和多样性。针对这一问题,提出一种基于强化学习双种群的约束分解多目标优化算法。该算法使用基于强化学习ε约束自适应策略和双种群合作信息学习策略帮助种群收敛到真正约束前沿上。前者利用强化学习的Q-learning自适应选择ε约束方法,通过将强化学习引入到自适应选择ε约束方法,可以让种群根据实时进化状态确定最优的ε约束方法,以增强全局搜索能力,使算法更好地逼近真实的前沿。后者设计一种双种群合作信息学习策略,通过两个种群的合作信息交流学习和不同的子代产生和后代选择策略指导算法充分利用不可行解的信息找到真正的约束前沿,从而平衡种群的收敛性和多样性。最后还将提出的算法与六个先进的约束多目标优化算法在33个测试问题进行对比,并应用在四杆桁架实际问题上进行仿真实验,实验结果表明所提算法在求解理论问题和实际问题时较其他算法具有更好的性能。
  • 薛立德, 王明政, 肖楚乔, 杨昊
    录用日期: 2025-09-19
    随着分布式能源的快速渗透,智能电网在能源交易的高效性、实用性和安全性方面面临日益严峻的挑战。现有区块链解决方案因存储/计算开销过大及可扩展性限制,难以满足资源受限的电网端侧设备需求,尤其在动态负载场景下性能瓶颈显著。本文旨在设计一种轻量化、高扩展的区块链系统,以优化分布式能源交易系统性能,降低节点运营成本,并提升电网资源利用率。为此,提出一种时空优化驱动的双层区块链系统——E-chain,该系统通过利用能源交易的时空聚合特性,构建了一种优化的区块链体系结构,其采用两层架构设计,集成了创新的链上轻量级数据结构与链下交易验证机制。这种双重机制在有效减轻主链负担的同时实现了系统级负载均衡和链下交易的高度安全,从而高度适用于边缘电网设备。通过形式化分析与大规模原型实验验证,E-chain可在10,000节点规模下实现电网资源利用率≥90%、交易确认延迟稳定于10秒量级且节点通信计算成本与网络规模、系统运行时间等因素解耦并保持在近常数水平,这相较于现有的分布式能源交易区块链协议具有显著优势。E-chain通过时空优化解耦设计,解决了电网端侧设备资源约束与系统可扩展性之间的核心矛盾,为构建大规模动态能源网络提供了创新解决方案。
  • 周杰钦, 冯毅雄, 金柯兵, 唐建航, 吴轩宇, 肖溪, 谭建荣
    录用日期: 2025-09-18
    无人机(UAV)边缘计算系统通过将无人机部署为移动边缘服务器,为各大用户提供低成本且具备隐蔽性的服务。然而,由于用户设备在地理位置上的不均匀分布和无人机自身的资源受限,部署不当会导致严重后果:包括用户密集区域出现覆盖盲区造成服务中断、无人机间距离过远导致协作通信时延超过阈值、以及部分无人机负载过重而其他无人机资源闲置的不均衡现象。因此,如何在保证服务覆盖、通信质量与能耗效率之间找到最优平衡,成为亟待解决的核心问题。为此,本文提出基于动态协作卸载任务并且混合智能算法的技术创新来同时解决无人机部署的离散优化问题和任务卸载的连续决策问题。具体而言,本文将计算任务进行智能拆分,通过动态卸载比例实现不同无人机负载的实时平衡,从而提高整体计算效率。在满足延迟约束的前提下,为最小化任务执行时延,本文研究了无人机部署、任务协作卸载以及计算与通信资源分配的联合优化问题,并构建了一个针对非凸混合整数组合优化问题的优化框架。在无人机位置部署方面,采用融合不同算法动态调整变异强度和交叉率的混合智能方法,实现了比传统算法更快的收敛速度;在卸载决策和资源分配方面,提出基于增强型深度确定性策略梯度(DDPG)的DP-Hybrid算法,实现了卸载决策和资源分配的协同优化。仿真实验结果表明,与现有基线方法相比,所提出的算法在能耗与时延之间实现了更优的平衡,显著降低了系统整体成本。
  • 邓君函, 王彬, 张泽华
    录用日期: 2025-09-18
    在复杂智能决策任务中,领域标注偏差能导致模型训练数据的质量下降,进而影响系统的泛化能力和决策性能。这种偏差通常源于以下两种原因:(1)相关专家资源稀缺导致的专家标注数据的稀疏性,这导致传统监督学习方法在性能受限,(2) 专家倾向不同导致专家知识异质性(包括专业背景差异、风险偏好多样性等)引发决策冲突。现有研究尚未有效解决专家标注稀疏问题、专家多倾向问题和专家知识融合冲突带来的不确定性问题。为此,本文提出针对领域标注偏差问题的多专家多视角方法(Decision Making with MoE,DM-MoE),融合了混合专家策略(MoE,Mixture of Experts)与不确定推理的方法理论,构建协同决策框架。该方法通过LLMs(包括DeepSeek、GPT-4、文心一言)基于提示工程针对不同领域构建跨领域多专家,根据专家实时的倾向变化动态地生成决策标注。并采用动态三支决策机制对多倾向多视角的专家决策信息进行建模。最后设计双阶段优化策略,对决策待定域中的不确定性通过基于LLMs的层次分析法指定多准则权重,并结合优劣解距离法进行多准则迭代优化。实验表明,DM-MoE相较于传统决策方法有更优秀的准确率和稳定性。
  • 徐雄, 杨欣宇, 朱学康, 杜博, 粟磊, 童炳魁, 雷泽宇, 周吉喆
    录用日期: 2025-09-18
    在图像操控定位(IML)领域中,现有数据集的数量少且质量差一直是主要问题。一个包含多种操控类型的数据集将显著提升IML模型的准确性。公共论坛(如在线图像修改社区)中的图像通常经过多种技术操控,从这些图像创建数据集可以大大增加数据中操控类型的多样性。然而,由于分辨率和清晰度问题,从网络获取的图像往往带有噪声,仅仅通过将操控图像与原始图像相减难以获得干净的掩膜。这些噪声难以去除,导致掩膜无法用于IML模型训练。受变化检测领域的启发,将原始图像和操控图像视为同一图像随时间的变化,并将数据生成任务视为变化检测任务。由于图像之间的清晰度差异,传统变化检测模型表现不佳。为了生成高质量数据集,本文引入了超分辨率模块,并提出了“篡改掩膜生成方法”(MMM)框架,该框架通过提升原始图像和篡改图像的分辨率来改善对比效果。同时,该框架将原始图像和篡改图像转换为特征嵌入并进行拼接,有效地建模上下文信息。此外,本文利用MMM框架创建了“篡改掩膜生成数据集”(MMMD),该数据集涵盖了广泛的操控技术。本文希望通过MMM和MMMD提供更真实的操控数据,为图像取证和操控检测领域做出贡献。
  • 鲁凯文, 杨雅婷, 董瑞, 马博, 王磊, 周喜, 马荣
    录用日期: 2025-09-18
    基于直接偏好优化的强化学习方法在大模型诸多下游任务中展现了良好的效果,然而该方法直接应用在机器翻译中常常会因为全局奖励最大化策略而会产生过度优化问题,具体表现为模型过度关注与参考译文的分布一致性,而丧失了局部翻译多样性和全局优化的潜力。为了解决上述问题,探究了直接偏好优化方法在大模型机器翻译中表现劣化的根本原因,在此基础上提出了一种基于局部偏好优化的大模型机器翻译方法。该方法通过对大模型的动态温度采样和无参考评估找出翻译中的易错低频短语,然后提出了一种结合全局差异和局部关键差异的偏好数据构造方法,在综合考虑模型全局翻译效果和局部多样性的前提下提出了token级的全局损失和局部损失函数,最后利用两阶段课程学习的策略逐步调整模型对低频短语的输出偏好。提出的方法在FLORES-200数据集上进行验证,选取了十四种形态复杂的多语言翻译任务进行测试,实验结果表明,所提方法在XCOMET、COMET-22和BLEU的得分结果分别为80.7、89.9和30.2。通过与多个多语言机器翻译强基线进行对比,所提方法在所有翻译语向上均优于基线模型,验证了方法的有效性。
  • 王旭光, 刘旺杰 , 矫千田, 张咪
    录用日期: 2025-09-16
    可靠的光伏发电功率短期预测对于新能源电力的调度与安全、储能系统的规划与运行至关重要.而光伏功率与相关气象因素之间常存在时域对齐偏差,该偏差使预测模型难以学习到未来光伏功率与历史气象因素之间稳定的数量关系,导致光伏功率预测的低精度问题.本文利用时延嵌入模型描述未来光伏功率与历史相关气象因素之间的数量关系,基于时延参数化描述光伏功率与相关气象因素之间常存在时域对齐偏差,并基于排序秩设计时延估计方法,将光伏功率与相关气象因素之间的时域对齐问题转化为时延估计问题.仿真和真实数据实验结果表明对齐偏差矫正后能够有效提升预测精度.
  • 陈 冉, 韩京宇 , 何稳稳, 堵维文
    录用日期: 2025-09-16
    心血管疾病严重威胁人类生命健康,将深度学习方法应用于医学心电信号领域能够提高诊疗水平。现有心电分类算法虽在特征提取方面取得一定进展,但对多分辨率时序特征与跨通道协同关系的关联建模仍存在不足。提出一种基于Temporal Channel Coordinated-ResNeXt(TCC-ResNeXt)的多尺度时序特征与通道协同心电分类算法。首先,通过设计周期自适应的多分辨率时序调制模块PAM,有效提取心电信号中复杂的时序特征;同时,引入为心电信号设计的ECG-ACmix模块,在轻量化参数的基础上,通过多头通道注意力与卷积特征的自适应加权融合,实现在多导联心电数据中对各通道特征的增强,有力刻画通道间的依赖关系。实验结果表明,所提算法在CPSC-2018、Chapman和DS-COM三个数据集上均取得了优异的表现,平均F1分数分别达到0.798、0.968和0.751,和其他方法(如MobileNetV3、MVMSNet、EcgTransformer)相比,TCC-ResNeXt在AUC、Recall和F1分数上均优于其他算法。实验验证了该算法在心电信号分类任务上的优越性能,为心血管疾病的智能诊断提供了新的解决方案。
  • 王志远, 张伟, 官炳政, 杨慧丽
    录用日期: 2025-09-16
    面向工业生产领域,以轮胎成型工艺为例,构建低成本环境下私有数据安全的高性能问答系统。现有的RAG方法,如 Self-RAG会增加计算的复杂度,Corrective-RAG会导致上下文过长,不适合在低成本环境下使用。提出了一个多智能体顺序协同的图检索增强生成(Multi-Agent Sequential Collaboration Graph RAG,MSCG-RAG)方法,每个智能体执行单一任务,使用结构化数据作为上下文信息,避免上下文过长的同时降低大模型对上下文的理解难度,最终实现轮胎成型工艺问答服务。MSCG-RAG方法在通用RAG指标Context Relevance、Faithfulness和Answer Correctness上的表现分别为75.0%、75.8%和85.7%。在将高性能大模型作为领域专家打分的评估中,该方法在DeepSeek-R1,Qwen-plus和Qwen-turbo三个大语言模型打分的情况下分别为7.833分、7.826分和8.301分,均高于基础图检索增强生成(Basic Graph RAG,BG-RAG)方法和图-向量混合检索增强生成(Graph-Vector Hybrid RAG,GVH-RAG)方法。消融实验结果表明链路筛选对上下文相关度影响最大,失去筛选能力将使上下文相关度下降18.5个百分点。结果校正部分主要对生成结果忠实度产生影响,失去结果校正能力生成结果忠实度下降12.6个百分点。底座模型替换实验结果表明,MSCG-RAG方法在不同大模型组合上表现稳定,具有较高的实用性和可行性。
  • 张佳庆, 马秀娟, 马福祥, 周斌, 尹君
    录用日期: 2025-09-09
    针对传统图神经网络在建模高阶关系和多元交互作用中的局限性,本文提出一种融合节点相似性关联与超图注意力机制的异质超图推荐模型——HNSGCN。该模型将用户抽象为超边、商品抽象为节点,结合用户与商品的上下文语义特征,利用余弦相似度与Jaccard相似度构建用户-用户和商品-商品的相似性矩阵,将普通的二元网络重构为异质超网络。在此基础上,模型引入超图卷积操作和层级注意力机制,自适应地聚合了不同层次的结构信息,有效捕捉了用户与商品间的高阶潜在关系,显著提升了推荐结果的准确性。为验证模型的有效性,本文在Amazon和Yelp-1K两个真实数据集上进行对比实验,通过与多种主流推荐模型进行对比,结果表明,本文所提的HNSGCN推荐模型在Recall@K、Precision@K和NDCG@K三种评估指标上均显著优于现有方法。进一步的消融实验表明,节点相似性关联的引入以及多层注意力聚合机制对模型性能提升具有关键作用。
  • 黄苛明, 刘苗
    录用日期: 2025-09-09
    联邦学习作为一种分布式边缘训练框架,无需集中客户端私有数据的前提下完成模型训练,因而在数据隐私与安全性方面具有显著优势。然而在实际应用中,客户端之间不仅面临通信受限的问题,更普遍存在由于数据分布不一致(非独立同分布,Non-IID)所带来的性能退化问题。针对这一挑战,本文提出一种多流特征感知网络FedMFP。具体而言,该方法通过设计双流特征分离架构,分别提取客户端的全局流和细粒度流特征:全局流网络利用特征扰动器(Feature Perturber)/特征补偿器(Feature Compensator)机制捕捉样本间整体相关性;细粒度流网络则采用多流架构提取多尺度个性化信息;同时,通过设计不同的损失函数对这两类特征进行有效解耦,最大限度降低特征间的相互干扰。大量实验结果表明,FedMFP在Cifar100、Tiny-ImageNet等经典非独立同分布数据集上,测试准确率相比对比的九种算法分别平均提高了13.27%、14.41%,显著提升了模型在Non-IID数据下的泛化能力与鲁棒性。
  • 于洋 , 胡世杰, 凡康康, 郭威, 胡亚洲, 张大伟
    录用日期: 2025-09-09
    传统视觉感知方法仅能捕获视线范围内的物体信息,无法检测被场景障碍物遮蔽的物体。非视域(NLOS)方法则通过分析反射或投射到可见中继表面的光或电磁信号来还原这些被遮挡物体的信息。然而,经过多年研究,现有NLOS方法在户外环境中捕捉经多次反射的微弱信号成分仍是巨大挑战,这为复杂动态的户外真实场景的非视域感知应用带来了巨大挑战。为此,本文提出采用高性价比的毫米波雷达实现大规模动态场景中隐藏目标的检测与追踪。此类雷达已在汽车工业中广泛应用并支持低成本大规模生产。在将雷达点云转换为伪图像后,我们用所提出的双阶段注意力网络(TSAN)进行隐藏目标的检测与追踪。实验表明,TSAN双阶段注意力网络模型在多种交并比阈值下显著提升多类别检测性能,平均精度均值(mAP)达75.62%。相较现有成果,TSAN网络的mAP提升5.99%,性能优于当前最先进方法。此外,基于本文方法构建的原型样机,展现了一种低成本非视域目标检测与跟踪系统方案。实验验证了该系统能够实时、经济高效地实现NLOS目标检测与跟踪任务。
  • 刘天权, 鹿存跃, 王晓龙, 罗润书
    录用日期: 2025-09-09
    水下图像生成技术作为填补海洋探索领域数据缺口的重要途径,生成图像的真实性和多样性将直接影响后续分析研究的可靠性。现有的模型通常参数量庞大,训练与推理过程耗时较长;生成的水下图像清晰度不足,图像主体的结构和边缘存在畸变现象;推理过程未能充分考虑水下环境独特的光学特性,生成图像的真实性有待优化。为此,基于ControlNet模型提出UW-ControlNet (Underwater ControlNet) 水下图像生成框架,对预训练的Stable Diffusion模型进行参数微调,将条件图像的结构约束与文本提示的语义约束相结合,实现水下图像的跨模态可控生成。引入轻量化特征提取网络,改进条件图像的特征提取过程,提高模型的收敛速度和推理速度。设计基于关联矩阵的通道注意力模块,将背景对应的全局通道特征与主体对应的局部通道特征进行解耦与耦合,优化生成过程中的文本-图像多模态对齐,增强生成结果的可信度。构建结构-语义约束增强模块,避免下采样过程导致的约束信息丢失,确保生成图像与条件图像的结构一致。实验结果表明,通过UW-ControlNet生成的水下图像在定量指标和定性对比上均优于现有方法,展现出良好的应用价值。
  • 吴江, 李子奇, 张永宏
    录用日期: 2025-09-05
    高光谱图像(HSI)与激光雷达(LiDAR)图像的联合分类能够充分发挥两者在光谱与空间结构信息方面的互补优势,已成为遥感领域的重要研究方向。然而,由于两种数据来源的成像机制存在显著差异,HSI与LiDAR在数据维度构成和特征分布上表现出高度异构性,这对多模态数据的语义表征与高效融合带来了严峻挑战。为应对上述挑战,提出了一种用于联合HSI和LiDAR数据分类的多尺度混合卷积Mamba网络(MHCMNet)。该框架首先通过多尺度特征提取模块(MFEM),从两种数据中分别提取光谱、空间和高程特征;随后,利用并行特征标记化模块(FTM)将两种模态的特征转换为统一的特征标记。为进一步增强多模态特征的协同表达能力,MHCMNet创新性地引入了基于Mamba架构的特征融合模块(MFFM),借助其出色的长程依赖建模能力,实现模态内及模态间特征的深度关联与高效融合。实验结果表明,MHCMNet在Trento、Houston2013和MUUFL三个数据集上分别取得了99.03%、90.71%和91.47%的最高总体精度(OA),同时保持了较低的模型复杂度。进一步的消融实验验证了各模块在性能提升中的有效性,充分证明了所提方法在多源遥感数据分类中的优越性能。
  • 张维, 郑好, 朱诗怡, 肖宜美, 曾鑫耀
    录用日期: 2025-09-03
    课程推荐对于提升学习者学习效率和参与度至关重要,而学习者的学习序列建模是课程推荐的关键环节,因为这些序列不仅包含了学习者的动态学习兴趣,还隐含了学习行为的演化规律。然而,现有方法主要关注序列中的顺序关系,未能有效考虑课程之间的时间间隔对学习者兴趣动态演化的影响。此外,大多数模型仅用单一向量来表征学习者行为,无法刻画其多维度学习兴趣的动态演化过程以及不同兴趣之间的关联,导致兴趣建模存在偏差。针对上述问题,提出一种时间间隔增强的多兴趣动态演化网络课程推荐模型TIMIR。将学习者的交互历史视为具有不同时间间隔的序列,提出基于时空的双重自注意力机制,通过设计双路径机制区分长短期时间间隔的差异化影响,精准捕捉学习者兴趣动态演化的持续与转移模式;结合胶囊网络中的动态路由机制,自适应地生成多个学习者兴趣向量;构建多兴趣动态演化网络,显式建模学习者多兴趣的时序演变和多个兴趣之间的关联,从而提升长期学习行为的预测精度与复杂兴趣场景下的推荐覆盖率。在MOOCCourse数据集上的实验结果表明,TIMIR在HT@20和NDCG@20两个指标上分别优于其他高级推荐模型2.56%和4.18%;在MOOCCube数据集上,两个指标分别优于其他高级推荐模型1.27%和1.71%,验证了其在提升推荐准确性能方面的有效性。
  • 金克薪, 陈冬林
    录用日期: 2025-09-03
    现有模型在季节性时间序列预测中往往难以同时处理趋势性、周期性及非线性扰动等复杂特征,造成模型在多变场景下的适应性较差。为此,该研究提出了一种新的STL-ARIMA-Prophet-LSTM组合模型。首先,采用STL分解法将原始时间序列拆分为趋势分量、季节分量与残差。其次,针对不同分量的特征采用差异化建模,即ARIMA模型捕捉趋势分量中的线性趋势,Prophet模型处理季节分量中的周期性和假期效应,LSTM模型建模残差中的非线性变化。最后,依据STL分解时采用的策略,将各分量的预测结果进行重构,进而得到最终预测结果。该研究在高校财务报销单量、电商平台成交单量和区域电力负荷三个真实数据集上对组合模型进行性能评估,实验结果表明,与5种不同模型相比,组合模型在三个场景下均表现出最优或次优的预测效果。进一步的消融实验表明STL分解与多模型功能互补机制在提升组合模型预测精度和稳健性方面起到了关键作用。研究结果表明,STL-ARIMA-Prophet-LSTM组合模型在季节性时间序列预测任务中具有优越的预测性能和良好的应用推广潜力。
  • 余肖生, 李盛, 李松璞
    录用日期: 2025-09-02
    摘 要: 噪声干扰与低分辨率问题对特征表达的显著限制,可能导致关键细节丢失和语义信息退化,从而限制了模型在复杂场景下的鲁棒性与泛化能力。针对这一问题,构建了一个视觉语言模型驱动的双分支异常检测网络MSRA-CLIP(Multi scale and Residual Attention-CLIP)。首先,利用两个平行分支来处理图像,上分支设计了一个多尺度注意力的组合注意力单元,它在提高图像超分辨率质量的同时,平衡了计算复杂度和性能;下分支使用了包含残差注意力和跳跃连接的残差注意力模块,通过大量的残差注意力和跳跃连接捕获丰富的全局和局部特征,之后将两个分支处理后的图像特征进行拼接。最后,利用图像-文本多级对齐模块将处理后的图像特征映射到联合嵌入空间,然后与文本特征进行比较生成异常图。为了评估所提出的模型的有效性,在Brain MRI、LiverCT等5个医疗异常检测数据集上的实验结果表明,与MVFA相比,MSRA-CLIP在零样本设置下异常分类的平均AUC提高了5%,异常分割的平均AUC提高了1.1%,在少样本设置下异常分类的平均AUC提高了0.93%。
  • 孔钰龙, 蔺素珍, 晋赞霞
    录用日期: 2025-09-02
    视频描述旨在深入分析视频内容,用自然语言准确、流畅的描述视频内容。概念,对应于视频内容中的对象、动作和属性,可以作为视频描述的媒介。虽然使用概念引导视频描述已经有部分研究,但是仍然存在着两个主要的问题,概念检测精度有限和概念利用率不足。针对这些问题,提出了全局和局部概念引导的多模态视频描述方法(CGMVC),来提高生成描述的质量。首先用不同的骨干网络提取视频的多模态特征,利用HMMC模型通过分层匹配的视频到文本检索提供视频的文本信息,然后使用多模态特征融合和概念检测网络精确检测概念。为了充分利用检测到的概念,通过概念投影模块挖掘视频的潜在主题从全局层面引导解码,通过语义注意力模块和交叉注意力模块分别利用概念和视频的多模态特征,实现局部层面的解码优化。通过充分利用概念和不同模态的信息,生成更加自然和准确的描述。在MSVD和MSR-VTT数据集上CGMVC模型的CIDEr和BLEU@4分别达到了111.2%、57.1%和64.1%、51.2%,对比和消融实验结果表明,CGMVC方法相对于基线方法和其他先进方法的优越性。
  • 亓慧, 张思琪, 史颖 , 祁晓博
    录用日期: 2025-09-02
    随着社会经济的快速发展,居民幸福感已成为衡量社会进步的重要指标。准确预测居民幸福感对于政策制定和社会资源分配具有重要意义。但现有方法在跨群体适用性与政策可解释性方面存在系统性不足。针对此类问题,本文提出了一种特征交互优化与动态加权集成的幸福感预测模型(Feature Interaction-Optimized Dynamic Weighted Ensemble Model,FIO-DWEM)。首先,通过多项式扩展生成二阶交互特征,结合相关性筛选与递归特征消除(RFE)构建特征交互优化机制,提取高信息量特征。然后,采用随机搜索结合留一法对基模型进行超参数调优,基于误差比率动态调整基模型权重,并通过软投票机制集成概率输出。实验结果表明,FIO-DWEM在多个数据集上表现优异:在Somerville数据集上各项指标提升0.54%~39.86%,在跨域验证中保持89.57%~98.89%的准确率。SHAP分析揭示了城市服务信息可用性等关键特征对幸福感的影响机制,为政策制定和个人评估提供了可解释的技术支持。
  • 李泽楷, 鄢志丹, 陈 璨
    录用日期: 2025-09-01
    云台伺服控制系统在追求良好的瞬时响应特性时,往往导致系统稳定裕度的降低;同时,为保证云台伺服系统的高精度性而在控制器设计中引入的较大积分环节,也限制了系统响应速率,并在系统易受机械干扰的60-120Hz频段内引入相位滞后问题,这严重降低了系统抗干扰能力。为解决上述问题,本文提出一种滞后补偿与干扰抑制的高速云台控制方法,即在传统串级双回路比例-积分-微分控制器(PID Controller)基础上,增设线性扩张状态观测器(LESO),并将电机控制的相位滞后时间、转动惯量辨识误差与机械震动等系统内外扰动,扩展成新的状态变量。后将LESO输出作为前馈控制量完成该控制方法的设计。与传统的串级PID控制控制方法相比,该控制方法能够兼顾高响应与高稳定性同时,有效改善云台伺服系统相位滞后问题与抗干扰能力,具有较好的工程应用价值。
  • 萧理阳, 艾欣阳, 谢薇, 顾恺婕
    录用日期: 2025-09-01
    随着无人机技术在农业领域的广泛应用,其高效作业策略的优化问题日益成为研究热点。针对农业喷洒作业中无人机受电池容量与药箱容量双重约束下的路径规划问题,引入多行程作业模式,以最小化作业成本为目标,构建了一个集成喷洒作业顺序优化、飞行路径规划和多机协同调度于一体的整数线性规划模型。为高效求解该复杂组合优化问题,设计了一种改进自适应大邻域搜索(ALNS)算法,结合问题特性构造了四种移除算子与三种插入算子,并引入了模拟退火(SA)算法作为劣解接受机制。通过计算算子得分,算法能够动态调整算子选择策略,从而提升求解性能。通过算法预实验确定了合理的参数设定。基于多组不同规模算例的数值实验表明,该算法在求解效率与解的质量上均显著优于商业求解器CPLEX与基于序列生成的方法。此外,将ALNS算法与主流启发式算法——遗传(GA)算法和蚁群(ACO)算法进行对比。实验结果表明,ALNS算法在中、大规模算例中的求解质量均显著优于GA和ACO算法。在中规模算例中,平均提升幅度分别为6.90%和3.55%;在大规模算例中,平均提升幅度分别为7.84%和4.47%。
  • 蒋欢, 韩华, 黄丽, A. A. M. MUZAHID
    录用日期: 2025-09-01
    深度学习模型在实际应用中越来越广泛,但容易受到对抗性示例的攻击,近年来,物理对抗性示例成为研究热点。现有的研究方法多专注于提高对抗性示例的攻击性和针对性,但对于不同模型之间的共性研究仍有不足,忽略了对抗性样本的通用性与视觉自然性。为此,本文提出一种基于色彩感知约束的物理对抗性伪装生成方法,提升伪装的转移性和自然性。具体来说,首先对给定的3D汽车模型进行预处理生成多层注意力图,然后利用求得的二进制掩码来分离多层目标注意力,对于给定的连通子图,提取其在纹理中的像素集合,计算其与可打印颜色空间的映射,接着优化注意力和颜色联合损失来获得最佳的对抗性伪装,在处理完所有连通子图后,进行全局一致性优化,避免各个子图间出现突兀的边界或颜色不平滑现象,从而提升视觉上的舒适度。本方法不依赖特定模型结构,具备良好的跨模型迁移能力和实际应用潜力。大量实验表明,基于色彩感知约束的物理对抗性伪装生成方法在数字世界和物理世界中都超过了基线方法。
  • 尹新宇, 李雯茜, 许刚, 何胜
    录用日期: 2025-09-01
    随着区域智能化的发展,数据密集型与时延敏感型业务逐渐增多,边缘计算的引入虽然能缓解现有的区域专网压力,但面对设备能耗、时延等指标日益严格的综合性要求,仍需研究更高性能的边缘计算卸载策略。针对上述挑战,基于区域环境,综合考虑任务截止期限、队列积压状态与带宽资源约束,结合信道状况的突变感知提出一种节能的协同任务卸载模型。在构建云端-边缘-终端三端协同的模型时,对任务完成各阶段的时延、多用户卸载比例和带宽分配进行了联合优化,并基于李雅普诺夫优化方法将长时随机优化问题转化为在线决策框架。引入改进型粒子群算法,设计Lyapunov-PSO混合优化架构,增强非凸约束下的全局搜索能力,实现多目标协同优化。同时提出分层阈值映射编码方法以解决离散卸载决策与连续优化空间的映射冲突。实验结果表明,相比仅使用其他启发式算法和人工智能方法,所提算法可有效实现资源的整体优化配置,进一步节省了任务处理所产生的能耗。
  • 刘凤春, 韩宏帅, 张春英, 马将
    录用日期: 2025-09-01
    当前的甲状腺结节分割方法在图像特征解析中可能导致图像边界模糊或细节丢失,且甲状腺超声图像本身还存在质量低、噪点多等问题影响特征精确提取。为此,基于最新的视觉状态空间模型(VMamba),提出一种融合因子化VSS与特征频带分离的甲状腺结节超声图像分割网络FMVM-DFFT。该网络架构的主要创新在于:(1) 结合因子分解机(Factorization Machine, FM)和外部注意力(External Attention, EA),提出一种VSS(Visual State Space)模块的因子化变体FMVSS,利用其高效提取输入特征在不同维度上的信息,并自适应调整特征权重,增强对关键信息和局部细节的捕捉能力;(2) 提出一种包含双分支快速傅里叶变换的DFFT模块,对编码器输出特征进行频带动态分离和精细提取,以提高网络对细节与宏观信息的捕捉能力,并结合通道注意力(Channel Attention,CA)自适应控制各通道的权重;(3) 提出一种基于Laplacian算子和新型损失函数BDELoss的边缘优化策略应用于训练过程中,进一步增强网络对图像边缘区域的学习能力。通过在TN3K和DDTI两个数据集上进行对比实验,结果表明:与主流分割网络和最新图像分割网络相比,FMVM-DFFT表现出最佳分割性能,尤其在重要指标DSC与IoU上表现出色,在TN3K上两项指标可达88.50%与79.37%,在DDTI上两项指标可达78.85%与65.09%。
  • 焦瑞璇, 秦佳, 秦品乐, 曾建潮, 柴锐
    录用日期: 2025-09-01
    由于人体器官的形态变化复杂且多样,可变形三维医学图像配准面临诸多挑战。尽管已有多种先进的配准模型被提出,但卷积神经网络的感受野大小受限且卷积核大小固定,导致其在特征提取过程中对全局上下文信息的感知和捕捉能力仍显不足。针对这一问题,在可变形三维医学图像配准方法中引入频率域信息,构建了一种基于空频双域的可变形三维医学图像配准网络(Spatial-Frequency Deformable Registration Network, SFDR-Net),通过空频双域和动态门控融合相结合的方法增强不同尺度特征的表征能力和协同作用。首先,考虑到傅里叶变换能够有效提取高低频信息的同时对形变较为敏感,将其引入可变形三维医学图像配准,并提出了一种高效的空频双域Transformer模块(Space-Frequency Dual-Domain Transformer Block, SFTB),通过频率域快速傅里叶变换(Fast Fourier Transform, FFT)提取紧凑的全局结构信息,并与空间域多尺度卷积结合,通过不同粒度特征的相互作用精准估计大范围形变;其次,采用动态门控融合模块(Dynamic Gating Fusion Module, DGFM),对多个尺度的空间-频率优化特征进行融合增强,并有选择地将其引入下一阶段形变估计中,避免由于远距离特征信息的退化导致形变估计的不准确。实验结果表明,SFDR-Net在Mindboggle-101、OASIS和IXI数据集上的平均Dice分数分别为64.33%、81.89%和79.81%,与其他先进网络相比平均提升了5.20%、2.75%和2.34%,更具备有效交互整体特征与细节信息的能力,能够自适应地平衡不同尺度形变特征,实现各种形变场景下更精确的配准。
  • 高磊, 蒋海龙, 闵帆, 杨梅
    录用日期: 2025-08-29
    地震数据中的面波作为典型的相干噪声,因其能量强、传播方向复杂且波形特征与有效信号高度相似,成为地震数据去噪中的主要难点。现有深度学习方法依赖网络深度堆叠或单模态特征表征,虽能压制面波,但存在多尺度特征融合不足和长程依赖建模局限,易导致有效信号模糊或低频成分丢失。为此,本文提出一种多尺度注意力-空洞卷积融合网络(MA-DCNet),由方向自适应特征增强模块(DAFEM)、多尺度特征融合模块(MSFFM)、通道局部增强注意力模块(CLAM)和全局上下文自注意力模块(GCSAM)组成。DAFEM利用多轴自注意力机制自适应增强关键方向信息,MSFFM通过风车卷积构建多尺度感受野,CLAM结合通道注意力与深度可分离卷积增强同相轴连续性,GCSAM基于全局上下文注意力建立全道集依赖关系以区分面波与有效信号。实验表明,相比四种先进方法,MA-DCNet在显著压制面波的同时更好地保持同相轴连续性。
  • 赵娅, 朱婉珍, 贾迪, 单可欣, 姚文达
    录用日期: 2025-08-29
    传统的重建方法虽然能有效拟合人脸全局形状与基础拓扑结构,但在捕捉面部复杂表情变化和高频细节特征时存在一定的局限性。为了解决这一问题,论文提出了一种融合表情感知与细节增强的三维人脸重建方法,旨在通过对表情参数的语义化映射与局部高频细节提取,实现人脸模型的高保真重建。表情感知模块基于EfficientViT网络构建表情编码器,结合注意力机制与表情基矩阵动态表征不同表情变化下的面部几何形变,并设计表情交叉熵损失优化表情参数判别性,提升表情建模的准确性。其次,细节增强模块采用可形变卷积网络提取面部高频纹理特征,融合掩膜信息与多尺度语义特征引导面部区域的细节重建。同时,引入基于小波变换的局部细节一致性损失,在不同频域子带上约束细节特征,增强面部细节表现力。实验结果表明,相较于现有重建方法,论文方法在均方根误差(RMSE,1.36)和归一化平均误差(NME,3.04)等关键指标上表现出色,验证了其在表情重建精度与细节还原能力上的卓越性能,同时表现出对极端表情及大姿态头部变化的强鲁棒性。
  • 林荣鑫, 李硕豪, 董力铭, 郝思齐
    录用日期: 2025-08-28
    随着社交媒体平台传播的信息量指数级增长,虚假新闻检测成为信息鉴伪领域的关键任务。当前研究方法聚焦于单一模态的语义分析,未能有效地解决多模态新闻的跨模态语义矛盾;且现有模型决策过程可信度不足,缺乏可解释的辅助信息支撑。针对上述问题,本研究提出一种面向多模态新闻的视觉语言大模型检测框架。首先,引入视觉语言大模型推理新闻内容,通过生成图文描述集来增强检测的可解释性;其次,设计多粒度协同注意力机制,实现文本、图像以及辅助描述的多粒度特征对齐。本研究采用多模态视觉语言大模型Qwen2.5-VL作为新闻解释性工具,设计新闻提示模板,引导模型对新闻图像提取关键对象和场景要素,利用模型的语言生成能力增强新闻文本的上下文,形成可解释的辅助决策依据。多粒度协同注意力融合机制以协同注意力层为基础,通过多层级特征交互,在高维语义空间中捕捉新闻图文中的潜在伪造模式。本研究在Weibo、GossipCop和Pheme多模态虚假新闻数据集进行实验,实验结果表明,在准确率上分别达到90.4%、99.7%和86.6%。
  • 钟子山, 唐建航, 金柯兵, 章阳, 杜罗乐, 姚徽
    录用日期: 2025-08-28
    数字孪生(Digital Twin,DT)技术是基于现实物理实体映射的虚拟模型,为了使DT能够随着物理实体的变化而更新,物理实体应定期向DT发送实时的状态和信息。在数字孪生系统中,实时数据的处理和历史数据的存储与分析分别代表了实时数字孪生(实时DT)和历史数字孪生(历史DT)。在边缘计算中,虚拟与物理设备之间的信息交互时延是制约数字孪生实时类业务性能的关键因素。在实际部署中,流量大的关键边缘节点面临存储、带宽和计算资源的紧张局面,而流量较小的边缘节点则存在资源闲置的问题。不同地理位置的边缘服务器之间服务能力和可用资源分布极为不均,导致整体系统资源利用率低下、服务质量难以保障。本研究提出一种深度强化学习的联合部署策略,通过深度强化学习方法优化实时DT和历史DT的边缘部署方案。该方法通过建立联合边缘放置模型,考虑实时数据流时效性高的特性,根据实时DT与历史DT的耦合性,综合考虑实时DT和历史DT的部署成本,建立部署时间最小化问题,利用深度Q学习来平衡实时DT和历史DT之间的资源分配、时延优化以及服务质量保障。对于提出的任务请求,利用变分近似互信息选出与任务相关性最高的实时DT与历史DT,并为任务提供服务。通过仿真实验表明,所提出的深度强化学习算法能够在多种场景下自适应地调整边缘设备的资源分配策略,相对于基准算法平均降低了34%虚实信息同步时延,内存利用率平均可以提高7%。
  • 刘玉杰, 王一雯
    录用日期: 2025-08-27
    微姿态是由内在情感驱动的无意识细微动作,能够反映个体隐藏情绪,在情感计算中具有重要价值。其在时间维度上具有瞬时性,在空间维度上幅度微小、边界模糊,属于典型的细粒度行为,传统方法难以提取有效特征。为此,本文提出一种基于多模态协同增强的微姿态识别方法,将视频、骨架与文本构建为互补表征三元组。该框架突破传统视觉—语言模型的局限性,引入骨架模态作为运动学先验,结合视觉上下文和语义引导,构建多源互补的特征表征体系。此外,提出双层级协同模块:视频—姿态协同模块(VPCM),融合视频的细节特征与骨架的全局运动信息,采用跨时间注意力机制扩展特征表示,增强时序建模能力;文本—姿态协同模块(TPCM),引入文本模态的语义先验,采用基于Top-K的融合策略强化骨架特征的语义关联性,提升对细粒度特征的捕获效果。为进一步优化多模态融合性能,提出两阶段训练策略—先对单模态编码器进行预训练,再通过轻量化适配器与协同模块进行协同学习,有效提升了模型的精度。在主流微姿态数据集上的实验表明,本模型的识别准确率超越了当前最优方法,达到了70.40%的精度。
  • 郝金隆, 张 祯, 李秀华, 曾胡爽, 黄河澎, 蔡春茂
    录用日期: 2025-08-27
    针对资源受限场景中多尺度目标检测模型难以兼顾高精度与低参数量、低计算复杂度的问题,提出了一种基于YOLOv8的边缘端轻量级多尺度目标检测方法。首先,在主干网络的跨阶段部分双特征融合模块中嵌入了自主设计的轻量级通道-空间注意力模块,通过融合高效通道注意力机制和多尺度深度可分离低秩卷积,在模块复杂度较低的同时实现通道和空间双维度特征增强。其次,设计了跨层自适应加权融合模块,建立跨层连接,通过自适应加权机制融合浅层细节特征与深层语义信息。再次,将颈部网络跨阶段部分双特征融合模块中的瓶颈结构替换为通用倒置瓶颈,在维持检测精度的同时降低计算复杂度。最后,提出了聚焦式尺度自适应动态交并比损失,通过尺度自适应调制项与聚焦机制,动态调整误差惩罚力度并强化对难检测目标的关注。在BDD100K数据集上,与当前先进的YOLO11m模型相比,LMS-YOLO-m在mAP@50与mAP分别提升了0.5%和0.1%,参数量减少了2.4%,计算量降低了5.8%,结果表明该方法在检测精度更高的同时具有更低的参数量和更低的计算复杂度。
  • 黎博文, 谭泰, 李杰, 张建伟, 张祥瑞
    录用日期: 2025-08-27
    六自由度无人机空战是一个极具挑战性的场景,包含高维连续状态和动作空间以及非线性动力学。针对上述场景,提出了一种渐进式多目标策略优化算法(Progressive Multi-objective Strategy Optimization, PMSO),该算法通过动态调整动作空间的粒度并结合多目标奖励函数来提升策略学习效果。针对连续动作空间维度高、搜索空间过大导致的算法决策困难甚至难以学习到有效策略的问题,设计了渐进式离散化机制,该机制初始阶段采用较粗粒度的离散动作指令以快速探索策略空间,旨在利用动作指令控制效果的局部相似性来减小动作搜索空间;随着训练迭代和任务难度增加,动作指令的离散化程度逐渐缩小,从而保留了动作指令的控制精度。针对空战任务中普遍存在的稀疏奖励问题,设计了包括角度、距离和高度的多目标奖励函数,通过这些奖励的协同来引导算法更好地理解当前行为对空战任务的影响,加快收敛速度。在涵盖优势、均势、劣势的随机空战场景的仿真实验中,本文提出的PMSO算法都能快速收敛并学习到有效的空战策略,其收敛速度和学习到的策略的效果优于现有的空战算法。
  • 王韵涵, 胡雅冰, 陈榆杰, 刘英
    录用日期: 2025-08-27
    在无人机执行任务的过程中,识别潜在的碰撞风险并采取必要的机动措施是确保安全飞行的关键。针对环境障碍物及多无人机防撞问题,提出一种基于自适应人工势场的协商防撞算法。首先,综合考虑时间和距离两方面因素进行冲突检测,并引入自适应冲突判定系数以减少不必要的避撞机动。其次,提出自适应调整斥力增益系数的方法,防止因机动性能限制和初始斥力增益系数设置不当而造成碰撞的行为。同时,设计了基于关键度的多无人机协商策略,减少了机间冗余的避撞动作。此外,基于无人机运动学模型,根据最新时刻获得的信息,对邻居无人机的状态进行预测,以降低数据链时延和丢包引起的误差。与传统人工势场法相比,所提算法在斥力增益系数较小时仍能有效避撞,且将总路径长度缩短约1.76%。当数据链时延不超过200ms以及丢包率低于50%时,所提算法均能表现出良好的避撞性能。
  • 李学相, 郑永利, 张怡泽, 段鹏松
    录用日期: 2025-08-27
    随着互联网的普及与应用程序的多样化,海量网络流量的精细化分类成为优化服务质量和分析用户行为模式的关键。对基于机器学习和基于预训练模型的网络流量分析方法进行概述,旨在通过多维度对比与分析,推动该领域研究的进一步发展。首先,解析了流量分类的完整流程,涵盖数据采集、预处理、特征提取过程,分析了数据平衡技术的实践价值。介绍了主流公共数据集的数据格式、规模及场景适配性等,从多角度进行对比分析,指出其存在的数据分布、特征冗余与时效性问题。其次,不仅在方法层面总结了传统算法在高维数据处理与实时性上的局限性,还重点通过实验结果对比分析,总结了流量分析领域应用预训练模型技术的趋势,包括基于Transformer的预训练模型BERT、与深度学习的融合模型和轻量化模型在流量分类中的突破性进展。最后,结合动态研究趋势,探讨了未来应用预训练模型存在的机遇和挑战,分析了其在计算成本与隐私保护方面的局限性,提出了未来的研究方向并对研究前景进行展望。
  • 朱海峰, 易畅言, 吴昊, 郑好, 戴兴安, 左坤, 顾友华
    录用日期: 2025-08-27
    航天伺服系统因其特殊的工作环境,在使用永磁同步电机驱动具有高阶非线性运动特性的负载时,其传感器仅能测得电机角度反馈而无法测得负载位置反馈。在上述工作场景中,不准确的负载位置反馈让传统的基于闭环反馈的控制算法,如PID三环控制,表现出了跟踪精度低、指令适应能力不足的问题。为了解决上述问题,使用双延迟深度确定性策略梯度算法训练强化学习智能体,其对位置环中与负载位置近似的电机位置反馈进行调优,以克服半闭环带来的精度损失,增强控制器在多项任务下的控制性能。同时,将智能体的策略模型轻量化部署至TMS320C6713B DSP上并验证其运行的实时性。实验结果表明,基于深度强化学习的调优方案相较于对比控制方案在负载位置特性方面有2.07%的提升,在负载速度特性方面有59%的提升;在负载频率特性试验方面普遍优于对比控制方案,并且能够部署在算力有限的边缘控制器上实现实时控制。