传统检索增强生成(RAG)方法主要面向纯文本场景, 其检索与生成机制难以有效建模多模态文档中普遍存在的视觉元素、空间布局与结构语义, 在图文混合、长文档及跨文档推理任务中表现受限。为此, 多模态检索增强生成(MRAG)通过联合建模文本、图像与版式结构, 在生成过程中引入多模态证据检索与调度, 已然发展为视觉富文档问答与推理的核心技术范式。本文系统综述MRAG在文档问答任务中的研究进展。首先, 围绕多模态文档理解的实际需求, 分析MRAG在多模态对齐、长上下文建模、证据可追溯性及系统鲁棒性等面临的关键挑战。其次, 立足MRAG系统支持生成过程的方式, 分别从嵌入范式、文档检索范围、布局感知机制与多模态检索策略4个维度, 梳理对比代表性方法, 聚焦讨论不同设计选择对生成稳定性、推理精度与系统复杂度的影响。再次, 总结现有多模态文档问答数据集与评测体系的特点与不足, 分析当前评测在多模态证据粒度与推理可解释性方面的局限。最后, 指出MRAG正由面向静态相似度匹配的检索机制, 演进为以生成与推理需求为中心的动态证据规划范式, 应通过多模态、多粒度协同建模, 持续提升复杂文档问答系统的可靠性与可解释性。
模型知识产权保护已成为模型安全中不可忽视的问题, 水印技术作为模型溯源的核心手段, 通过将特殊标识嵌入模型参数或生成内容中, 为版权验证提供技术支撑。然而, 训练完成的含水印模型非常容易被复制并扩散, 这使得攻击者能够通过微调、剪枝或对抗样本攻击等特定技术手段, 破坏或去除深度神经网络(DNN)模型中嵌入的水印, 使得模型所有权无法验证。为了更深入地了解模型水印攻击方法, 首先对模型水印攻击进行介绍, 然后对模型水印攻击方法进行分类, 根据攻击者对目标模型的访问权限和信息获取能力, 分为白盒水印攻击和黑盒水印攻击两类, 对DNN模型水印攻击的动因、危害、攻击原理和具体实施手段进行梳理和分析, 接着对现有模型水印攻击研究从攻击者能力及性能影响等方面进行比较与总结, 最后探讨了神经网络模型水印攻击在未来研究中的潜在积极作用, 为模型安全和知识产权保护领域的深入研究提供建议。
随着教育数字化的不断推进, 智能教育得到了快速发展。知识追踪作为智能教育领域的核心研究任务之一, 旨在根据学生的历史学习数据捕获其对知识概念的掌握情况, 从而提供个性化的学习路径和资源, 实现人工智能(AI)辅助教育的目标。传统的知识追踪方法主要依赖于贝叶斯模型和逻辑模型, 尽管具有良好的科学解释性, 但在处理海量的教育数据时性能受限。深度学习技术凭借出色的特征提取能力和优异的性能优势, 尤其适用于从海量数据中捕获学习者的知识状态, 因此本文对智能教育领域的深度学习知识追踪研究进行了全面综述。首先, 介绍了智能教育场景中知识追踪的相关概念、研究背景和发展现状。接着, 分析近年来基于深度学习的知识追踪方法, 将其分为基于循环神经网络(RNN)、自注意力网络、记忆增强神经网络和图神经网络(GNN)4类, 并从学习者和习题特征的角度对这4类经典和主流方法的基本思路和算法流程进行归类整理。然后, 介绍了当前可供研究者使用的公开教育数据集, 并比较了不同方法在这些数据集上的性能。最后, 对面向智能教育的深度学习知识追踪做出了总结并探讨了该领域未来可能的研究方向。
在目标检测领域, 卷积神经网络(CNN)凭借其优异的准确性和可扩展性, 长期主导着相关研究, 并获得了学术界的广泛认可。在此框架下, 先后涌现出基于区域的卷积神经网络(R-CNN)系列(如Fast R-CNN、Faster R-CNN)与YOLO(You Only Look Once)系列等多个代表性模型。随着Transformer在自然语言处理领域的成功, 研究者开始探索将其用于计算机视觉领域, 由此产生了视觉Transformer(ViT)和Swin Transformer等视觉骨干网络。Facebook团队为减少目标检测任务中的先验知识和后处理, 在2020年推出了一种端到端目标检测算法——基于Transformer的DETR(DEtection TRansformer)。尽管DETR在目标检测领域展现出潜力, 但也存在收敛速度慢、准确性较差、目标查询的物理意义不明确等缺点。这促使研究者对该算法开展了进一步的研究和改进。本研究旨在归纳总结针对DETR的改进探索, 并分析它们的优势与不足, 同时对利用DETR开展的前沿研究和细分应用领域进行概括, 最后给出DETR在计算机视觉领域的未来展望。
现有的多数步态情绪识别方法对特征融合研究不够深入, 未能充分利用步态的多种特征, 导致性能不佳。为此, 提出一种基于多步态特征自适应融合的情绪识别方法。首先从步态数据中提取时空特征、重构特征以及基于心理学的情感特征, 时空特征捕捉步态模式的动态变化, 重构特征关注步态的结构性信息, 而基于心理学的情感特征则提供个体情感状态的洞察; 其次对3个步态特征进行自适应融合, 动态权衡3种步态特征的重要性, 实现更全面的情感状态表征; 最后在包含4类情绪的数据集上进行十折交叉验证, 模型在真实的Emotion-Gait数据集上进行训练和测试。实验结果表明, 与现有最先进的TAEW方法相比, 该模型在多标签分类任务上的均值平均精度(mAP)指标提升了2百分点; 与STEP方法相比, 在多类别分类任务上的Accuracy指标提升了1.88百分点。该方法能够有效利用行人步态的时空特征、重构特征以及基于心理学的情感特征, 提供了一种鲁棒且准确的情绪识别方法。
固定翼无人机(UAV)的路径跟踪问题是无人机领域中的重要问题。在六自由度(DOF)动力学领域中, 固定翼无人机是一种非线性系统, 其连续状态空间和连续动作空间的高维特征使得固定翼无人机难以控制和制导。构建一种新型的分层强化学习框架, 以解决固定翼无人机路径跟踪中的复杂问题。该框架的核心在于将路径跟踪问题分解为控制问题和制导问题。在控制方面, 通过引入微分补偿器提出一种基于微分补偿器的近端策略优化(PPO-DC)算法, 该算法具有更快的收敛速度以及更好的控制稳定性。实验证明, 提出的PPO-DC算法的收敛速度比PPO算法提升了约2.5倍并且具有更佳的控制精度。此外, 通过特定控制任务训练的模型在处理其他控制任务时同样具有很强的适应性。针对固定翼无人机建立制导模型, 并提出一种有效的制导策略, 解决了其制导问题, 同时提出一种累积奖励设计以解决强化学习任务中多个目标顺序学习的问题, 使得训练能够有效收敛。实验结果表明, 提出的分层强化学习框架在多种复杂路径跟踪场景中表现突出, 固定翼无人机路径跟踪平均误差保持在20 m以内。
联邦学习(FL)作为一种分布式机器学习技术, 在隐私保护方面取得了显著成果。然而, 在实际应用中, 由于数据源的非独立同分布(Non-IID)性, 导致客户端漂移现象, 从而引发模型收敛缓慢和性能下降问题。为此, 提出一种结合注意力机制的联邦本地动量加速学习(FedLM)算法。FedLM在本地模型更新中引入全局动量项, 利用前几轮的全局梯度信息来平滑当前的更新过程, 修正异构客户端的参数更新方向分歧, 从而减少梯度震荡, 缓解数据异构性问题。注意力机制则通过动态调整各客户端在全局模型更新中的权重, 以提升聚合模型的质量。实验结果表明, 在不同数据异构程度、不同模型结构以及不同数据集的图像分类任务中, FedLM的准确率和稳定性均显著优于现有的SCAFFOLD、FedCM、Moon等联邦学习算法。
重复消费行为在许多推荐场景中是一种普遍的现象, 如电商复购、兴趣点打卡等。重复消费行为包括复购可能性和复购时机两个因素, 现有的工作主要关注单个因素的预测, 无法有效解决何时复购何物这类具体的问题。此类问题的主要挑战是复购商品类型非常多样, 不同商品有不同的购买周期, 而复购行为往往比较稀疏, 给预测带来极大困难。另外, 复购行为包括时间和商品两个维度, 如何利用这两个维度的信息进行预测也是一个挑战。针对上述挑战, 从用户个性化的动态衰减特性这一角度探索解决方法, 建立复购行为及时间间隔的联合预测模型。首先, 根据用户对某商品的兴趣随着时间衰减以及近期行为与复购行为具有更强的潜在关联关系, 建模商品序列以获得用户表达向量, 同时利用邻居序列的信息以解决复购行为稀疏性问题; 其次, 设计神经网络模块, 捕获用户的个性化复购周期和商品复购周期, 解决时间和商品两个维度的信息融合问题。在多个公开数据集上的大量实验结果表明, 该模型优于现有相关的基准模型。
知识图谱补全旨在通过预测知识图谱中缺失的实体或关系来解决知识缺失和不完整问题。与传统知识图谱相比, 常识知识图谱通常更加稀疏, 因此仅依靠结构信息来表征实体往往存在不足。为此, 现有研究在结构信息的基础上, 利用语义表征来丰富常识知识图谱, 但这些方法通常只关注单个实体的语义表征, 而忽视了实体集合的语义关联。针对该问题, 提出一种基于关系约束对比学习的常识知识图谱补全方法。首先, 利用关系将实体划分为不同的集合, 从集合中挑选正负样本对进行对比学习, 以获取实体的基础表征; 在此基础上, 以实体个体语义表征和实体所在集合中心表征之间的相似性为约束, 进一步学习实体的综合表征, 并基于该综合表征完成补全任务。在两个公共数据集CN-100K和ATOMIC上进行了实验, 结果表明该模型相比基线模型具有更优的性能: 相比次优模型CPNC, 该模型在两个数据集上平均倒数排名(MRR)值分别提升了1.09和2.48百分点, Hits@1值分别提升了1.02和1.55百分点。
生物医学领域关系抽取(RE)任务通常存在数据稀缺、类别不平衡、多标签等问题。为了解决以上问题, 提出一种结合数据增强和动态阈值策略的方法。首先, 通过自定义损失函数对GPT模型进行微调, 并基于Word2Vec模型得到特征模板以生成新数据; 其次, 利用BERT分类器对生成数据进行筛选, 将高质量样本与原始数据集相结合, 形成更丰富的训练集; 最后, 提出一种可学习动态阈值策略, 根据文档长度及模型输出与真实标签的差异性, 动态调整分类阈值, 使模型能够灵活处理文档多标签问题。在2个公开医学数据集上的实验结果显示, 该方法分别取得了84.1%和69.3%的F1值, 相较ATLOP方法分别提升1.6和1.1百分点, 验证了该方法的有效性。
从传统多背包问题(KP)与典型物流系统运作场景出发, 抽象出异构多背包问题(HMKP), 并制定改进深度确定性策略梯度(DDPG)算法对HMKP进行研究和求解。针对DDPG算法在解决0-1 KP时容易陷入局部最优的缺点, 采用动态随机机制(DRM)和动态惩罚机制(DPM)对DDPG算法进行改进, 并嵌入改进Transformer模块来优化算法, 提出基于改进Transformer模块的动态深度确定性策略梯度(TDP-DDPG)算法, 并加入禁忌表防止重复搜索。TDP-DDPG算法在多个实验算例中展现了高效的搜索能力, 在由低到高维度的测试集1、2以及更高维度的测试集3中所有39个算例都能找到最优值, 在大规模测试集4的6个算例中有3个能找到最优值。实验表明, TDP-DDPG算法在融入改进策略后具备更强的寻优能力。在此基础上, 设计基于TDP-DDPG算法的BPD-DDPG算法来解决复杂度更高的HMKP, 且分别在多个经典0-1 KP算例组合而成的高维度算例中进行分析评估。结果显示BPD-DDPG算法与商业求解器Gurobi相比虽求解时间长, 但在3个低规模算例中求解准确率比Gurobi高。BPD-DDPG算法能在可接受时间范围内以低计算代价高效解决高维度、大规模的HMKP。
传统的基于对比学习的推荐模型通常首先对原始交互图进行数据增强, 然后尽可能提高不同视图编码后的表示一致性。虽然这种方法已被证明是有效的, 但最近的研究发现, 由于图数据中节点的边遵循幂律分布, 图增强往往会引入对对比学习不利的偏差。此外, 图结构的扰动使得处理大规模数据集变得计算密集, 限制了基于对比学习模型的灵活性。为了应对这些挑战, 提出一种高低方差分离的特征增强方法(HLVS), 该方法不仅避免了对图结构的直接扰动, 还减轻了传统特征扰动方法中存在的语义偏差问题。同时, 为了缓解推荐系统中的流行度偏差问题, 在主任务中引入流行度指标, 并设计一种新的损失函数——基于物品流行度的贝叶斯个性化排序(PBPR)损失, 以实现对热门与冷门节点表示的平衡。最后, 通过整合对比学习、HLVS和PBPR, 设计一个轻量级的无参数图对比学习框架(XSGCL), 该框架可以自然地集成到推荐模型中, 以提高训练效率和性能。通过在5个公共数据集上的广泛实验, 证明了将XSGCL集成到LightGCN后, 不仅显著提升了训练效率, 并且相较于先进模型具有更好或者相当的性能, 例如在Yelp2018数据集上, 相比于LightGCN, 模型训练效率提升了91.2%;在Alibaba-iFashion数据集上, Recall@10和NDCG@10指标分别提高了32.21%和33.73%。
遥感图像语义分割技术在资源管理、自然灾害管理、环境监测和保护等领域具有重要应用价值, 然而不同的遥感图像数据集往往存在大量的异物同谱和同物异谱等现象, 极大地降低了深度学习模型的泛化性能, 同时遥感图像语义分割算法中存在跨域预测性能下降的问题。为了解决上述问题, 从神经网络模型架构和域自适应策略两个方面进行优化。首先, 提出了基于层级多头自注意力机制与多尺度特征融合的TransConv网络, 通过滑动窗口切块、多层自注意力模块和轻量前馈神经网络, 有效提升特征提取和融合的能力, 从而增强模型的泛化性能。其次, 提出一种基于自训练的域自适应技术, 该技术通过优化图像输入、模型参数和学习过程, 将带标注的源域知识成功迁移至未标注的目标域, 大幅提高了目标域的分割性能。实验结果表明, 改进后的TransConv网络不仅在泛化性能上显著优于其他算法, 基于自训练的域自适应技术也在域自适应任务中表现出色, 提升了遥感图像语义分割的准确性和泛化能力, 减少了错误伪标签的影响和解决了类不平衡问题, 为实际应用提供了更为可靠的技术支持。
路面异常检测对于保障行车安全、优化交通管理和驾乘体验具有重要的现实意义。针对路面异常物体在尺寸、形状及颜色等方面跨度较大, 以及复杂环境干扰导致检测精度和效率较低的问题, 提出一种改进实时检测Transformer(RT-DETR)的路面异常目标检测技术。首先, 设计大感受野元素乘法模块(LRFEM_Block)替代原主干网络中的BasicBlock模块, 该模块依据元素乘法原理有效增强特征表达能力。其次, 引入广义高效层聚合网络(GELAN)思想, 并结合多尺度LRFEM_Block设计一种基于元素乘法的层聚合尺度内特征交互(MLA-IFI)结构, 提高颈部网络对深层特征的计算效率和性能, 优化梯度传播路径。此外, 引入自适应选择边界聚合(SBA)思想构建双向自适应边界融合特征金字塔网络(BABF-FPN)多尺度特征融合模块, 自适应双向聚合不同分辨率特征, 促进小目标物体模糊边界的细粒度化。实验结果表明, 改进方法在自建数据集和RDD2022公开数据集上的mAP@0.5相较于基线算法分别提升3.4和4.7百分点, 均优于其他测试模型, 并且参数量和计算量分别减少24.5%和11.2%, 算法检测速度达到74帧/s, 更加契合车载路面异常检测的部署需求。
针对复杂背景遥感图像中小目标密集、目标尺度变化大等因素给目标检测带来的特征提取困难、精度不佳的问题, 在YOLOv5s基础上提出一种多尺度信息增强的目标检测算法——深度学习YOLO(DL-YOLO)。首先, 改进算法在主干网络顶部采用基于快速空间金字塔池化设计的空洞卷积快速空间金字塔池化, 通过其中的感受野增强模块(RFEB)融合多尺度目标的细节信息与语义信息, 提高网络的特征提取能力。其次, 改进算法的检测头部分采用以YOLOv6s解耦头(DH)为基础设计的轻量高效解耦头(LEDH)来替换原有的检测头, 在该解耦头中设计了轻量化空洞全局深度卷积(GDConv)模块来增强分类与回归任务关联信息的学习, 以及引用轻量化卷积实现轻量化, 在提高各尺度目标检测精度的同时, 降低解耦头参数量。在DIOR数据集上的实验结果表明, 与YOLOv5s相比, 提出的DL-YOLO算法在精确率、召回率、mAP@0.5、mAP上分别提高了1.6、2.1、2.1和4.7百分点, 综合指标超过了现有优秀的目标检测算法, 对遥感图像中多尺度目标检测具有实际应用意义。
针对无人机(UAV)航拍图像存在的检测性能低、遮挡严重、小目标特征提取难度大及模型参数量大的问题, 提出了基于YOLOv8s的RSD-YOLO算法。首先, 设计了感受野注意力(RFA)模块CSP-RFA替代C2f模块, 以提升小目标特征提取能力, 有效应对传统卷积操作对位置变化不敏感的问题。其次, 对主干网络和特征融合网络进行了轻量化处理, 新增了大尺寸特征图检测分支, 并提出了感受野金字塔网络(RFPN), 优化特征流动方向, 增强特征表达能力。再次, 检测头模块经过优化, 将多尺度特征集成至具有多级注意力机制的检测头中, 并替换了损失函数, 提升了模型对小目标的检测性能。最后, 在模型压缩方面, 采用层自适应幅度剪枝(LAMP)算法, 进一步减少了模型的参数量和大小。实验结果表明, 轻量化后的RSD-YOLO在公开数据集VisDrone2019上较基线模型有显著提升, 精度提高了10.0百分点, mAP@0.5提升9.5百分点(增幅24.1%), mAP@0.5∶0.95提高6.9百分点(增幅29.4%)。模型参数量从11.12×106减少至4.05×106(减少63.6%), 计算量从42.7 GFLOPs降至25.5 GFLOPs(减少40%)。此外, 在仅检测遮挡小目标的新数据集上, RSD-YOLO在精度、mAP@0.5、mAP@0.5∶0.95上分别提升了9.1、16.1和10.7百分点。
目前众多的多标签图像分类研究将标签语义信息和标签共现概率作为先验知识引导学习多标签分类模型, 但这类方法大多依赖额外的语义信息, 难以处理不同模态间的信息不匹配问题, 且标签共现概率的计算也容易受到数据不平衡和噪声的影响。提出一种基于标签视觉原型学习的多标签图像分类方法, 仅利用图像本身的视觉信息, 通过生成标签视觉原型的方式构建多标签分类器。该方法不仅减轻了对先验知识的依赖, 还充分利用了图像自身的视觉信息, 有效提升了分类性能。首先, 设计基于类特定激活图的注意力模块, 引导模型关注图像中与类别更加相关的区域, 并生成类特定特征表示; 然后, 通过捕获每个标签的视觉原型表示, 构建标签视觉原型字典, 充分发挥视觉特征信息与图像分类任务的适配性; 最后, 以该字典作为多标签分类器, 重构输入图像的视觉特征, 进而获取标签的预测概率。实验结果表明, 该方法在3个标准多标签图像分类数据集上的分类准确率较同类方法得到了提升。
在基于神经隐式表面学习的多视图三维重建过程中, 复杂物体的几何形状和外观表示存在潜在的模糊性。因此, 物体的几何细节信息在纹理稀疏区域、边界区域与较大光滑区域中容易丢失, 难以精确恢复。为解决这个问题, 提出一种基于多视图混合一致性约束的神经隐式表面重建方法。该方法采用多视图立体匹配(MVS)、多视图光度一致性与特征一致性、体渲染技术来优化隐式表面表示, 从而重建具有精细几何细节的复杂物体模型。首先, 提出一个基于MVS的稠密点生成模块, 通过MVS生成稠密点, 来补充物体表面纹理稀疏区域与边界区域的细节信息, 从而实现物体表面的多视图几何优化。其次, 提出多视图混合一致性约束模块, 通过符号距离函数(SDF)定位零水平集, 利用多视图光度一致性约束来对物体光滑区域进行几何约束, 监督所提取的隐式表面, 并对经过线性插值的SDF过零处的表面点应用多视图特征一致性约束, 弥补纹理稀疏区域或结构复杂区域像素匹配的误差, 从而优化物体重建模型。最后, 通过应用体渲染技术, 利用隐式的SDF得出高质量的图像渲染, 以实现复杂物体的精确表面重建。实验结果表明, 在DTU数据集中, 相比于Colmap等方法, 所提方法峰值信噪比(PSNR)提升了40.3%以上, 实现了物体表面的精确重建。
针对车辆漆面缺陷检测精度低、检测算法参数量大、难易样本不均匀等问题, 提出一种基于改进YOLOv8的车辆漆面检测算法。首先, 为了提升划痕状缺陷检测能力并降低模型规模, 将DAT(Deformable Attention Transformer)注意力机制引入主干网络来增强长距离特征依赖关系, 同时使用幻影卷积(GhostConv)替换网络中的卷积(Conv)模块。然后, 为了提升特征提取能力并进一步降低模型规模, 结合FasterBlock模块与高效多尺度注意力(EMA)机制提出C2f-E(C2f Based on EMA)模块。接着, 为了提高小目标检测性能, 基于双向特征金字塔网络(BiFPN)进行设计, 并增加小目标检测头与多尺度特征融合支路, 提出BiFPN-D(BiFPN with Small Object Detection Head)颈部金字塔结构。最后, 为了解决难易样本的平衡问题并提高针对小目标缺陷的检测性能, 使用WIoUv3(Wise-Intersection over Union version 3)作为训练网络的损失函数。在自建的车辆漆面缺陷数据集上进行训练并开展对比实验。实验结果表明, 相较于YOLOv8n, 改进模型的均值平均精度(mAP@0.5)提高了5.5百分点、规模减小了1.4×106。
在点云三维目标检测任务中, 点云数据的稀疏性在客观上对小目标检测构成显著挑战。小目标自身有效点数稀少导致结构信息缺失与边界模糊, 而上下文感知能力不足阻碍模型有效利用周围环境信息进行空间推理与语义补全, 进而引发定位偏差, 以及其固有的空间定位困难、通道表达弱和特征易被背景淹没等问题, 共同制约了检测性能的提升。为缓解上述问题对检测精度造成的影响, 提出一种融合动态特征提取与特征增强映射的动态感知三维检测算法。该算法聚焦特征提取与候选框生成两大关键阶段对小目标检测进行优化。首先, 引入动态点特征预测网络(DPFPN), 通过自适应预测补充采样点以强化对小目标的结构感知能力; 其次, 构建特征增强映射网络(FEMN), 对原始特征及动态预测网络生成的特征进行深度融合, 输出富含上下文信息的二维特征图, 以有效弥补上下文缺失并提升小目标的定位精度; 最后, 设计点云特征增强网络(PCFEN), 在通道与空间双维度提升网络对小目标关键区域的聚焦能力。在nuScenes数据集上的实验结果表明, 所提算法性能优于当前主流目标检测算法, 与基准模型CenterPoint相比, 均值平均精度(mAP)由56.1%提升至59.4%, Nuscenes检测分数(NDS)由64.4提升至67.4。
针对当前虚假评论检测模型存在的深层情感特征挖掘不足、语义依赖关系缺失以及泛化性能不佳的问题, 提出一种基于情感加权BERT与多任务对抗学习的虚假评论识别模型DEBR-GAN。首先, 借助情感词典辅助预训练BERT, 通过情感加权机制对评论文本中的潜在情感信息进行提取, 从而增强对评论中细微情绪变化的捕捉能力; 随后, 采用循环神经网络(RNN)对BERT输出的语义特征进行处理, 充分挖掘评论中词语之间的时序依赖及上下文关系, 以提高对文本细节的敏感性; 接着, 为提升模型在多领域场景下的鲁棒性与泛化能力, DEBR-GAN借鉴了生成对抗网络(GAN)的对抗学习思想, 将虚假评论检测器视为特征生成器, 用于提取跨领域共享的有效特征, 同时, 通过设置类别鉴别器和评分鉴别器, 在反向传播过程中采用梯度反转技术, 与生成器进行对抗博弈, 有效消除类别信息和用户评分偏好对特征提取过程的干扰, 从而保证检测器在识别虚假评论时具有高准确性。实验结果表明, 在大众点评数据集上, DEBR-GAN模型的F1值高达0.926, 与未引入多任务对抗学习模块的模型相比, 其分类准确率提高了5.1百分点, 而相较于当前最佳基线模型则提升了3.51百分点。此外, 该模型在处理不同情感倾向和语义结构的评论时均表现出较高的识别准确率, 充分验证了情感增强与对抗学习相结合在虚假评论检测中的有效性与优越性。
多重签名广泛应用于区块链交易方案, 随着区块链应用国产化需求的不断增长, 安全高效的SM2算法日益缺少多重签名方面的研究。此外, 现有方案大多依赖公钥基础设施(PKI)体系来实现证书管理, 存在效率和可扩展性问题。为此, 提出一种基于SM2算法的无证书多重签名方案。首先, 在SM2密钥生成阶段引入无证书密码机制, 避免代价高昂的证书管理, 设计密钥持有证明, 抵御恶意密钥攻击; 其次, 通过引入树形结构, 设计"线上-线下"的SM2多重签名算法, 实现签名生成的高效性和高可扩展性, 并在随机预言机模型(ROM)下证明该方案满足选择消息攻击下的存在性不可伪造性(EUF-CMA); 最后, 将所提方案应用于Hyperledger Fabric联盟链, 优化区块链交易流程。性能分析结果表明, 与现有签名方案相比, 所提方案在保证安全性的前提下, 有效降低了计算开销和通信开销。
联邦学习促进了不同医疗机构之间的数据共享和合作, 提高了医疗诊断、治疗和预测的准确性和效率。然而在医疗场景中, 现有联邦学习方案仍然存在安全和效率上的问题。在训练过程中, 模型参数的更新可能会间接地泄露有关本地训练数据集的信息。为了保证模型参数的机密性, 研究人员提出了各种解决方案, 例如掩码协议和差分隐私。使用掩码协议的解决方案通常不具有较高的安全性, 而使用差分隐私的解决方案则需要在准确性和隐私性之间进行权衡。为了解决上述挑战, 提出一种智慧医疗中基于秘密共享和同态加密的安全联邦学习方案。在模型训练过程中, 该方案能够有效抵御医疗云和医疗客户端对模型参数的窃取, 同时可以抵抗多个参与方的共谋攻击。最后, 通过密文验证算法, 确保模型参数在训练过程中的可验证性。安全性和性能分析结果表明, 该方案在智慧医疗场景中可以满足模型参数的机密性和完整性要求, 与现有方案相比, 在计算效率和传输效率上也有显著提升。
在数字化投票系统中, 全同态加密(FHE)与区块链技术的结合保障了电子投票的安全性和隐私性, 但现有方案因FHE算法复杂的计算过程导致系统整体性能较差, 尤其是在计票效率和公平性方面, 因此提出一种基于FHE的区块链电子投票方案(BCEVS-FHE)。该方案首先通过优化BFV(Brakerski—Fan—Vercauteren) FHE算法中噪声因子的影响, 降低加解密过程中的计算开销, 从而提高计票效率; 然后利用SM2数字签名算法对投票者生成的选票信息进行签名, 确保投票者无法否认其投票行为, 防止身份信息假冒与欺诈; 接着引入智能合约对加权计票的加权方式进行改进, 确保投票者权重的不可伪造性和不可篡改性, 保障投票过程的公平公正; 最后通过私有区块链方式将所有交易信息都存储到链上, 确保整个投票过程不可篡改和可追溯。实验结果表明, 该方案不仅在隐私性、机密性、安全性、唯一性和可验证性等安全属性上得到了保障, 而且在公平性和可移动性等功能属性上表现出色。综合来看, BCEVS-FHE满足电子投票协议的安全需求, 还具有较高的实际应用潜力, 对于数字化投票系统的广泛应用具有重要的研究价值。
针对多基站多任务移动边缘计算(MEC)环境中任务卸载问题, 在同时考虑任务在基站之间并行传输、任务卸载系统时延和边缘服务器负载的情况下, 提出以系统时延和负载均衡为最小化优化目标的任务卸载策略。为求解优化问题, 提出一种基于改进粒子群优化(PSO)算法的任务卸载方法IPSO, 通过采用反向学习策略对PSO算法的初始解空间进行优化, 提升算法的收敛与搜索能力。在此基础上, 利用Levy飞行策略对各粒子的速度矢量进行更新, 有效避免局部最优解, 同时引入遗传算法的精英保留策略, 得到一个能够稳定降低边缘服务器负载的任务卸载策略。将所提出的IPSO算法与混合启发式算法(GA-BPSO)、PSO算法、人工蜂鸟算法(AHA)、遗传算法(GA)和随机编码算法进行对比。实验结果表明, IPSO算法在不同的任务数、边缘服务器数下得到的时延和负载标准差都小于其他5种算法, 其中, 在任务数增长下进行实验后得到的系统时延分别比其他对比算法平均降低了3.04%、4.63%、6.79%、8.94%、12.7%, 边缘服务器之间负载标准差分别比其他对比算法平均降低了16.2%、26.4%、62.8%、71.3%、91.5%。
研究多无人机(UAV)协同移动边缘计算网络中自适应合作任务卸载与分配问题。为了提高时变环境下无人机之间的协同性, 进而提升任务的执行效率, 构建时变环境下无人机任务队列模型, 并建立基于马尔可夫决策过程(MDP)的无人机任务卸载决策模型。提出一种基于合作的深度确定性策略梯度(CODDPG)算法, 以解决多无人机卸载决策优化问题。CODDPG算法结合神经网络CommNet与传统的多智能体深度确定性策略梯度(MADDPG)算法, 实现了无人机的环境观测值共享, 有效拓展了无人机的环境感知范围并增强了它们之间的协同决策能力, 并且解决了MADDPG算法中智能体的训练仅依赖局部信息而陷入局部最优解问题, 从而最小化总计算时延。经过实验证明, CODDPG算法不仅有效降低了任务计算时延, 而且与传统的MADDPG算法相比收敛速度更快。
为解决Kubernetes内置的弹性伸缩策略衡量指标单一、反应滞后和资源利用效率低的问题, 提出一种熵权利用率复合算法结合预测模型的改进弹性伸缩策略。熵权利用率复合算法通过关注多种指标的资源利用率在不同节点上的分布差异(信息熵权法)和整体趋势(平均利用率权重法), 计算Kubernetes集群的综合负载值, 从而解决衡量指标单一的问题。构建自适应变分模态分解(AVMD)算法结合基于注意力机制增强的长短期记忆(Attention Mechanism-based LSTM)算法的预测模型, 通过预测负载变化以解决反应滞后和资源利用率低的问题。该模型根据预测的负载值, 在高流量初期促使系统快速响应进行扩容, 流量结束后迅速缩容以节约资源。实验结果表明, 与Kubernetes伸缩策略相比, 改进弹性伸缩策略在突发流量前期, 请求响应时间降低了52%, 在流量结束后快速缩容释放资源, 具有较高的实际应用价值。
随着通信技术的发展, 物联网(IoT)在现实生活中发挥着越来越重要的作用, 无人机(UAV)通信在IoT中的应用也得到了广泛研究。UAV作为移动数据收集器, 用于采集无线传感器网络(WSN)中感知节点(SN)的数据。引入信息年龄(AoI)作为评价网络性能的指标, 提出一种基于UAV轨迹设计和SN调度策略的数据采集方案。基于该方案, 构建了平均AoI(AAoI)和SN能耗加权最小化模型, 通过优化UAV的轨迹、SN的调度以及发射功率, 最小化系统AAoI和能耗的加权和, 该问题为混合整数非线性问题, 通常难以直接求解。因此, 首先利用路径离散化方法将多个连续的变量离散化, 然后提出基于块坐标下降法(BCD)和连续凸逼近(SCA)的联合优化算法, 得到满足KKT条件的局部最优解。从仿真结果可以看出, AoI和SN能耗得到有效平衡, 表明了所提方案的可行性。
5G基站通过接入回传一体化技术可以构建无线网络, 使得灾后"信息孤岛"区域能够快速恢复公共移动通信服务。针对基站间的通信链路质量遇障碍物遮挡削弱严重, 进而导致系统可靠性低的问题, 提出一种基于博弈论的协作路由(GCR)方法, 通过激励基站协作传输数据提升端到端数据传输可靠性。基于联盟博弈模型设计协作联盟机制, 临近基站间根据网络可达性和联盟规模自主构建协作联盟, 同一联盟节点共同承担数据传输责任的同时共享收益, 减小随机障碍物遮挡对多跳路径可靠性的影响, 并基于演化博弈模型设计协作策略更新机制, 基站根据自身电量消耗自适应调整协作转发概率, 促使基站选择协作转发策略。仿真结果表明, 相比OLSR、AODV等传统无线路由方法, 该方法在随机障碍物场景下具有较优的平均时延、丢包率和吞吐量, 端到端有效服务率始终大于95%, 证明其可有效提高系统可靠性。
高分辨率的气象数据对于本地和区域尺度的生产生活具有重要意义, 而基于深度学习的降尺度技术能有效弥合现有气象低分辨率数据与应用需求间的鸿沟。深度学习气象降尺度方法常受限于固定整数缩放因子, 导致多倍率场景下训练成本较高, 并且现有方法在气象数据中仍存在高频细节预测不准、结果模糊的问题。为此, 提出一种融合隐式神经表达和自适应特征编码的深度学习超分辨率网络, 用于任意倍率气象降尺度。其核心动态像素特征聚合模块利用可学习调制器动态调整特征提取过程, 使像素特征能自适应不同缩放因子; 图像级隐式表达模块则通过注意力机制融合坐标线性差异与邻域非线性特征, 实现连续域像素值预测。结合高阶退化训练策略, 在ECMWF HRES和ERA5数据集上的实验结果表明, 与固定倍率方法相比, 该方法在2倍率下的峰值信噪比(PSNR)指标可高出至少0.7 dB, 与任意倍率方法相比, 该方法在2倍率下的PSNR指标可高出至少0.48 dB, 可为气象数据应用提供更加灵活高效的解决方案。
航空发动机健康状态预测作为发动机健康管理的重要环节之一, 能够为提升飞机可靠性、降低发动机维护成本等工作提供定量化依据。然而, 传统的航空发动机健康状态预测对可解释性关注度较低, 导致对发动机视情维修等决策的支撑性不足。为此, 面向发动机健康状态预测的可解释需求, 提出基于EnsembleBRB-SHAP模型的航空发动机健康状态可解释预测方法。首先, 采用数据驱动法训练多个航空发动机健康状态预测子置信规则库(BRB)模型。在此基础上, 构建航空发动机健康状态预测集成置信规则库(EnsembleBRB)模型, 在有效利用多源不确定数据的同时, 保证模型的预测准确性。然后, 基于沙普利加性解释(SHAP), 对EnsembleBRB模型进行分析解释, 定位影响发动机健康状态的关键因素, 实现航空发动机健康状态的可解释性预测。最后, 引入商用模块化航空推进系统仿真软件记录的发动机故障实验监测数据, 验证所提方法的可行性与有效性。实验结果表明, 该方法在航空发动机健康状态预测中的均方误差(MSE)为0.012 2, 通过局部可解释性与全局可解释性分析, 归纳得出低压涡轮机冷却液泄漏量、风扇转速等是决定发动机健康状态的关键参数, 进而更好地支撑航空发动机健康管理等决策工作。
在6G网络环境中的智能网联车(CAV)和人工驾驶车(HV)共存的混合自治交通场景下, 车辆自动形成跟驰车队列, 通过缩小车辆的间距可以提高道路的通行量, 而车队的稳定性问题值得研究。车队的稳定性既能保证车辆间的驾驶安全, 又能缓解交通拥堵。基于数字孪生(DT)技术, 提出一种增强型DT模型的混合自治交通稳定性分析方法, 在不中断正在进行的交通状态的情况下评估系统性能。首先, 考虑环境和车辆传动系统因素, 如天气情况、路面情况、载荷、传动等, 以及CAV与DT的通信延迟, 基于车辆传动系统和纵向动力学, 以模型驱动的方式构建精确化、可解释的增强型DT模型, 从而提高智能交通的通行效率、可靠性和安全性。然后, 对所构建的增强型DT系统进行稳定性和串稳定性分析, 推导出混合自治交通系统稳定性的临界时延和串稳定性的CAV的控制增益条件。最后, 分析环境数据的偏差对不同状态的增强型DT系统的影响, 判断DT可预测性的有效参数范围。数值仿真实验结果表明, 该方法能快速判断混合自治交通系统的稳定性, 并获得DT可预测性的有效参数范围。
随着区块链在医疗领域的广泛应用, 对于多样、敏感且规模持续增长的医疗集采数据进行有效监管逐渐显露出其重要性。然而, 现有的医疗集采数据监管方案由于业务关联复杂, 导致多部门协同监管过程效能低, 存在共享监管数据隐私泄露风险。因此, 基于多链提出了一种支持安全共享的医疗集采数据监管方案。构建一个基于监管中继链的多链协同监管框架, 针对医疗集采业务概括出监管元素和受监管数据对象, 形成多链协同监管与跨链交互的全面视图; 通过多链协同监管模型展示多种监管信息流, 将监管元素描述为结构化的跨部门综合监管事项清单, 以支持多部门多环节跨链监管; 在多链监管实施过程中, 将医疗集采业务产生的大量受监管数据对称加密后存储于星际文件系统(IPFS)中, 降低区块链存储负担; 引入代理重加密(PRE)技术保障对称密钥与元数据的多链间安全共享, 并结合可搜索加密算法支撑链上IPFS文件地址密文的检索。以医疗集采业务分析为基础, 对监管数据的流转过程进行安全性分析, 对协同监管过程中授权、上传和查询等链码进行性能测试。实验结果表明, 该方案具备安全性与高效性, 相对于其他类似方案更适合医疗领域, 能够满足多部门多环节协同监管和数据安全共享需求。
为提高井下安全管理效率, 实现煤矿安全生产, 根据煤矿行业相关标准规范, 并结合井下不安全行为领域知识, 采用BIO标注策略构建一个包含8类实体类别、2 359条样本的煤矿井下不安全行为语料库。针对煤矿井下不安全行为命名实体识别任务中存在的语义信息利用不足、实体分布不均衡、实体边界模糊的问题, 提出一种基于Global Pointer和对抗训练的煤矿井下不安全行为命名实体识别模型。首先, 采用改进的分层RoBERTa模型并利用多层语义信息增强井下不安全行为文本向量化, 结合对抗训练对词嵌入层进行扰动, 缓解数据不平衡问题, 增强模型的鲁棒性; 其次, 在特征提取层采用双向门控循环单元(BiGRU)可以更有效地捕获语料的上下文语义特征, 加强文本语义关联; 最后, 在解码层构造Global Pointer, 获得更准确的实体边界识别结果。为验证提出模型的有效性, 在自建的小样本煤矿井下不安全行为数据集上进行实验, 结果表明, 该模型的精确率、召回率和F1值分别为78.77%、78.20%、78.48%, 相比于BERT-Global Pointer模型分别提高了2.27、0.63、1.45百分点, 为构建井下不安全行为知识图谱提供基础。
针对实际钢筋绑扎施工现场存在钢筋网多层次, 作业环境和光线复杂, 以及构件密集等问题, 从多层钢筋骨架平面绑扎实际需求出发, 为实现钢筋绑扎节点的精确定位, 以双目视觉联合目标识别思想为基础, 提出一种基于双目立体匹配和绑扎状态识别的钢筋绑扎节点联合定位方法。首先, 通过引入Hourglass特征提取网络和有效通道注意力机制(ECANet)对AnyNet的特征提取网络进行改进, 提高钢筋网区域的匹配精度。多层钢筋网具有复杂的结构和层间关系, 通过深度过滤得到目标绑扎工作层。其次, 根据目标绑扎工作的特征, 提出一种基于钢筋骨架提取的绑扎节点定位模型, 通过提取钢筋骨架并拟合钢筋骨架方程获取钢筋绑扎节点坐标。最后, 通过轻量化的YOLOv5对绑扎节点状态进行识别, 输出待绑扎点坐标。实验结果表明, 基准网络AnyNet的3像素误差(3PE)为8.16%, 而所提算法的3PE仅为3.72%, 有效提高了算法的匹配精度; 所提算法可过滤掉深层次钢筋的干扰, 且钢筋绑扎节点空间定位的平均误差为5.03 mm, 能够满足复杂背景下的钢筋绑扎工作需求。
针对现有交通拥堵预测方法中拥堵指数定义单一、静态-自适应图信息无法有效融合的问题, 设计一种创新的交通拥堵指数(TCI), 并提出基于静态-自适应图融合的交通拥堵预测模型——SA-GFSTCN。首先, 根据平均速度、交通流量和时间占有率3项指标反映的道路使用情况和交通流状况, 定义TCI; 然后, 模型采用并行架构处理输入数据, 使用时空卷积和时空注意力模块对静态路网结构进行处理, 提取固定的结构性信息及其时空特征; 接着, 采用自适应图卷积和门控时间卷积处理自适应图数据, 并提取动态的时空关联特征; 最后, 通过交叉注意力机制将这两部分输出进行有效融合。在2个真实的交通数据集上的实验结果表明, SA-GFSTCN模型在平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)3项指标上相较于最优基线模型分别提升了0.27与0.20、0.22与0.23百分点、0.38与0.36, 验证了SA-GFSTCN模型的有效性。