传统机器学习算法只有当测试集和训练集同分布时才能取得较好的性能, 无法增量地学习原训练集中没有的新类别或任务。持续学习使模型得以具备自适应学习能力, 在持续学习新任务的同时能够防止对旧任务的遗忘。当前持续学习仍面临计算开销大、存储成本高以及性能不稳定等挑战。近年来, 预训练模型的发展为持续学习提供了新的研究方向, 有望进一步提高性能表现。首先, 分析了现有基于预训练的持续学习方法, 按照防止遗忘的机制将其归纳为基于提示池、缓慢更新参数、基于扩展主干网络分支、基于参数正则化、基于分类器设计5类方法, 进一步按照阶段数、微调方式和是否利用语言模态对其进行归类并总结了各类方法的主要特点和各自优势。然后, 分析了持续学习方法存在的主要挑战, 归纳了各类持续学习方法的适用场景和局限性, 在多个评测基准上对各类方法进行实验比较并讨论各方法的性能差异。最后, 对基于预训练的持续学习方法的研究趋势进行展望。
高清环境语义地图的生成是自动驾驶系统实现环境感知与决策规划不可或缺的关键技术。针对当前自动驾驶领域相机与激光雷达在感知任务中存在的模态差异问题, 提出一种创新的多模态融合范式HDMapFusion, 通过特征级融合策略显著提升了语义地图的生成精度。与传统直接融合原始传感器数据的方法不同, HDMapFusion创新性地将相机图像特征和激光雷达点云特征统一转换为鸟瞰视图(BEV)空间表示, 在统一的几何坐标系下实现了多模态信息的物理可解释性融合。具体而言: HDMapFusion首先通过深度学习网络分别提取相机图像的视觉特征和激光雷达的三维(3D)结构特征; 然后利用可微分的视角变换模块将前视图像特征转换为BEV空间表示, 同时将激光雷达点云特征通过体素化处理投影到相同的BEV空间, 在此基础上设计一个基于注意力机制的特征融合模块, 自适应地加权整合两种模态; 最后通过语义解码器生成包含车道线、人行横道、道路边界线等要素的高精度语义地图。在nuScenes自动驾驶数据集上的实验结果表明, HDMapFusion在高清地图生成精度方面显著优于现有基准方法。这些实验结果验证了HDMapFusion的有效性和优越性, 为自动驾驶环境感知中的多模态融合问题提供了新的解决思路。
大语言模型(LLM)在多种自然语言处理任务中展现出卓越性能。然而, LLM拥有极高的参数规模, 使得有限的GPU内存容量成为推理任务的性能瓶颈。为此, 面向LLM推理服务场景提出AdaptiveLLM, 根据推理任务负载特征, 在张量交换和张量重算中实现卸载策略的自适应选择。为了评估推理任务负载特征, AdaptiveLLM通过算子粒度计算复杂度分析建立黑盒机器学习(ML)模型, 实现张量重算开销预测, 通过细粒度KV Cache内存占用分析实现张量交换开销预测。为了进行卸载策略的自适应选择, AdaptiveLLM针对抢占调度阶段设计一种基于开销感知的内存优化策略, 在GPU内存不足时选择开销较小的卸载方式。同时, 针对启动调度阶段设计一种基于公平性的用户请求调度策略, 在GPU内存空余时基于公平性原则调度更多的用户请求。实验结果表明, 相比于当前广泛使用的LLM推理基准框架, AdaptiveLLM实现了整体吞吐率的提升, 同时降低了平均带权周转时间, 实现了公平调度。
算力和网络技术的发展使得机器人逐渐向小型化、群体化、智能化方向发展,部署在硬件设备上的机器人软件需要集成从底层设备驱动和控制到上层运动规划和推理等多种软件模块,软件架构日益复杂。群体机器人通信编程框架从机器人软件标准化、模块化、平台化等目标出发,减轻了机器人通信编程的复杂度。分析总结机器人软硬件架构发展趋势,得出群体机器人系统是由各类计算节点、执行器、传感器等硬件设备通过有线或无线网络互联构成的多域异构分布式系统。这种硬件设备的异构性使得软件模块难以通过单一框架集成。归纳分析现有群体机器人系统通信编程框架在易用性、可移植性等方面的特点,从编程模型、异构硬件平台支持、组件间通信机制、编程语言等核心能力方面对通信编程框架进行对比,并在实时性、虚拟化、组件编排和容错支持等扩展能力方面展望通信编程框架的发展趋势,聚焦于以元操作系统(OS)为底座的下一代编程框架,以期构建人机物泛在融合的群体机器人软件架构。
探讨人工智能(AI)技术在中子散射实验全生命周期中的应用,旨在梳理AI技术如何革新中子散射实验装置、数据采集、数据处理等关键环节。首先介绍中子散射技术的基本原理和实验流程,然后重点讨论AI技术在中子散射实验中的多方面应用,包括实验基础设施的优化设计、数据采集与成像的数据预处理以及中子衍射、中子反射、非弹性中子散射(INS)等实验样品表征方面的应用,展示AI技术在提高实验的智能化水平、加快数据处理速度、提升数据分析的准确性和可靠性等方面的重要性。此外,对AI技术在中子散射实验中的未来应用进行深入讨论,指出随着多模态学习、可解释模型、大语言模型、AI-Ready数据库等技术的不断进步和应用领域的拓展,AI技术有望为中子散射实验带来革命性的变革,为揭示复杂物质系统的微观结构和性质开辟新的途径。
在城市轨道交通的运营过程中,运营方通过收集并分析乘客的轨迹数据得出个人或群体的出行规律并进行分类筛选,根据乘客的出行特征优化轨道交通运营过程中的资源配置,提升服务满意度。为对轨道交通乘客特征进行刻画,考虑地铁网络中乘客出行轨迹的特点,并将途经站点高度重合的出行轨迹认定为相似轨迹,设计轨迹相似性评价算法。基于轨迹相似性提出乘客特征评价方法,通过轨迹相似性计算得到乘客在一段时间内出行轨迹的相似性矩阵,对相似性矩阵进一步优化获得乘客的出行规律矩阵。使用真实的上海城市轨道交通自动售检票(AFC)系统刷卡数据进行实验,结果表明该方法对于随机选择的10 000名乘客,出行次数达标且达到规律性要求的乘客有4 386名,有规律的乘客出行次数占所有乘客出行次数的67.85%。上述实验结果验证了该方法对单个乘客以及乘客群体具有适用性。
作为任务型对话系统的核心模块, 自然语言理解(NLU)旨在将用户输入的自然语言进行结构化表示, 通常分为意图识别和槽位填充两个子任务。由于两者联系密切, 对意图和槽位进行显式联合建模成为通用的解决方案。然而, 在资源稀缺的小样本场景下较难通过少量支持集样本提取意图和槽位的关联关系, 且从资源丰富的源领域学习到的通用知识无法直接应用于目标领域。受英语完形填空任务启发, 将语句中非槽位(标签为"O")单词的平均向量视为句型表示, 提出一种句型自适应原型网络(SPAPN)方法。在资源丰富的源领域, 充分学习跨越领域的句型语义知识, 以句型信息为枢纽, 间接完成意图和槽位的关系建模。在低资源目标领域, 采用元学习的训练模式, 通过注意力机制学习意图、槽位、句型原型的关联关系, 获取意图和槽位的增强原型语义表示, 结合对比对齐学习(CAL)方法, 根据查询样本与原型之间的向量相似度判断其标签类别。在中英文基准数据集上的实验结果表明, 无论是否经过微调, 该方法较现有最优基线方法在意图识别准确率、槽位填充F1值以及联合准确率方面均能够取得更加优秀的表现。
疲劳驾驶是导致交通事故的主要因素之一。在人工智能领域, 基于脑电图(EEG)的驾驶疲劳状态分类已成为重要研究方向。近年来, 融合注意力机制的深度学习模型在EEG疲劳识别中得到了广泛应用。以SEED-VIG数据集作为研究对象, 采用ReliefF特征选择算法, 构建基于自注意力、多头注意力、通道注意力、空间注意力机制的卷积神经网络(CNN)、长短期记忆(LSTM)网络和支持向量机(SVM)优化模型。在SEED-VIG数据集提供的EEG数据上的实验结果表明, 基于多模注意力机制的多种神经网络优化模型的准确率、召回率、F1值等指标均得到了有效提升, 其中以平均准确率和标准偏差作为对比参数, 可增强空间与通道信息的卷积块注意力模块(CBAM)-CNN模型的性能最佳, 分别为84.7%和0.66。
人体姿态估计(HPE)任务是计算机视觉领域中的一项重要研究工作, 它在教学场景下有着广泛应用。当前该任务仍然面临着许多挑战, 例如在背景杂乱、人体图像尺度小、人体被遮挡等复杂场景下出现准确率下降的问题, 与此同时, 人体姿态的灵活多变性则要求模型具有良好的推理预测能力。针对上述问题, 提出一种几何关系感知的人体姿态表示学习模型, 通过人体的结构化信息来帮助模型更好地理解不同姿态之间的关系, 从而提高对复杂姿势预测的准确性和鲁棒性, 实现其在课堂场景下的有效应用。该模型主要包括通道重加权、多token信息交互、肢体方向构建和自适应损失传播4个模块。肢体方向构建模块实现了对人体关节之间几何结构的建模, 这一输入线索有利于模型捕捉到身体部位之间的相对位置和方向关系; 通道重加权模块能够自动选择和强调对姿态估计任务最有帮助的特征信息, 提升输入图像的视觉特征的表达能力; 基于Transformer编码器的多token信息交互模块实现了图像特征线索、关节坐标线索和肢体方向线索之间的有效交互; 最后, 在自适应损失传播模块对传统的损失函数进行优化, 进一步提高了模型的训练效果和性能。模型在2个主流数据集COCO和MPII上分别达到了76.1%、90.3%的准确率, 超过了现有的一些SOTA(State of the Art)模型, 在复杂场景下实现了更加准确合理的预测结果。
在多视图时间序列预测领域, 如何有效融合来自不同视图的信息, 是一个重要且具有挑战性的问题。现有的多视图时序预测方法在捕获历史数据趋势方面存在局限性, 同时也常受到多视图信息分布不一致的影响。针对这两个问题, 基于功能神经过程(FNP)框架, 提出一种一致性功能神经过程(CFNP)框架。CFNP框架中包含两个核心模块: 视图随机相关图模块和视图分布对齐模块。视图随机相关图模块通过分析历史数据的分布, 辅助对当前数据的理解和预测; 而视图分布对齐模块致力于缩小不同视图间的概率分布差异, 通过在潜在空间中施加约束, 提高模型对时间序列内在关联性的捕捉能力。在两个公开数据集上的实验结果表明, 相比于现有方法, CFNP框架在均方根误差(RMSE)上性能提升分别为14%和5%, 证明此框架能够更准确地预测多视图时间序列。
图神经网络能够有效地聚合节点间的信息、编码句子的结构信息, 因此被广泛应用于关系抽取任务。然而, 目前基于图神经网络的关系抽取方法常需要借助外部解析工具构建依赖树, 这一过程可能会产生误差, 导致错误的信息传递。为了解决上述问题, 提出一种基于关联邻接矩阵的图卷积神经网络(GCN)模型用于关系抽取。首先, 通过RoBERTa(Robustly optimized BERT approach)预训练语言模型(PLM)将每个词转换为向量表示, 并通过点乘计算词向量之间的关联度。然后, 基于词之间的关联度和相对实体位置特征构建关联邻接矩阵, 并利用GCN提取句子的语义结构特征。最后, 利用残差连接缓解模型训练过程中的梯度消失问题, 并通过融合句子表示和实体表示得到最终的分类表示。该模型避免了使用外部解析工具可能引起的误差传播。实验结果表明, 与现有基于图卷积的模型相比, 其在TACRED(Temporal Action and Relation Corpus)和Re-TACRED数据集的关系抽取任务上精确率、召回率、F1值分别获得了68.8%、77.5%、72.8%和90.5%、91.3%、90.9%的良好性能, 验证了该模型的有效性和可行性。
由于大多数试题难度预测方案是劳动密集型的, 耗时且容易泄漏, 或者在某种程度上是主观的, 严重影响智能化教育评价体系的进步发展, 因此, 利用神经网络实现试题难度自动预测具有重要意义。提出一种基于多特征注意力的双向循环神经网络模型(M-ABRNN)。该模型首先基于多特征任务学习方法, 通过检索计算机关联知识以丰富题干信息; 其次通过双向循环神经网络挖掘客观题文本数据的逻辑关系并提取语句表征, 并利用注意力机制度量关联语句对试题的重要程度; 最后将获取的特征输入到模型中进行训练, 训练完后模型可以自动预测每个新试题的难度。在大学计算机基础课程数据集上的实验结果表明, 所提模型的皮尔逊相关系数(PCC)和一致性(DOA)均有显著提升, 可见该模型能够有效地对客观题难度进行预测, 实现题目难度的自动化评测。
准确的光伏功率预测对于提高电网稳定性和用电效率至关重要。针对现有研究难以同时考虑光伏功率长期依赖性和短期变化模式的缺陷,提出一种金字塔注意力模块(PAM)结合时间卷积网络(TCN)优化Transformer的光伏功率预测方法Solarformer。基于多种特征选择机制筛选输入特征,增强对光伏数据特征的表征能力;利用粗粒度构造模块和PAM优化Transformer编码器,在多尺度上捕获光伏功率的长期时间依赖特征;利用光伏功率日出日落效应约束机制和TCN优化Transformer解码器,增强光伏功率的短期变化特征,以更好地捕捉其短期变化模式。在澳大利亚Sanyo数据集上进行实验,结果表明,Solarformer能够有效提高光伏功率的预测精度,相比DLinear模型,其均方根误差(RMSE)、平均绝对误差(MAE)和对称平均绝对百分比误差(SMAPE)分别降低了约7.45%、6.99%和14.10%。
求解复杂函数的全局最小值点在工程计算和人工智能领域都有广泛的应用,多起始点算法是一种常用的解决此问题的启发式算法,但该算法计算效率较低。为此,提出一种基于拒绝采样的新算法,改进初始点选择策略,以减少计算时间和函数调用次数,同时提高全局收敛能力。传统的多起始点算法采用独立均匀采样获得初始点,会出现起始点聚簇、部分区域无点、迭代效率低等问题。受到k-means++算法对初始聚类中心选择的启发,提出一种拒绝采样方法,通过在每轮采样中限制新采样点到已采样点之间的距离阈值,确保采样点在空间中分布更加匀称,并在数学理论上进行了证明。实验结果表明,相比独立均匀采样,拒绝采样在提高优化效率上具有显著优势,在高维函数的求解中,该方法的目标函数调用次数最多减少28%,在存在多个全局最小值点的问题中,函数调用次数最多减少41%。通过卡方检验在统计学上验证了所提方法可以显著提高计算效率。在与目前通用的优化算法进行比较时,所提算法在收敛性和计算时间上也有显著优势。使用并行计算加速该算法,在32核并行下其效率高达90%,可以显著降低计算时间,显示了良好的可扩展性。
模拟退火(SA)是贝叶斯网络结构学习(BNSL)的有效方法,但其在大规模数据下需要耗费大量搜索时间,且传统的多链SA并行方式为保证并行效率需要减少迭代次数,导致在运行过多线程时搜索不够详尽。此外,SA在信息交换过程中使用择优更新策略,易陷入局部最优。针对上述问题,提出一种基于并行预测SA(PPBSA)的BNSL算法,其在并行化过程中确保搜索的详尽性,且在信息交换过程中具有一定的跳出局部最优的能力。PPBSA在退火阶段并行生成当前解之后的数代预测解及其评分,旨在保证搜索深度同时对搜索过程进行充分加速,减少后续多步解生成和评分计算的时间消耗。在线程交换信息时采用禁忌表对陷入局部最优的线程解进行限制搜索,提高解跳出局部最优的能力。在此基础上,基于BDeu评分的可分解性,在SA扰动过程中直接计算变动前后的评分差值,减少大量计算冗余。在一组基准BN上,将所提算法与串行SA及其他算法进行对比实验,结果表明,该算法最高可以达到5倍以上的加速效果,同时能够保证精度。
针对云无线接入网(C-RAN)中的虚拟化资源计算和负载分配问题进行研究。首先,在C-RAN架构的基础上,提出一种作为虚拟化演进的系统模型,以捕捉关于计算资源使用的所有影响因素,该系统模型包括用户和流量模型、无线网络模型、计算资源使用模型以及过载预防机制;其次,提出2种先进的启发式分配方法,分配用户处理(UP)作业给计算单元-基带单元(BBU),且只在各个用户终端到达系统时才将UP分配给BBU,并研究了空间用户分布对于所利用的虚拟计算资源的影响;最后,通过池化处理资源,实现长期的负载均衡,同时适应由于流量变化和调度效应造成的短期负载波动。基于系统级的仿真结果表明,在考虑平均处理负载的情况下,所提启发式分配方法的过载性能和用户体验明显优于经典的启发式静态分配方法和启发式随机分配方法,即使在对用户体验有一定影响的情况下,该启发式方法也可节省57%的计算资源。
现有边缘计算动态定价算法普遍基于博弈论模型与拍卖机制提出。以最大化服务提供商总收益为优化目标,现有定价算法在事先获取用户效用信息方面面临一定的难度,并且多数拍卖机制在选取价格时倾向于局部最优而非全局最优。针对上述问题,提出一种基于上下文多臂赌博机(CMAB)的边缘计算任务卸载动态定价算法。首先,将边缘计算动态定价问题建模为CMAB模型;然后,设计一种基于汤姆森采样(TS)的任务卸载动态定价算法,运用贝叶斯后验来诱导服务提供商进行价格选取,通过每一轮的奖励收益更新对应参数,有效减少了动态定价过程中总收益的亏损值。最后,模拟真实的边缘环境进行实验,验证了定价算法的有效性。仿真实验结果表明,该定价算法在期望累积遗憾值与期望累积收益值方面都优于现有多臂赌博机(MAB)算法和定价算法。
随着智能交通技术的发展,车辆间的信息交互趋于频繁。为车联网建立行之有效的信誉管理机制,是开展车联网多种应用的基础和重要保障。针对车联网资源受限、信誉管理方案吞吐量低、恶意车辆识别率差等问题,提出一种基于分层区块链的信誉管理系统。该系统考虑了交通数据的影响范围,设计的分层区块链架构对数据进行层次化管理,实现了交通数据和信誉值的分布式存储,提升了存储效率。通过聚合消息可信度和消息来源节点信誉值,使用贝叶斯推理模型完成对事件真实性判断。利用有向无环图(DAG)区块链结构设计信誉权值评价,丰富了信誉值更新算法,加强对信誉值的管理。面向车联网场景,改进传统实用拜占庭容错(PBFT)算法的主节点选取和共识过程,提出基于资产值的共识委员会选举策略。仿真实验结果表明,与现有方案相比,所提方案能够有效识别虚假信息,当恶意节点占比为30%时,仍能保持91%以上的事件正确判断率。在可用性方面,交易时延和吞吐量与PBFT算法及其部分改进方案相比,均有明显优势,能够进一步扩大网络规模。所提系统方案在车联网的分布式信任管理方面是有效可行的。
可链接环签名作为一种特殊性质的环签名,能够在保持匿名性的同时验证两个签名是否为同一用户所签。这种良好的性质让它在区块链中发挥着重要作用。然而,现有的可链接环签名方案大都效率不高,且部分方案中所使用的标签存在被伪造的风险。利用拒绝抽样技术构建一个新的基于格的可链接环签名方案,并且给出了随机预言模型下可链接环签名具有不可伪造性的形式化安全证明。不同于现有的利用多轮哈希函数来隐藏用户身份的方案,该方案将用户身份特征隐藏到验证公钥中,即真实的环签名者先将私钥按一定规则扩充形成有效的环签名私钥,再利用拒绝抽样技术使得生成的可链接环签名具有不可区分性,减少整个方案的矩阵向量乘法运算次数,从而提高方案效率,缩短签名尺寸。该方案的私钥由秘钥生成中心与用户共同生成,标签由私钥与公共矩阵相乘,在保证环签名匿名性的同时解决了部分现有方案中合法用户在签名时可以恶意伪造标签的问题。此外,给出了随机预言模型下可链接性的安全证明。实验结果表明,该方案在运算效率和签名尺寸方面均具有优势。
在预测性维护系统中,振动传感器在数据采集阶段可能会受到人为或自然环境的干扰,导致数据异常。为了确保采集数据的可靠性,提出一种安全可靠的集成式预检测方案。该方案结合了随机开启策略、相似性检测和声源定位这三种技术,从空间和时间两个维度提升系统的准确性与可靠性。首先,通过随机开启策略确保传感器不会受到定向干扰,增强系统的安全冗余;其次,相似性检测方法采用多维度距离来计算振动传感器连续采集加速度数据的相似度,并与阈值比较以提高系统对设备状态的敏感度;最后,通过声源定位技术分析异常相似度对应的音频来判断声源位置,进一步提高了预检测的精确度。在对抗和非对抗场景下的实验结果表明,在非对抗场景下,未集成方案相对于集成方案的准确率和精确度分别提升了4和4.13百分点,但召回率保持不变,在对抗场景下,集成方案相对于未集成方案的准确率和召回率分别提升了9.5和9.14百分点,但精确度保持不变。
随着互联网技术的不断发展,Web 3.0中数字资产的流通交易已成为促进数据价值有效释放的重要驱动。然而,当前数字资产交易过程中仍面临数据流通不可控、权属边界模糊等技术难题,特别是在Web 3.0环境下呈现出数据权属可控嵌入与动态变更等关键挑战。针对上述问题,基于区块链技术和变色龙签名算法,提出一种面向Web 3.0数字资产交易的三权分置确权方案。首先,结合代理签名和变色龙签名技术设计变色龙代理签名算法,解决数据发布过程中权属标签未在数字资产拥有者控制范围内进行嵌入的问题;其次,基于区块链技术构建数据交易协议,解决数据发布过程中权属标签动态变更的问题,实现数据权属的公开验证。实验仿真结果表明,该方案的权属标签在不可伪造的情况下,能安全可靠地实现交易数据确权,满足Web 3.0中数字资产交易的实际需求。
利用域名生成技术发现公害网站域名的方式具有覆盖面广、可提供大量研究数据、及时阻断和预防传播等优点。现有基于域名相似度的域名生成模型存在特征利用不充分、生成域名冗余度高、公害网站域名浓度低等问题。因此,提出一种基于域名语义信息与域名相似度的公害网站域名生成发现模型。该模型首先使用Transformer编码器提取域名的语义特征,并将其作为特征向量指导生成工作,提升了对域名特征的利用率;然后对序列生成对抗网络(SeqGAN)进行改进,在生成和鉴别时分别关注域名的语义特征和上下文信息,提高了生成器生成域名的质量和鉴别器的准确率;最后通过初步过滤、多工具复检、最终筛选等步骤,实现了对生成域名的检测。实验结果表明,与现有基于域名相似度的生成模型相比,该模型可以通过域名生成的方式发现更多公害网站域名,且在生成质量、扩展率及主动监测能力等关键指标上更具优势。
针对复制-粘贴篡改检测的判别性问题,包括特征点难以覆盖图像平滑区域、特征表示不具备彩色图像描述能力以及特征匹配不够精确,给出一种高判别性的图像复制-粘贴篡改检测方法。在特征点提取环节,根据纹理程度将图像分成不同超像素区域,并在不同区域自适应地提取图像特征点,从而使特征点均匀地覆盖图像平滑区域。在特征表示环节,提出基于四元数的特征描述方法,以更好地描述图像的色彩信息。在特征匹配环节,使用一种新型的逆序广义2近邻(Rg2NN)匹配算法,提高多特征点的匹配精度。在后处理环节,使用快速去均值归一化积相关(NNPROD)算法进行相关性检查,得到检测结果。实验结果表明,所提方法在多个基准上实现了先进的综合检测精度,并且对常见的几何和信号攻击鲁棒。
为了更准确地预测人体的深度图像,提出一种基于视频的人体深度图像估计方法BiSTNet。为了从视频中充分挖掘三维(3D)信息,提出双向时空特征学习模型,分别从过去帧和未来帧2个序列方向学习双向时空特征,并利用双向时空特征注意力模型来强化有效帧的影响。同时,引入多尺度特征融合预测模块,在有效融合双向时空特征和空间特征的基础上,预测精确的、具有丰富局部几何细节的深度图像,使得由预测深度图像重建的3D模型更加逼真。在模型训练过程中,使用人体关节相对顺序关系约束和双向序列自监督学习策略,在提高预测精度的同时降低对有监督数据的依赖性。实验结果表明,BiSTNet方法不仅能有效降低预测深度图像的误差,而且所预测的深度图像细节丰富。
磁共振图像(MRI)和经直肠超声(TRUS)图像的配准是将术前MRI配准在超声图像上,结合两种模态图像的优势,快速定位病灶区域,在辅助诊断、穿刺、术中导航等医学手术中起重要作用。由于这两种图像模式之间固有的表征差异,具有显著的强度失真和变形,因此在这两种图像模式之间寻找精确的密集对应关系面临较大挑战。为此,提出一种基于联合学习和多级小波特征金字塔(MWFP)的弱监督可变形配准网络框架,对MRI和TRUS图像进行对齐。联合学习是基于预训练的半监督分割网络和配准网络组成的框架,在联合学习框架中分割网络和配准网络继续交替训练,分割网络为配准网络提供前列腺标签约束全局配准,有效解决了配准网络中标签不足的问题。MWFP是采用多分辨小波构成的配准网络,小波金字塔生成的多尺度图像过滤了噪声并减小了两种模式图像之间的表征差异,提高配准网络学习多尺度特征的能力,并在配准网络中设计多尺度特征融合注意力(MSFFA)模块,对特征进行更进一步筛选,为配准提供局部密集对应关系。此外,配准网络提供的形变分割图像和分割标签混合原有的人工标注标签和图像及其分割网络生成的伪标签和其图像放入分割网络继续训练,进一步提高多模态图像分割的性能。在642例公开前列腺MRI和TRUS图像活检数据集上的实验结果表明,所提的配准方法达到最优的Dice相似系数(DSC)值、95% Hausdorff距离(HD95)、互信息(MI)值和结构相似性(SSIM)值,分别是81.05%±1.77%、12.83±1.49 mm、18.12%±4.63%和27.12%±4.63%,优于对比的传统配准方法和先进的深度学习配准方法。此外,所提方法的平均配准时间为0.18±0.02 s,比传统的方法提升了近400倍。所提的配准方法能够准确实时地估计前列腺MRI和TRUS图像之间的形变场,具有更高的配准精度和更快的配准速度。
面部表情识别(FER)在智慧教育领域具有重要意义。在FER任务中, 存在对单一先验图像特征的过度依赖,未能有效融合多种图像特征的问题,模型对自然环境中人脸表情识别泛化性差。为此,采用视觉大模型DINOv2作为预训练模型,在冻结其预训练权重的前提下,借助其在自然图像数据集中学到的经验,以获得更加通用的图像特征,从而提高特征提取的泛化性能。此外,设计一种基于混合特征网络的FER模型HFFER,利用两种不同的预训练模型获取不同的特征,并通过交叉注意力机制和多重卷积进行融合。实验结果表明,该模型在RAF-DB和AffectNet数据集上分别取得了92.18%和66.76%的准确率,均优于或相当于现有模型。这一研究为FER提供了新的方法,同时在真实课堂图像中的应用展示了其在实际教育场景中的可行性和应用潜力。
深度监督学习在医学图像分割领域已经取得了显著成就,但它在很大程度上依赖于大量标签数据,难以获取高质量标签的医学图像数据。基于此,提出一种半监督多尺度一致性网络(SSMC-Net)的医学图像病灶分割方法。该方法构建的网络采用联合训练架构,同时从标签数据和无标签数据中学习。此外,为了减少下采样和上采样过程中细节信息的丢失,设计了多尺度减法(MS)模块来捕获更广泛的差分特征,包括减法单元(SU)和多特征融合单元(MFFU)。SU负责提取多尺度编码器中的差分信息,MFFU有选择性地融合其中最相关的重要特征,为解码器提供更精确的特征表示。最后,重新设计了损失函数,在有监督部分综合计算各分辨率下的像素级输出的损失值,在无监督部分提出多尺度联合一致性损失,并设计距离函数来减少不可靠样本的影响。在CPD、ATLAS和ACDC数据集上的实验结果表明,相比现有半监督分割方法,该方法在50%标签占比下的Dice相似系数(DSC)、F2值等关键评价指标更优。
实现精准的磁共振成像(MRI)肝脏图像分割在医学领域具有重要意义,不仅可有效协助医生迅速定位目标区域、辅助治疗,也可以在术后观察中发挥关键作用。然而MRI图像包含丰富的语义信息和众多异常噪声,而传统卷积操作在图像处理中存在一定的局限性,其全局建模能力与感受野有限,难以捕捉全局信息。并且,基于卷积的网络层次不宜过深,因为深层网络既会增加参数量,也会缺失高分辨率下的重要语义信息。为了解决这些问题,引入Transformer机制以建立全局信息关联,从而更好地捕捉全局信息,实现目标的精准定位。但Transformer在处理图像细节特征方面存在可能破坏局部细节的问题,且其在提供归纳偏置方面表现欠佳。为了综合利用Transformer和卷积的优势,提出一种级联工作的特征建模方法。首先,通过使用参数量和计算量较少的MedT(Medical Transformer)网络作为上游网络,实现对感兴趣区域(RoI)的粗分割。然后,对提取的RoI进行数据处理,并送入下游的U-Net进行二次分割,在第二次分割的过程中特别关注局部信息,以获得更精细的预测结果。在CHAOS数据集上的实验结果证明,该方法在肝脏分割任务中取得了显著的成果,肝脏的Dice相似系数(DSC)达到0.922,交并比(IoU)达到0.877。
传统的人脸识别系统在最终人脸分类问题上,通常借助各种仿生学算法与支持向量机(SVM)相结合组成相应的人脸识别模型。该方法通过算法的迭代选取最优SVM参数,然而这种策略在人脸识别方法上存在分类精度较低、训练时间较长且容易陷入局部最优解的问题。针对上述问题,提出利用改进人工蜂鸟算法(AHA)优化SVM的人脸识别算法。首先通过引入Tent映射的混沌序列改进人工蜂鸟算法,使蜂鸟种群初始化更为均匀,避免算法陷入局部最优解;其次在SVM进行人脸识别的方法中引入改进AHA,通过设定一定的迭代次数,选择用来优化SVM的最优相关参数,达到提高人脸识别准确率的目的。实验结果表明,将改进的人工蜂鸟算法与灰狼优化(GWO)算法、麻雀搜索算法(SSA)、鲸鱼优化算法(WOA)进行对比,改进AHA在基准函数的求解上具有更快的收敛速度, 同时在ORL人脸数据库进行人脸识别实验,将改进AHA与SVM相结合,相比于将GWO、SSA和WOA与SVM相结合,在人脸识别的准确率指标方面,改进AHA结合SVM方案具有更高的准确率和召回率,并且模型推理速度更快。
近年来,红绿蓝-深度(RGB-D)显著性目标检测技术取得了巨大进展,性能得到显著提高。然而,该技术依赖于复杂且资源密集的网络架构,无法应用于资源受限环境。虽然,轻量级网络在尺寸和速度上有所改善,但往往以牺牲性能为代价。为了克服上述限制,提出了一种新颖的轻量化解决方案,以实现网络参数的精简和性能的提升。本文提供了一种有效的通用训练策略,提出稀疏对比自蒸馏技术。该技术旨在对现有的RGB-D显著性检测模型进行压缩和加速,同时增强模型性能。本文方法由两个关键技术组成:稀疏自蒸馏和对抗性对比学习。稀疏自蒸馏排除显著性检测模型中的非必要参数,同时保留关键参数,从而实现更高效和有效的显著性预测。而对抗性对比学习通过纠正潜在错误,进一步完善自蒸馏过程,以提高模型的整体性能。在NJUD、NLPR、LFSD、ReDWeb-S和COME15K等基准数据集上的实验结果显示,与现有SOTA(State-of-The-Art)方法相比,本文方法能够产生更为准确的显著性检测结果。此外,本文方法与现有SOTA轻量级RGB-D显著性检测模型的比较结果进一步证实了本文方法在不牺牲性能的前提下能够在模型尺寸减小和性能提升之间实现平衡。
由于水下环境的复杂性和光线在水中传播时的散射和吸收, 水下图像经常遭受图像模糊、色彩失真和可见度低等问题的困扰。为改善图像的质量, 提出一种基于颜色均衡与特征融合的图像增强框架。首先, 利用四叉树搜索与光衰减特性相结合的方法对暗通道先验参数进行优化, 解决图像模糊的问题; 其次, 对去模糊图像的两个衰减通道进行差异化补偿, 获得颜色均衡图像; 然后, 针对颜色均衡图像细节丢失和对比度较低的问题, 采用引导滤波分解图像并引入非线性拉伸函数改善细节层, 得到细节增强图像; 在限制对比度自适应直方图均衡化的基础上添加归一化伽马校正, 得到对比度增强图像; 最后, 从细节增强图像和对比度增强图像中提取含有不同特征的权重图, 并采用多尺度金字塔策略进行融合, 得到最终增强图像。实验结果表明, 该方法在水下图像质量度量、平均梯度、基于斑块的对比度度量指数上的平均值相较于次优值算法分别提升了17.6%、76.4%和11.2%, 在提升图像质量方面具有良好的鲁棒性, 可以在不同场景下实现多种图像的增强效果。
现有的多视频插帧(VFI)方法通常采用光流或卷积神经网络(CNN)来实现, 而受光流和CNN固有限制的影响难以有效处理大运动场景。针对该问题, 提出一种基于Transformer和增强可变形可分离卷积的多VFI方法, 该方法融合了移位窗口和跨尺度窗口的注意力, 扩大注意力的感受野, 并在合成帧时将时间步作为一个关键控制变量输入帧合成网络, 从而能够在任意时间位置插帧。具体而言, 首先使用嵌入层提取浅层特征; 随后使用编码器-解码器架构提取多尺度的深层特征; 最后使用以增强可变形可分离卷积为核心的多尺度多帧合成网络, 将多尺度特征、原视频帧和时间步信息共同输入帧合成网络, 利用多尺度信息合成任意时间位置对应的中间帧。实验结果表明, 该方法在多个视频插帧常用的数据集上实现了较高的插帧性能。其中, 多VFI方法在Vimeo90K septuplet数据集上的峰值信噪比(PSNR)值和结构相似性(SSIM)值分别达到了27.98 dB和0.912, 单VFI方法的插帧性能也达到了主流水平。同时可视化结果表明, 相较于其他方法, 该方法在大运动和大规模运动场景下能产生较为清晰合理的中间帧。
针对农村地区配送场景, 提出一种车辆路径问题的变体——众包车辆-公共交通协同配送问题(VRPOD-SL)。该问题对参与配送的公交车辆及其服务的物流客户进行选择, 同时需选择参与配送的众包车辆, 并对众包车辆的行驶路径等进行决策。考虑众包车辆的起终点、服务范围和最大载重, 以及公交车辆的载货空间限制和按固定路线行驶等特点, 以最小化配送总成本为优化目标, 构建VRPOD-SL的整数规划模型。由于公交车辆提供物流服务的客户选择决策, 影响到众包车辆的服务客户选择, 进而需要不断求解众包车辆路径问题, 导致问题的计算复杂度较高, 因此设计一种基于深度强化学习(DRL)的启发式算法, 即融合了注意力模型的遗传算法(GA-AM)。该算法将遗传算法(GA)的全局搜索特性和注意力模型(AM)的并行决策能力相结合, 能够有效减少VRPOD-SL的求解时间。同时设计局部搜索算法, 进一步提高解决方案的质量。数值实验结果表明, 所提出的GA-AM在求解性能方面明显优于Gurobi求解器、自适应大邻域搜索(ALNS)算法和变邻域搜索(VNS)算法。此外, 研究结果也验证了众包车辆-公共交通协同配送模式的有效性。
短期电力负荷预测在电力系统的优化调度和安全运行中具有至关重要的作用。电力负荷数据具有多周期特性,在不同时间尺度上表现出不同的模式和趋势,准确提取尺度大小有助于识别和分离这些特征。目前方法通过使用一个或一组固定的patch长度作为步长,将称之为patches的片段来编码时间序列,但其无法适应现实世界负荷序列数据的复杂的动态变化。为此,提出一种基于动态多尺度与双重注意力的预测模型(MDAT)。首先,利用逐次变分模态分解(SVMD)分离负荷序列不同的时间模式,通过快速傅里叶变换(FFT)提取出每个模式的显著周期。其次,根据检测到的显著周期,将负荷序列以不同大小的patch划分为不同的时间分辨率,使用Transformer的多个分支同时建模不同尺度分割序列的依赖关系。然后,对这些patches进行双重注意力,以捕获全局相关性和局部细节。最后,对每个分支的输出进行非线性特征融合,通过堆叠多层Transformer模块得到最终的负荷预测结果。在两个公开数据集上的实验结果表明,该模型在预测精度指标上表现良好,相比最新的基于Transformer及多层感知器(MLP)的模型,在Australia数据集和Morocco数据集上平均绝对误差(MAE)分别降低了10.26%~17.06%和9.08%~70.25%。
随着“双碳”目标的持续推进,港口产业进一步升级。在考虑港区船舶废气排放的前提下,建立船舶服务成本和排放成本最小化的双目标泊位-岸桥协同调度优化模型,并设计基于非支配排序遗传算法Ⅱ (NSGA-Ⅱ)的改进算法,即基于强化学习-Q学习NSGA-Ⅱ (RL-Q-NSGA-Ⅱ)。通过对赤湾集装箱码头进行实证分析,将双目标减排协同调度优化模型分别采用改进算法、原始NSGA-Ⅱ算法与先到先服务调度模式得到的结果进行定量对比,实验结果表明,RL-Q-NSGA-Ⅱ算法在迭代速度、收敛性及帕累托前沿解聚集程度方面表现更优,与原始NSGA-Ⅱ算法相比,船舶服务成本和港区船舶大气污染排放成本分别优化12.19%和6.04%,总成本优化8.39%, 与先到先服务模式相比,船舶服务成本和港区船舶大气污染排放成本分别优化18.68%和3.79%,总成本优化9.82%;同时,港区船舶废气排放成本与服务成本呈负相关关系,若码头仅考虑船舶服务效率或码头作业成本,都将导致港区废气排放的社会成本大幅增加。该模型和算法可为港方和船公司在不同情形下做出合理的泊位岸桥调度计划提供参考。
准确的超短期、短期多区域电力负荷预测是实现电力系统快速响应和实时调度的关键。基于电网不同区域负荷的时空相关性,提出考虑空间关联的多区域电力负荷超短期、短期的单步和多步预测模型。该模型集成门控多头时间卷积网络(GMTCN)、双向长短期记忆(BiLSTM)网络和注意力机制(Attention),记为GMTCN-BiLSTM-Attention。首先,采用Spearman相关系数分析不同区域电力负荷空间关联,将15个区域的负荷序列组成多元时间序列作为输入。然后,采用GMTCN和BiLSTM获取不同负荷序列的时序特征和时空依赖,并通过Attention机制赋予重要特征更高的权重,忽略不重要的信息,以提高模型的鲁棒性。在2个数据集上的实验结果表明,不同区域变压器的负荷之间存在时空相关性,提出的模型能够有效获取负荷序列以及负荷序列之间的时空依赖,同时实现对多区域的超短期和短期负荷进行单步和多步预测。与其他深度学习模型相比,具有更优的预测性能、更强的鲁棒性和泛化性。