基于数字孪生(DT)的工业控制系统(ICS)在提升系统安全性、保障稳定运行及优化生产效率方面具有重要作用, 其在工控安全领域的应用主要涵盖两方面: 安全态势感知和工业网络靶场。基于DT的安全态势感知通过实时监测、异常检测、漏洞分析和威胁识别, 实现系统安全的可视化管理。基于DT的工业网络靶场作为策略验证平台, 支持工控系统的攻防模拟, 评估安全策略有效性, 强化关键设施防护, 并提供人员培训支持。首先, 分析了ICS的安全现状, 并阐述了DT技术在ICS安全态势中的应用进展及其对风险评估的提升作用; 然后, 介绍了基于DT的工控网络靶场在工控安全中的优化作用; 最后, 通过智能电网典型案例验证了DT技术在工控安全中的重要作用, 并进一步探讨了DT技术在工控安全领域的未来发展方向。
随着大数据和人工智能技术的不断发展, 知识图谱应用越来越广泛, 知识图谱嵌入技术也得到了飞速发展。知识图谱嵌入通过在低维矢量空间中实现结构化知识表示来提高知识表示和推理效率。对知识图谱嵌入技术进行全面概述, 包括其基本概念、模型类别、评价指标以及应用前景。首先介绍了知识图谱嵌入的基本概念及背景, 将知识图谱嵌入分为基于翻译机制的嵌入模型、基于语义匹配机制的嵌入模型、基于神经网络的嵌入模型和基于附加信息的嵌入模型4个主要类别, 并对相关模型的核心思想、评分函数、优缺点、应用场景进行细致梳理; 然后总结了知识图谱嵌入的常见数据集和评价指标, 以及链接预测和三元组分类等相关应用与实验结果, 同时介绍了问答系统、推荐系统等下游任务; 最后对知识图谱嵌入技术进行回顾总结, 概述了当前知识图谱嵌入技术存在的局限性和主要问题, 探讨了未来知识图谱嵌入领域存在的机遇和挑战以及具有潜力的研究方向, 并对研究前景进行展望。
语音唤醒作为实现人机交互的关键技术, 一直是语音领域的研究热点。随着深度学习技术的发展, 其研究方法的重心已从传统的大词汇连续语音识别(LVCSR)技术逐渐转向基于神经网络的技术, 然而如何在小型设备上实现高效唤醒并利用有限的样本数据进行模型训练仍是低资源语音唤醒系统设计面临的挑战。首先, 定义了语音唤醒中的低资源概念, 区分了语音唤醒和语音识别以及相关术语, 介绍了经典的语音唤醒模型及其适配场景, 阐述了低资源语音唤醒的国内外研究现状。其次, 从语音唤醒系统的结构组成的角度分别说明了声学特征提取与声学模型的主流技术和优化策略。然后, 对语音唤醒模型的轻量化方法展开分析并对其优缺点进行比较, 总结了数据低资源语音唤醒中常见的小样本学习、零样本学习、迁移学习等解决方法, 并介绍了常见语音唤醒数据集和评价指标。最后, 探讨并展望了低资源语音唤醒技术未来的研究方向。
针对边缘计算网络中用户需求的动态性以及大量用户卸载任务导致的通信阻塞问题, 以最大化服务商收益且保证用户服务质量(QoS)为目标, 提出一种面向无人机(UAV)辅助边缘计算系统的卸载任务准入控制机制。首先, 根据用户信道质量、基站通信带宽等因素设置服务器通信阈值, 以避免任务的传输时延过高, 其中未与基站建立连接的用户可以选择将任务卸载到UAV或在终端设备上直接处理任务。其次, 考虑UAV资源的有限性及运行成本, 设置UAV接收任务的最优阈值, 且UAV仅对任务进行预处理, 将预处理后的任务进一步卸载到基站, 以降低任务的处理时延。将用户卸载过程建模为生灭过程, 使用矩阵几何方法推导出系统稳定状态的概率分布及用户的预期收益, 进而求解出UAV接收任务的最优阈值, 最终求解出任务高并发情况下UAV最优价格及其最大收益。仿真实验结果表明, 求解算法在服务商收益、用户QoS等方面具有显著的优势。
为解决视频分析任务中利用深度神经网络进行目标检测时精度需求和计算开销难以平衡的问题, 现有工作大多以全帧视频图像作为计算资源调度的单位, 为信息价值高的视频帧分配更多资源, 为信息价值低的视频帧少分配甚至不分配资源, 从而在保证精度的前提下尽可能节省计算开销。然而, 由于每帧视频图像中感兴趣目标分布不均, 算法为含有少量高信息价值区域的全帧图像分配过多资源, 耗费不必要的检测计算开销。针对这一问题, 提出基于分区的视频目标检测方法。将视频图像分区后, 对各个分区感兴趣目标的特征进行快速提取和处理, 通过配置映射分析器为每个分区映射满足精度需求且最小化检测开销的检测配置, 并将具有相同检测配置的分区拼接检测以进一步减少检测开销。最后, 针对分区引起的边缘目标碎片化导致检测精度下降的问题进行修复。实验结果表明: 该方法在满足检测精度需求的前提下, 显著降低了计算开销, 最大节省90.84%;在开销相近的情况下, 平均精度提升10.48%~23.13%, 实现了高效的视频目标检测, 且在静态和动态的不同场景下具有更好的适应性。
人工巡检的管理方式导致光纤总配线架(MODF)端口状态的信息准确率较低, 无法区分占用端口与虚占端口。针对MODF资源管理中的端口状态识别问题, 提出一种改进的YOLOv7目标检测模型。鉴于数据集采集困难且类别不均衡, 采用多种数据增强方法来扩充数据集; 在骨干网络中使用共享权重的感受野扩大模块(RFEM), 扩大端口目标的感受野, 减少训练过程中的过拟合风险; 提出F-EMA注意力模块, 以提高对空间上下文信息的利用率, 减少因端口接近或被遮挡而导致的漏检、误检等情况; 使用NWD损失函数替代交并比(IoU)度量, 减轻对小目标位置偏差的敏感性, 提升密集小物体检测准确率。实验结果表明, 改进模型的mAP@0.5值达到98.8%, 相比原Yolov7模型提升了2百分点, mAP@0.5∶0.95值达到63.8%, 提升了9.5百分点, 提高了MODF端口资源利用率, 满足智能巡检系统对于端口占用状态识别准确率的基本要求。
电梯作为特种设备之一, 其运行安全风险预测至关重要。当前对于电梯相关的研究多基于电梯部件数据, 并且预测方法在变换应用场景的情况下会出现预测精度低、泛化能力差等问题。为此, 提出一种基于领域自适应与注意力机制的电梯安全风险预测方法。该方法基于对抗领域自适应网络, 并且使用注意力机制优化网络的特征提取能力。方法包括特征提取器、标签分类器和领域分类器3个部分, 输入数据为同时包含源域与目标域数据的电梯安全风险因素, 经由注意力机制优化的特征提取器, 自适应提取并保留源域和目标域之间的公共关键特征, 然后将关键特征同时输入至标签分类器和领域分类器, 通过领域自适应实现由源域至目标域的迁移学习, 通过标签分类器输出电梯运行状态。实验结果表明, 所提出的方法在迁移至目标域应用场景的情况下, 预测精度可以达到86.9%, 相较于优化前提高了2.6百分点, 与LSTM-AE、CNN-LSTM、TrAdaBoost.R2、深度子领域自适应网络(DSAN)相比分别高出9.5、8.3、3.7和1.2百分点, 能够有效地对电梯安全风险进行预测。
知识库问答旨在利用事先构建好的知识库来回答用户提出的问题。现有的知识库问答研究主要通过对候选实体和关系路径进行排序, 最后将三元组的尾实体作为答案返回。用户给出的问题经过实体识别模型和实体消歧模型之后, 可以链接到知识库中与答案相关的候选实体。利用语言模型的生成能力, 可以将答案拓展为一句话并返回, 这对用户而言是更加友好的。为了提高模型的泛化能力和弥补问题文本与结构化知识之间的差别, 将候选实体及其一跳关系子图通过提示模板进行组织输入到生成模型中, 并在回答模板的引导下生成通俗流畅的回答。在NLPCC 2016 CKBQA和KgCLUE两个中文数据集上的实验结果表明: 该方法在BLEU、METEOR和ROUGE指标上分别平均比BART-large模型提高了2.8、2.3和1.5百分点; 在Perplexity指标上, 该方法与ChatGPT的回答表现相当。
为满足冰壶智能训练的需求, 结合计算机视觉与深度强化学习(RL)技术, 提出一种新的现场冰壶决策方法AI-Curling。AI-Curling包含冰壶检测(SR-Yolo)以及策略生成(GSP-MCTS) 2个部分。SR-Yolo模块负责感知关键时刻冰壶状态, 提取实景冰壶的位置与种类信息。为提高大场景下的小目标检测精度, 防止不恰当下采样造成的特征损失, 引入浅层细化骨干网络(SRNet), 通过在网络初级阶段增加层级, 捕获更丰富的特征信息。此外, 在多尺度融合网络中, 引入自适应特征优化融合(AFOF)模块, 以增加各层网络有效样本, 避免小尺度目标淹没在复杂背景和噪声中。GSP-MCTS模块通过蒙特卡洛树搜索(MCTS)算法结合策略价值网络的方式, 实现冰壶比赛决策分析。该模块通过引入核函数处理动作空间连续性和执行不确定性, 并在策略价值网络中嵌入全局策略感知模块(GSP), 增强了网络空间感知能力。在实验中, SR-Yolo在常规冰壶数据集Curling上平均精度均值(mAP@0.5)为0.974, 在遮挡较多的复杂冰壶数据集Curling_hard上mAP@0.5为0.723。同时, GSP-MCTS与最新实景冰壶模型Curling MCTS对战获得62%的胜率。实验结果表明, GSP-MCTS具有更好的性能。
窄路段作为交通场景中不可避免的瓶颈路段, 其短时车流量预测对优化路径规划、改善交通状况具有重要意义。针对窄路段的时效性, 同时考虑适用模型的准确度, 提出一种基于佳点集初始化种群、非线性参数控制及柯西变异扰动的改进鲸鱼优化算法(IWOA)-门控循环单元(GRU)的窄路短时车流量预测模型, 以SUMO(Simulation of Urban Mobility)仿真数据进行了实证研究。对比实验结果显示, IWOA具有较好的全局性、收敛速度且更加稳定。基于IWOA-GRU的窄路短时车流量预测模型, 均方根误差(RMSE)指标相较于WOA-GRU、PSO-GRU、长短期记忆神经(LSTM)网络分别降低10.96%、28.71%、42.23%, 平均绝对百分比误差(MAPE)指标分别降低13.92%、46.18%、52.83%, 有较为显著的准确性和稳定性。
实例分割任务是视觉场景理解的基本任务之一, 现有的算法具有一定的相似性, 通过梳理现有算法中的共通性与差异性, 抽象出一种新颖的实例分割范式: 掩模特征融合(MFF)。该范式将实例分割任务分为语义无关的掩模特征提取、语义相关的序列提取以及序列特征和掩模特征融合3个模块。进一步, 根据新范式的结构特性提出2项优化。首先, 通过设计一个非局部全局偏置增强骨干网络对全局信息的关注, 使掩模特征提取模块在网络浅层可以提取到全局的信息, 并且消除预训练权重带来的数据集固有偏置。其次, 实验过程中观察到一些Transformer模型在训练初期出现查询向量不稳定的现象, 即多数查询向量的感兴趣区域(ROI)在每次交叉注意力操作后会发生漂移现象。为了解决查询向量漂移的问题, 针对序列提取模块提出一种去噪训练的方法, 保证查询向量的注意力在训练前期就可以保持在同一区域, 从而加速Transformer解码器的收敛, 并在其他参数配置相同的情况下提高模型精度。实验结果证明了上述改进的有效性。在MS-COCO2017数据集上的实例分割任务中, 相比MMF范式的基础模型, 增加了新的改进措施后, 模型在掩模平均精度均值(mAP)指标上取得了5.0%的显著性能提升。
近年来, 网络嵌入技术受到了广大研究者的关注。不过大多数网络嵌入算法并未考虑到处于相同层级结构的节点间的结构相似性, 这些节点在网络中通常具有相同的重要性。因此, 提出一种基于网络层级结构的网络嵌入算法, 称为KCNE。KCNE算法使用网络节点间的层级结构信息来保持节点之间的结构相似性。该算法首先基于k核(k-core)分解方法将网络中的节点划分为不同的层级, 并且使用定制的随机游走方法为每个节点生成游走序列, 该序列可以有效捕获节点的一阶邻域及处于同层级中的高阶相似节点, 随后将游走序列输入到Skip-gram模型中, 使学习到的节点表示具有更好的区分性。基于多个真实数据集的实验结果表明, 在链路预测和节点分类任务上, KCNE算法相比于8个基准算法中的次优算法性能提升最高分别约4%和5%。参数敏感性分析实验也表明了KCNE算法具有较好的鲁棒性。此外, 该算法在运行效率方面均优于Role2Vec、RARE和GEMSEC算法。
由驾驶员的不安全行为导致的交通事故占多数, 针对驾驶认知素质特性的研究, 搭建虚拟驾驶场景评估驾驶者的驾驶素质, 可以最大限度地贴近现实环境和操作, 唤醒驾驶者的潜在驾驶能力和应对能力。眼球运动可以极大程度地反映出驾驶者的认知状态, 但目前多数眼动状态识别研究主要关注在自然状态中基本视觉运动方向或者眼睑的闭合, 识别类别的能力和效果对于驾驶场景的认知状态评估有限。收集了10类静态眼动方向的双眼数据, 并提出融合注意力机制的多尺度眼状态图像识别模型。首先, 使用部分卷积设计双分支特征融合模块, 在加强模型特征提取能力的同时减少计算冗余; 然后, 在双分支特征融合的残差模块中嵌入改进的坐标注意力(CA)机制, 提升模型对不同尺度特征的信息表征能力; 最后, 对模型的通道结构和数量进行调整, 平衡模型的参数量与识别准确率。实验结果表明, 所提方法在构建的10类眼动状态数据集上识别准确率达到95.1%, 相比改进前的网络提高3.4个百分点; 在Eye Chimera数据集和MRL眼睛数据集上的识别准确率分别为95.1%和98.95%, 可以满足在虚拟驾驶测试环境下眼动状态识别的要求, 并为进一步结合多参数分析驾驶素质缺失任务奠定基础。
随着云计算和数据服务的普及, 人们对隐私保护和数据安全的需求日益迫切。传统的匿名认证方案可以保护用户的隐私, 但是在对用户的访问控制方面存在不足, 而现有的k次匿名属性认证方案无法对恶意用户问责。为了在保护用户隐私的同时对用户进行访问控制和问责, 提出一种支持黑名单的去中心化k次匿名属性认证方案, 旨在使服务提供商能够对用户进行细粒度访问控制并限制其访问次数, 同时能够阻止黑名单中的恶意用户再次访问服务。该方案利用去中心化属性加密与非交互式零知识证明技术, 使得用户能够以匿名的方式认证其属性, 同时还能证明其访问服务的次数没有超过阈值。为了在实现匿名性的同时对恶意用户问责, 设计黑名单机制, 利用无陷门累加器技术加快了黑名单管理和认证的过程, 提高了方案的效率。此外, 通过结合去中心化属性密码和区块链技术, 该方案还具有去中心化的特性。实验结果表明, 该方案的安全模型满足抗误验证性和匿名性, 在实际应用中具有一定的可行性和实用性。
联邦学习允许多个客户端在不共享私有数据的情况下协同训练高性能的全局模型。在跨组织场景的水平联邦学习环境下, 客户端本地数据分布中的统计异质性将降低全局模型的性能。为提升联邦学习的全局模型性能, 同时避免牺牲客户端隐私和增加计算成本, 提出一种新的混合联邦学习算法FedAvg-Match, 其基本思路是通过改进联邦学习算法提升客户端的模型质量。该算法面向以不平衡标签分布为特征的数据异构性, 在分层联邦学习框架下设计客户端分组聚合算法来减轻客户端数据异构性对模型性能的影响。针对客户端优化分组问题, 设计一种基于动态规划的客户端匹配算法DP-ClientMatch, 根据客户端的数据分布距离EMD得到最优的客户端分组匹配。在MNIST、Fashion-MNIST和CIFAR-10 3个数据集上的实验结果表明, 与其他联邦学习算法相比, 在高度统计异质性的联邦学习场景下, FedAvg-Match算法使全局模型测试精度最少可提高10百分点, 可以显著提高联邦学习全局模型在图像分类任务上的性能。
联邦学习作为新兴的分布式学习框架, 允许多个客户端在不共享原始数据的情况下共同进行全局模型的训练, 从而有效保护了数据隐私。然而, 传统联邦学习仍然存在潜在的安全隐患, 容易受到中毒攻击和推理攻击的威胁。因此, 为了提高联邦学习的安全性和模型性能, 需要准确地识别恶意客户端的行为, 同时采用梯度加噪的方法来避免攻击者通过监控梯度信息来获取客户端的数据。结合恶意客户端检测机制和本地差分隐私技术提出了一种鲁棒的联邦学习框架。该算法首先利用梯度相似性来判断和识别潜在的恶意客户端, 减小对模型训练任务产生的不良影响; 其次, 根据不同查询的敏感性以及用户的个体隐私需求, 设计一种基于动态隐私预算的本地差分隐私算法, 旨在平衡隐私保护和数据质量之间的权衡。在MNIST、CIFAR-10和MR文本分类数据集上的实验结果表明, 与3种基准算法相比, 该算法在准确性方面针对sP类客户端平均提高了3百分点, 实现了联邦学习中更高的安全性水平, 显著提升了模型性能。
当预训练模型BERT应用于加密流量分类领域时, 缺乏针对加密流量特性设计的编码方法和相应预训练任务。为此, 提出一种融合字节级编码与改进预训练任务的加密流量分类预训练模型。首先, 设计了一种新型词汇表构建方法, 增强模型对流量传输结构的表征能力; 其次, 提出动态掩码BURST预测和同源BURST连贯性预测2个新的自监督预训练任务, 动态掩码BURST预测任务增强模型对加密流量语义多样性的获取能力, 同源BURST连贯性预测任务提高模型对加密流量连贯性顺序的建模能力。实验结果表明, 所提模型在CSTNET-TLS 1.3数据集上的准确率、精确率、召回率和F1值分别为98.52%、98.40%、98.35%、98.43%, 与现有性能最好的预训练基准模型相比, 分别提高了1.15、0.98、0.93、1.02百分点。此外, 在5个下游加密流量分类任务的7个主流数据集上, 所提模型能够有效分类加密流量。
随着云计算和云存储场景中图像安全和用户隐私需求日益增加, 密文图像可逆数据隐藏技术备受关注。相较于加密前预留空间(RRBE)的方法, 传统的加密后腾出空间(VRAE)技术通常在加密过程中破坏了原始图像像素间的相关性, 导致嵌入率降低, 从而限制其应用广泛性。为提升VRAE的嵌入率同时确保图像安全, 提出一种可用于云计算环境的基于四叉树加密和自适应预测误差编码的加密图像可逆数据隐藏方案。首先, 采用基于四叉树的分区置乱加密算法, 在确保图像安全性的同时保证块内像素的相关性, 并利用中值边缘预测器获取块内像素值的预测误差; 其次, 对预测误差的数值位进行自适应块编码, 根据块的大小采用不同的编码方法, 从而有效压缩数据并腾出空间供数据嵌入。实验结果表明, 与现有的密文域可逆数据隐藏方案相比, 该方案更有效地利用了像素间的相关性, 提高了秘密信息的嵌入能力, 在BOSSBase和BOWS-2数据集上平均嵌入率分别达到3.332 bit/pixel和3.289 bit/pixel, 比现有先进的VRAE方法分别提高0.117 bit/pixel和0.175 bit/pixel。
近年来, 随着输电物联网的发展, 输电线路在线监测成为重点建设项目, 但嵌入式平台的计算能力和功耗问题影响了输电线路可视化的实现。为解决这些问题, 研究计算资源和存储资源高度融合的存内计算优化技术。首先, 设计了一种轻量级神经网络, 专用于输电线路目标识别, 有效降低了资源利用率; 其次, 提出一种适用于卷积神经网络(CNN)的现场可编程逻辑门阵列(FPGA)计算架构, 基于超轻量化异常目标识别神经网络算法, 结合特征图输出复用和乒乓机制等优化策略, 大幅提升了嵌入式平台的运行帧率并降低了资源占用率; 最后, 利用层融合技术、多通道传输和网络参数重排等策略, 优化了嵌入式平台的功耗, 提升了能效比。实验结果表明, FPGA加速器在175 MHz主频下工作时, 功耗低于3.5 W, 在输电线路数据集上的识别帧率达到33帧/s, 与其他方案相比, 在资源利用率、帧率和能效比方面均有显著提升。
死代码是一种不良代码异味, 会导致软件质量逐渐衰退。传统的死代码检测方法主要依赖于静态分析技术、代码结构的度量以及启发式规则, 这些方法在开发者之间存在高度差异, 且对源代码文本信息关注较少, 忽略代码在实际执行过程中的情况, 存在较大的局限性。针对以上问题, 设计一种新型死代码检测方法, 并采用基于卷积神经网络和长短期记忆相结合的技术, 其主要思路是将代码文本信息和代码度量信息相结合, 提高死代码检测的准确性。首先使用DUM-Tool等工具并结合人工以确定应用程序中的死代码实例进行死代码标记, 以深度优先遍历抽象语法树获取源代码的文本信息, 将标签值与文本信息相匹配, 再使用CK代码度量提取工具获取源代码的代码度量信息。然后通过Word2Vec将文本信息转化为词向量, 使用卷积神经网络提取代码度量信息的特征, 将两者拼接得到死代码检测的数据集。最后使用长短期记忆网络对数据集进行训练, 再通过Sigmoid函数进行分类。实验结果表明, 将代码文本信息和度量信息相结合可以有效实现死代码的检测, 与传统的检测方法相比, 平均F1值最高提升12.58百分点。
受地理因素的影响, 在偏远地区无法大规模建设通信网络的基础设施, 导致这些地区的网络通信质量降低以及一系列时延敏感型任务得不到及时处理和响应。针对偏远地区网络覆盖范围有限的问题, 将空天地一体化网络(SAGIN)与移动边缘计算(MEC)相结合, 提出基于博弈论的任务卸载策略, 可为偏远地区用户的时延敏感型任务卸载提供低延迟和高可靠传输。考虑到SAGIN中卫星资源受限以及本地用户设备能量不足的特点, 首先, 提出一种卫星-无人机集群-地面的三层边缘计算网络架构, 在满足各地面任务的时延要求下, 将任务卸载问题转化为地面用户设备和边缘服务器之间的Stackelberg博弈, 并证明其是NP难的。此外, 利用势博弈证明了地面用户设备之间构成的非合作博弈存在纳什均衡(NE)。最后, 寻找任务的最优卸载策略来最小化系统卸载成本, 通过最优的卸载任务转发百分比策略来最大化边缘服务器的效用函数, 提出一种基于Stackelberg博弈的纳什均衡迭代卸载(NEIO-SG)算法。仿真实验结果表明, 与其他基线算法相比, NEIO-SG在任务卸载过程中的系统总时延减少约13%, 边缘服务器的能耗降低约35%。
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛, 其能够从原始数据中提取更丰富、更具判别性的特征信息, 在处理3D数据、特征提取和实际应用等方面具有重要意义。然而, 从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长, 对计算资源和时间的需求也相应增加, 这会导致训练和推理过程更加耗时, 特别是在处理大规模3D数据时尤为明显。针对以上问题, 提出一种基于国产加速器的隐式卷积算法, 对3D卷积的前向计算过程进行优化。首先, 该算法结合了硬件特点和并行化思路, 利用索引直接访问所需计算的数据地址, 无须开辟新的内存空间, 大幅节省内存开销; 其次, 考虑到国产加速器具有高度并行的计算结构和丰富的计算资源, 适合处理大规模数据和复杂的计算任务, 结合国产加速器的计算能力和架构特点, 采用一系列特定的异构并行优化算法, 加速3D卷积前向算子的计算过程, 提高计算效率和性能。实验结果表明, 自研算子性能远超国产计算平台现有算子的最优性能, 在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。
目前, 大多数商用表面肌电(sEMG)信号采集系统存在价格昂贵、便携性和时效性无法满足应用需求的缺陷。为了解决该问题, 结合模拟采集电路的精度要求以及微控制器低功耗、高性能、灵活性等方面的需求, 设计一种嵌入式一体化肌电腕带, 可以用于实时手势识别。首先, 采用低成本、低噪声的精密放大器完成模拟采集电路设计, 并在仿真环境中对电路进行仿真验证, 保证信号采集质量; 其次, 在低功耗、高性能的微控制器ESP32-S3上提出轻量化卷积神经网络L-CNN以进行实时识别。L-CNN在预训练后进行剪枝和量化, 然后完成部署。通过剪枝算法去除模型中冗余的权重参数, 减小模型大小, 加快推理速度, 并微调到预训练模型中。量化将原有32位浮点数降到8位整数进行计算, 使模型尺寸降低以适用于嵌入式设备。实验结果表明, L-CNN的尺寸相比原模型大幅降低, 推理速度得到提升, 并且在实时手势识别中能达到95%左右的识别准确率, 验证了整个系统的可靠性。
在光学卫星影像中, 表碛覆盖型冰川的光谱和山地、岩石极为相近, 导致冰川与周围地形难以有效区分, 使得冰川的自动化分割变得困难。针对这一问题, 提出一种基于光学卫星图像和数字高程模型(DEM)的双输入图像语义分割网络(DENet)。该网络采用双编码框架, 结合多尺度特征提取和注意力机制, 通过整合来自不同数据的特征信息, 获取DEM地貌参数, 以解决表碛覆盖型冰川中同谱异物导致的源头区域误分割问题。首先通过多尺度可分离卷积注意力模块和多核注意力池化模块对卫星图像和DEM分别进行特征提取, 然后将获取到的2个特征图进行融合。多尺度特征提取模块可用于捕捉和融合冰川图像的多个尺度信息, 以产生更丰富和全面的特征表示。同时, 引入注意力机制可以对每个通道和空间位置分配不同的权重, 关注不同尺度上的特定区域, 使模型能够聚焦于更重要的信息, 减少多余特征的影响。实验结果表明, 该网络的平均交并比(IoU)达到94.6%, 比U-Net、DeepLabv3+网络分别提高4.53和3.38百分点, 其能提升山地冰川区域的分割准确率。
人体姿态估计被广泛应用于运动健身、手势控制、无人超市、娱乐游戏等诸多领域, 但姿态估计任务仍面临着诸多挑战。针对目前主流的人体姿态估计网络参数量大、计算复杂度高的问题, 提出一种基于高分辨率网络的轻量级姿态估计网络(LitePose)。首先, 采用Ghost卷积降低特征提取网络的参数; 其次, 通过采用解耦的全连接(DFC)注意力模块, 更好地捕获远距离空间位置像素间的依赖关系, 减少由于参数量下降而导致的提取特征缺失, 提高人体关键点回归的准确率; 然后, 设计一个特征增强模块, 对骨干网络提取的特征进行进一步增强; 最后, 设计一个新的坐标解码方法, 降低热图解码过程中的误差, 提高关键点回归的准确率。在人体关键点检测数据集COCO和MPII上对LitePose进行验证, 并与当前的主流方法进行对比。实验结果表明, LitePose相比基线网络HRNet精度损失0.2%, 但参数量不及基线网络的1/3, LitePose在保证少量精度损失的同时能够大幅降低网络模型的参数量。
铁路钢轨扣件的缺陷检测是铁道安全巡检中极为重要的工作之一。为提高钢轨扣件维护工作的效率, 基于深度学习的方式进行巡检。而使用当前主流的目标检测模型进行钢轨扣件缺陷的检测时, 模型体积大、参数量多等因素导致无法同时平衡检测准确度和速度。采用压缩与激活(SE)注意力机制与坐标注意力(CA)机制组成的双注意力机制对YOLOv5模型进行改进; 重新设计网络, 选用MobileNetv3作为主干网络, 同时引入含有GSConv模块的Slim-Neck结构和轻量级上采样算子, 以降低计算成本; 将YOLOv5的坐标损失函数修改为SIoU, 以提升训练时的收敛速度, 使得模型更加轻量化。使用改进后的模型在钢轨扣件数据集上进行测试, 结果显示, 单张扣件图片的检测时间为53.8 ms, 检测速度为17.9帧/s, 并且模型大小仅有8.3 MB, 符合模型体积小、检测效果佳的要求。
对抗样本是评估深度神经网络(DNN)鲁棒性和揭示其潜在安全隐患的重要手段。基于生成对抗网络(GAN)的对抗样本生成方法(AdvGAN)在生成图像对抗样本方面取得显著进展, 但该方法生成的扰动稀疏性不足且幅度较大, 导致对抗样本的真实性较低。为解决这一问题, 基于AdvGAN提出一种改进的图像对抗样本生成方法(SE-AdvGAN)。SE-AdvGAN通过构造SE注意力生成器和SE残差判别器来提高扰动的稀疏性。SE注意力生成器用于提取图像关键特征, 限制扰动生成位置, SE残差判别器指导生成器避免生成无关扰动。同时, 在SE注意力生成器的损失函数中加入以l2范数为基准的边界损失以限制扰动的幅度, 从而提高对抗样本的真实性。实验结果表明, 在白盒攻击场景下, SE-AdvGAN相较于现有方法生成的对抗样本扰动稀疏性更高、幅度更小, 并且在不同目标模型上均取得了更好的攻击效果, 说明SE-AdvGAN生成的高质量对抗样本可以更有效地评估DNN模型的鲁棒性。
光照一致性是增强现实(AR)系统中实现虚实有机融合的关键因素之一。由于拍摄视角的局限性和场景光照的复杂性, 开发者在估计全景照明信息时通常忽略局部光照一致性, 从而影响最终的渲染效果。为解决这一问题, 提出一种基于改进视觉Transformer(ViT)结构的局部光照一致性估计框架(ViTLight)。首先利用ViT编码器提取特征向量并计算回归球面谐波(SH)系数, 进而恢复光照信息; 其次改进ViT编码器结构, 引入多头自注意力交互机制, 采用卷积运算引导注意力头之间相互联系, 在此基础上增加局部感知模块, 扫描每个图像分块并对局部像素进行加权求和, 捕捉区域内的特定特征, 有助于平衡全局上下文特征和局部光照信息, 提高光照估计的精度。在公开数据集上对比主流特征提取网络和4种经典光照估计框架, 实验和分析结果表明, ViTLight在图像渲染准确率方面高于现有框架, 其均方根误差(RMSE)和结构相异性(DSSIM)指标分别为0.129 6和0.042 6, 验证了该框架的有效性与正确性。
随着三维模型分类检索任务的不断发展, 多模态特征融合已经成为提高模型性能和丰富形状表征的关键技术之一。现有基于多模态的三维模型检索方法侧重于直接融合多种全局特征, 然后利用交叉熵损失拟合标签信息, 将检索任务转化为分类任务, 同时忽略了复杂三维模型多模态之间的局部互补信息, 导致检索性能不够理想。为了解决上述问题, 提出一种基于紧凑中心损失的全局-局部特征互补融合方法。首先, 利用预训练模型从点云数据和多视图数据中提取深度特征; 然后, 设计注意力感知融合模块, 利用点云与多视图特征间的关系分数细化视图特征集并融合点云特征, 以获得显著的局部互补信息; 其次, 引入多头注意力机制, 在特征动态聚合模块中自适应地探索全局点云特征、全局视图特征以及局部互补特征之间的潜在模态表示, 进一步融合互补特征并最小化冗余; 最后, 利用紧凑中心损失和交叉熵损失的联合约束, 在最小化类内距离的同时最大化类间距离, 生成具有高度区分性的特征描述符。在ModelNet40、ModelNet10数据集上的实验结果表明, 所提方法取得了93.4%、94.8%的分类准确率(OA)以及92.5%、95.1%的平均精度均值(mAP)。
为解决现有目标检测算法在复杂场景下对交通标志的误检、漏检等问题, 提出一种改进YOLOv7的交通标志检测算法YOLOv7-MBFE。首先, 提出一种基于膨胀卷积的多分支特征提取模块, 控制最短和最长的梯度路径, 增强模型的特征提取能力; 其次, 在头部网络中构建渐进特征金字塔结构, 充分融合不同层次的特征信息, 改善模型的特征表达能力; 在SPPCSPC模块中引入通道注意力机制, 自适应调整通道的权重, 增强不同通道之间的特征交互, 并将多头自注意力机制融合至下采样阶段, 增强模型对全局上下文信息的感知能力, 提高模型在复杂场景下的检测性能; 最后, 使用Focal-EIoU替换原YOLOv7模型中的损失函数, 使模型更专注于高质量的锚框, 加快模型的收敛速度, 提高模型的鲁棒性。在中国交通标志检测数据集上进行大量实验, 结果表明, 相较于YOLOv7算法, 该算法的平均精度均值(mAP)提升了9.25%, 准确率提升了3.92%, 召回率提升了5.19%。改进后的算法能够显著改善复杂场景下的误检、漏检等问题, 检测效果优于原始算法和经典目标检测算法。
基于图像级标签的弱监督语义分割方法可利用少量带有图像级标签的注释对网络进行训练, 从而减轻注释负担。然而, 现有基于类激活映射的方法存在分割区域不完整的问题。为使最终分割预测结果包含更多前景目标, 提出一种基于调制-全局推理的弱监督语义分割方法。在分类网络中, 首先设计空间-通道激活调制模块以提取更完整的目标对象特征, 从而避免类激活图过度关注显著性区域; 其次提出全局推理单元模块, 利用该模块捕获特征图中不相交区域和较远区域之间的全局关系以便选出包含更完整的目标对象, 从而进一步增强非显著区域的特征; 最后通过设计潜在目标挖掘模块以降低伪标签中的假阴性率, 进而提取其中的丢失信息, 从而有效缓解初始伪标签中目标区域不完整的问题。在分割网络中, 将分类网络生成的初始预测和伪标签相结合, 并通过非显著区域挖掘模块进一步生成掩蔽伪标签从而提升分割效果。实验结果表明, 该方法在仅使用图像级标签的情况下, 在Pascal VOC 2012验证集和测试集上的精度分别为69.5%和69.8%, 在MS COCO 2014验证集上的精度为32.8%, 同时可有效解决分割区域不完整的问题, 优于已有方法。
高速服务区车辆禁停检测面临场景复杂的挑战, 目前基于单一车型信息的禁停检测算法受到昼夜光照变化、车辆重叠遮挡以及视角倾斜等因素的影响, 无法在连续时间段内准确判断禁停区域内的车辆是否为同一辆车, 存在较高的误检率和漏检率。为此, 提出一种复杂环境下高速服务区禁停检测算法, 首先使用YOLOv5车辆检测算法获取车型与位置信息, 并给出一种改进禁停区域匹配方法, 提升复杂环境下目标和区域匹配准确率; 其次对禁停区域内目标车辆使用ConvNeXt车身颜色识别算法获取颜色信息; 最后设计一种分阶段控制的多维信息匹配与融合策略, 有效降低因光照、遮挡、视角等变化导致的车辆身份判断不准确情况, 从而降低服务区车辆禁停检测的误报率与漏检率。实验结果表明, 所提方法在高速服务区禁停数据集上的禁停误检率由3.56%下降到0.77%, 禁停漏检率由11.3%下降到2.48%, 不仅为服务区管理禁停行为提供了车辆多属性信息和车辆违停时长信息, 而且满足服务区多场景部署的性能要求, 可较好地用于实际应用中。
为了降低移动边缘网络中的内容获取时延和传输开销, 提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存策略(MACC)。首先构建多智能体边缘缓存模型, 将多节点缓存替换问题建模为部分可观测马尔可夫决策过程(POMDP), 把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间, 提高智能体对环境的感知能力, 并通过三次指数平滑法提取各节点内容请求的流行度特征, 使得算法能够适应内容流行度变化, 从而提高缓存命中率; 然后联合本地与相邻节点的传输时延和开销来设计指导性奖励函数, 引导智能体进行协作缓存, 降低系统的缓存冗余和内容传输开销; 最后结合Wolpertinger Architecture方法对TD3算法进行多智能体扩展, 使每个边缘节点都能自适应地学习缓存策略, 从而提高系统性能。实验结果表明, MACC算法中边缘节点牺牲了部分缓存空间来协助相邻节点缓存请求内容, 从而提高缓存命中率, 在同一数据集上与MAAC、DDPG、独立TD3算法相比, MACC算法的缓存命中率分别平均提高了8.50%、13.91%和29.21%, 并能适应动态的边缘环境, 实现较小的内容获取时延和传输开销。
针对传统电力负荷预测方法存在精度较低、负荷数据噪声大等问题, 提出一种基于改进变分模态分解(VMD)、卷积神经网络(CNN)和形变长短期记忆(Mogrifier LSTM)网络的多因素电力负荷预测方法。首先, 运用麻雀搜索算法(SSA)对变分模态分解进行优化, 得到最佳效果的分解子序列, 有效减轻负荷数据噪声对预测精度的影响; 其次, 分析各因素对负荷预测的影响机理, 利用皮尔逊相关系数推导各影响因素与负荷之间的相关性, 剔除冗余特征, 大幅降低模型失准的发生概率; 最后, 采用CNN提取特征向量, 将分解后的负荷数据及温度、湿度等特征数据输入到CNN-Mogrifier LSTM深度网络模型中, 通过CNN-Mogrifier LSTM深度网络模型对特征数据进行多维分析, 提高短期负荷预测精度。算例分析结果表明, 所提出的多因素电力负荷预测模型具有较好的适配性和预测效果, 与次优VMD-CNN-Mogrifier LSTM模型相比, 在两份所用真实数据集上的预测精度分别提升0.5和2.4百分点, 为短期电力负荷预测提供一种可行的解决思路。
U-Net因结构简单且高效被广泛应用于医学分割领域。然而, U-Net的跳跃连接不能很好地弥补编码器和解码器之间的语义差距。而医学分割数据的标注要求严格, 使得数据集数量和规模都较小。针对上述问题, 设计多尺度注意力融合(MSAF)模块, 旨在利用注意力机制可调整网络学习方向的特点和多尺度特征融合来有效缓解语义偏差。MSAF模块在前2个阶段使用通道注意力来捕获全局特征; 在后2个阶段使用空间注意力来捕获局部特征; 最后将多个阶段提取的特征进行融合以增强特征信息。此外, 提出基于傅里叶变换的数据增强(FTDA)方法解决医学分割数据集稀少的问题。FTDA通过扰动输入图像在频域中的幅度信息实现其相位信息的数据增强。在MoNuSeg、CryoNuSeg和2018 Data Science Bowl数据集上的实验结果表明, 提出方法的mIoU和Dice指标比其他先进方法表现出更好的性能。此外, 提出的FTDA方法对小规模数据集也具有较好的增益效果。
为促进道面地下领域知识和目标检测算法的深度融合, 缓解不同病害样本间的特征复杂性和相似性导致的特征畸变问题, 提升病害的自动化检测效果, 提出了融合关联关系推理的机场道面地下病害检测算法。首先, 所提算法结合残差网络和多尺度特征金字塔网络(FPN)提取目标特征信息; 其次, 通过挖掘机场道面地下病害关联关系矩阵, 结合图推理设计地下病害关联关系推理模块, 以区域生成网络(RPN)生成的特征向量作为输入特征, 利用自我学习的变换矩阵设定图的传播权重, 实现特征信息传播并构建有效的关联关系推理模块。实验结果证明, 融合关联关系推理的机场道面地下病害检测算法可以有效地利用地下病害之间的关联关系, 消除病害之间的相互干扰并且检测效果达到最优, 检测的平均准确率达到87.38%。