伴随着网络技术的飞速发展, 网络安全面临的风险也日益增加, 网络攻击呈现复杂化、多样化的特征, 给现有网络攻击应对措施带来了巨大挑战。态势感知技术作为一种新兴概念, 为网络安全领域带来了新的思路。针对现有网络安全态势感知方法存在数据特征提取及较长时间序列数据处理能力不足的问题, 提出一种融合堆栈稀疏自编码器(SSAE)、卷积神经网络(CNN)、双向门控循环单元(BiGRU)和注意力机制(AM)的模型。通过SSAE和CNN提取数据特征, 利用AM强化BiGRU对关键信息的关注度, 实现对异常流量的攻击类别判定, 并结合网络安全态势量化指标, 对网络安全态势进行量化评分并划分等级。实验结果表明, 融合模型在各项指标上均优于传统深度学习模型, 能够准确感知网络态势。
在智能态势感知应用场景中, 多智能体角度跟踪问题常出现在需要对移动目标进行监测和控制的场景。与传统的目标跟踪方法不同, 角度跟踪任务不仅需要追踪目标的空间坐标, 还需确定目标间的相对角度。现有控制方法在处理这类规模较大且易受环境变化影响的问题时往往效果不稳定或性能降低。为此, 提出一种基于多智能体强化学习(MARL)的解决方案, 首先建立多智能体角度跟踪问题的基础模型, 然后设计1个多层次的仿真决策框架并提出针对此问题适应性更强的多智能体强化学习算法AR-MAPPO, 通过动态调整数据复用轮数以提升学习效率和模型稳定性。实验结果表明, 该方法在多智能体角度跟踪任务中相比传统方法和其他强化学习方法具有更高的收敛效率和更优的角度跟踪性能。
船舶交通智能感知与辅助决策是船舶智能交通的核心内容, 是保障未来船舶智能航行安全的重大需求。在船舶智能交通系统中, 航行信息感知与融合理解发挥着关键作用, 通过各种传感技术和信息传输、处理技术, 实时获取、分析船舶与环境等相关信息, 直接影响着船舶智能航行的态势判断和风险评估能力, 同时基于数据融合分析的辅助决策生成效果决定了船舶自主航行能力, 关系着船舶交通的安全和效率。船舶智能交通下的感知融合具有多级体系特征, 研究者在通信传输、信息交互和数据融合3个层级进行了多方面改进。深入探讨目前船舶智能交通感知与融合理解的发展和面临的挑战, 针对船舶智能航行过程中对环境目标的感知融合具有复杂动态的特点, 研究网络通信保障、感知信息交互、智能化融合分析3个层级间的相互关联关系, 分析面向复杂水域的船舶智能航行感知体系, 讨论船舶对航行环境的识别和认知能力提升的潜在空间和应用前景, 有助于为船舶航行的自主化、智能化提供技术支持, 服务于船舶交通智能化整体水平的提升。
针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题, 提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束, 结合机载雷达实际搜索任务需求, 建立基于最大目标平均积累期望发现概率的多阵面雷达搜索资源优化模型。分别设计多智能体局部及全局观测空间和带折扣因子的复合奖励函数, 基于执行者-评论者(Actor-Critic)算法结构, 通过各智能体策略网络在线更新各雷达阵面搜索资源分配系数实现上述模型参数的优化求解。仿真结果表明, 该算法能够根据空域-目标覆盖情况及各目标威胁权系数迅速作出精确的自主决策, 在多阵面相控阵雷达搜索资源优化场景下的表现显著优于传统算法。
在抑郁症诊断中, 抑郁症患者的面部表情、声音信号和文字等数据可以作为评估抑郁倾向的客观指标。相较于视频, 文本和音频模态在处理敏感的个人信息时能更好地保护患者的隐私, 并且文本和音频均属于语言模态, 相关性较强。针对抑郁倾向识别中变长文本数据不易被分析以及手动提取音频特征存在局限性的问题, 提出一种基于Transformer的融合网络优化方法。对于文本模态, 使用卷积神经网络对文本进行特征提取, 得到文本在不同尺度下的局部特征, 然后引入Transformer模型来处理全局信息和长距离依赖。对于音频模态, 为了降低手动提取音频特征对识别结果的影响, 通过使用VGGish网络来自动提取音频特征, 并将提取好的音频特征送入Transformer中。最后, 为进一步增强文本和音频模态融合网络的识别性能, 引入SE通道注意力机制, 使模型能够自适应地调整各模态之间的权重分配, 更有效地聚焦于关键特征。实验结果表明, 双模态融合后的网络准确率达到92.7%, 相比仅使用文本或音频模态, 准确率分别提升2.9和4.9个百分点。
非侵入式负荷分解是能源管理领域的一个热门研究课题, 其在各种工业和商业场景中都得到广泛应用。针对负荷分解数据集中存在的样本不平衡问题, 提出一种基于多判别器时间序列生成对抗网络(MDTimeGAN)的序列数据生成方法。通过对原始序列提取时域、频域、时频域以及自相关特征, 并在TimeGAN模型基础上采用4种不同的判别器对时间序列的多维度特征进行判别, 从而提高对原始数据的判别能力, 提升数据质量。在3种公开数据集上进行横向和纵向对比实验, 结果表明, 与对比模型相比, MDTimeGAN模型生成的数据能够更好地覆盖原始数据的分布, 在数据分布方面保持良好的性能, 生成数据符合时间序列数据的特点。
序列推荐作为一种常用的推荐系统技术, 通过对用户的历史交互序列进行建模来预测下一个可能交互的项目。现有的序列推荐方法主要利用用户交互序列和上下文信息进行推荐, 忽略了序列中交互项目之间的时间间隔信息, 交互项目之间的组合依赖以及上下文信息中存在噪声的问题, 导致推荐结果受限。针对以上问题, 提出一种基于生成对抗网络的序列推荐模型TKWGAN, 该模型包含一个生成器和一个判别器。生成器结合了用户历史交互序列和各项目之间的时间间隔信息对用户偏好进行建模并生成预测, 判别器则引入了知识图谱信息对项目进行语义扩充, 从而能更准确地对生成器的预测进行合理性判断。针对用户交互序列和知识图谱信息中可能存在噪声的问题, 提出一种基于小波变换的多核卷积神经网络来构造判别器, 以更全面、准确地捕获用户的潜在兴趣, 提高推荐的准确性。在MovieLens-1M、Amazon Books和Yelp2018这3个公开数据集上的实验结果表明, 与8个序列化推荐算法相比, 提出的TKWGAN模型在命中率(HR@N)和归一化折损累计增益(NDCG@N)指标上均有显著提升。
深度学习极大地推动了自然场景文本检测和识别领域的发展, 然而, 对行车环境中的交通文本检测研究相对匮乏。为此, 提出一种新颖的端到端文本检测框架, 实现对车载摄像头捕获到的交通文本检测。设计多粒度文本特征增强模块(MTFEM), 通过无缝集成交通文本的粗粒度特征和细粒度特征, 进行全面理解和分析, 以提高对交通文本的特征表达能力。此外, 为了优化网络学习, 保持模型训练的稳定性, 避免像素预测误差所导致梯度急剧变化, 设计一种新颖的联合损失函数。实验结果表明, 该方法在交通文本数据集CTST-1600和TPD上的F1值分别达到了93.7%和94.1%, 与主流方法相比具有更高的检测结果。为了进一步验证所提方法的适应性, 在多方向自然场景文本数据集ICDAR 2015和多语言文本数据集MSRA-TD500上的F1值分别取得了87.7%和87.0%, 具有较强的鲁棒性。
近年来, 将结构信息应用于深度文本聚类中以提升聚类效果取得了较优的成果。然而, 结构信息的构造方法大多只进行简单的距离测算且近邻数量固定, 导致构建的图难以获得较精确的文本结构信息。另外, 众多方法对近邻文本只进行一阶挖掘, 使图结构信息未得到完全挖掘, 限制了结合结构信息的深度文本聚类性能。为此, 提出一种基于自适应结构学习的深度文本聚类模型DCMBS。首先, 设计一种阈值构图方法, 动态调整近邻文本数量, 解决因近邻文本固定存在结构信息不精确的问题; 其次, 引入一种拓扑探索近邻的方法, 对近邻文本进行多阶挖掘, 解决以往方法只进行一阶挖掘存在结构信息不完整的问题。此外, 设计了1个阈值衰减策略, 避免拓扑过程中因拓扑阶数增加导致学习泛化。在4个真实数据集的实验结果表明, DCMBS与现有较好的聚类模型相比, 准确度、归一化互信息(NMI)和调整兰德指数(ARI)平均提高了6.83、2.93、6.23个百分点。
推荐算法是一种用于解决信息过载问题的方法, 引文推荐通过引文上下文能够自动匹配候选论文列表。现有基于神经引文网络模型在引文上下文数据预处理的过程中, 存在文本噪声和上下文学习不充分的问题。为此, 提出一种基于层间融合滤波器和社交神经引文网络的推荐算法FS-Rec。首先, 利用具有层间融合滤波器的BERT模型预处理引文上下文, 在频域内从所有频率中提取有意义的特征, 缓解引文上下文数据的噪声, 同时在频域中对多层信息进行融合, 增强上下文表示学习的能力; 然后, 在引文作者嵌入中引入社交关系, 与其他引文信息嵌入通过编码器获得表示, 将这些表示与经过BERT预训练的引文上下文表示进行融合, 得到最终表示; 最后, 根据最终表示生成引文文本预测。实验结果表明, 相较于现有的上下文引文推荐模型, FS-Rec在2个基准数据集arXivCS和PubMed取得了更高的召回率和平均倒数排名(MMR), 证明了模型的有效性。
针对无人机(UAV)执行跟踪任务时经常出现尺寸变化、低分辨率、目标遮挡等场景导致跟踪目标框漂移的问题, 提出一种时域孪生网络融合Transformer的长时无人机视觉跟踪算法TTTrack。首先, 使用基于孪生网络的SiamFC++(AlexNet)算法作为基线算法; 其次, 利用Transformer自适应地提取历史帧的时空信息并在线更新模板, 从而将时空上下文信息储存为动态模板; 随后, 分别使用基准模板和动态模板与搜索特征图进行互相关运算, 获得响应图后利用Transformer融合两个响应图, 从而在连续帧之间建立时空上下文映射关系。实验结果表明, 在LaSOT长序列跟踪基准上TTTrack的成功率和精确率分别为63.9%和66.6%, 在UAV123跟踪基准上的成功率和精确率分别为61.4%和80.2%。与基线算法相比, 该算法在完全遮挡场景下的成功率和精确率分别提升7.4和8.0个百分点。TTTrack在DTB70跟踪基准上精确率达到82.1%, 并且跟踪速度为118帧/s, 满足实时性要求。测试结果验证了TTTrack具有良好的鲁棒性、实时性和抗干扰能力, 能有效应对长时UAV跟踪任务。
由于自然语言处理(NLP)将中文命名实体识别(NER)任务建模为序列标注任务, 将文本中每个字符映射至一个标签, 每个字符相对独立且信息有限, 因此在NER领域词汇信息的加入能够解决字符间缺乏联系的问题。针对现有中文NER模型多需要额外构建词汇表、提取词汇信息方式繁琐、词级嵌入与字级嵌入因来源不同导致信息难以融合的问题, 提出一种基于Wobert与对抗学习的中文NER模型ALWAE-BiLSTM-CRF。与传统预训练模型相比, Wobert预训练模型在预训练阶段就已将文本分词, 充分学习了词与字两个层次的信息, 因此ALWAE-BiLSTM-CRF通过Wobert预训练模型获取字符词向量, 再使用Wobert分词器获取预训练模型中已存在的词汇向量, 接着使用BiLSTM模型获取两者的时序信息, 随后通过多头注意力机制将词汇级别的信息要素融入字符词向量, 同时通过对抗学习攻击生成对抗样本以增强模型泛化性, 最后使用条件随机场(CRF)层对结果进行约束, 获得最佳的预测序列。在Resume数据集与瓷器领域的自建数据集Porcelain上进行对比实验与消融实验, 结果表明, ALWAE-BiLSTM-CRF模型的F1值分别达到97.21%与85.7%, 证明了其在中文NER任务中的有效性。
视觉重定位技术是室内服务机器人关键技术之一, 其主要目的是精确确定机器人在场景中的六自由度位姿。在室内环境中, 稀疏纹理区域的普遍存在对视觉重定位的精度构成了挑战, 因为这些区域中的相似图像块会大幅干扰定位准确性。此外, 现有的视觉重定位网络往往忽视图像中角点的重要性, 限制了卷积神经网络在编码场景信息时的能力, 因为角点中蕴含着丰富的几何特征。为此, 提出一种结合元素级注意力机制和角点特征的视觉重定位网络。为了解决相似图像块的问题, 提出元素级注意力机制, 通过预测元素级注意力加权系数来评估特征图中每个元素的重要性。该方法可有效融合多级特征图, 利用低级特征图中的几何结构信息与高级特征图中的语义信息来提升相似图像块的区分度。针对角点特征被忽视的问题, 提出一种角点特征整合模块, 利用角点提取网络SuperPoint提取大量角点进行聚类, 并选择距离聚类中心最近的角点来保证其均匀地分布在图像中。该网络将提取的角点特征整合进高维特征图中, 从而保证网络充分地提取角点中所包含的图像几何特征, 进而提升网络的场景解析能力。在7-Scenes数据集上的实验结果表明, 在包含大量稀疏纹理的室内场景中, 提升相似图像块间的区分度并整合角点特征可有效提升视觉重定位精度, 使该方法实现了0.025 m的中值平移误差、0.83°的中值旋转误差以及87.43%的重定位准确率。
对非机动车违规行为依法追究责任是提高城市交通安全的有效手段。由于非机动车车牌具有尺寸小、分布密集、易遮挡等特点, 导致应用传统的深度学习方法会出现特征信息大量丢失的现象。为此, 提出一种基于语义对齐和层次优化的非机动车车牌识别定位方法。首先设计底层信息融合的语义对齐模块, 在上采样过程中利用底层目标信息引导高层语义向下融合, 以解决高底层语义冲突带来的小目标特征丢失问题; 然后构建CSP结构的层次优化模块替代深层ELAN模块, 使用堆叠少量卷积核模块提取目标信息以减少网络层数, 避免特征信息在深层丢失; 最后, 为减少训练过程中的匹配误差, 使用K-Means++算法聚类得到适合非机动车车牌的初始锚框, 提高小目标识别定位准确率。实验结果表明, 所提方法在自制非机动车车牌数据集上的识别定位准确率为90.95%, 与YOLOv7、YOLOv8等代表性方法相比至少提升3.58%, 为非机动车车牌识别定位提供了一种有效的方法。
基于对比语言-图像的预训练(CLIP)方法在大规模图文数据上使双流架构下的模型能够较好地学习到统一的高级语义表征, 但CLIP模式仅约束图像-文本模态间的粗粒度语义对齐, 在同一模态下的语义表征仍需改进。为了使网络学习到更好的潜在统一语义表征, 提出一种基于拓展图文对比学习的多模态语义对齐方法。首先通过微调预训练的CLIP模型, 针对指定数据集优化语义表征, 设计双向匹配策略构造图文样本匹配拓扑图, 然后利用拓扑图中关联度更高的图文样本将对比学习进行拓展, 在图像-文本模态下进行粗粒度语义对齐, 同时在相同模态中进行细粒度调整, 并引入可学习参数调整各模态下的对比损失权重。通过在多个数据集下的实验结果表明, 该方法在不影响多模态语义对齐的性能下能够改进相同模态下的语义表征, 在分类、检索等下游任务上具有更好或相当的性能。
在通信过程中, 智能体受各种未知干扰信号的影响, 导致系统性能降低。针对二阶非线性多智能体系统, 研究了在有向通信拓扑结构下实现任意预设时间编队期望的问题。首先, 结合预设时间机制与积分滑模控制策略, 设计一种新的编队控制协议, 该控制协议能够确保二阶多智能体系统在任意预设时间内实现到达段和滑动段2个阶段的收敛, 引入的积分滑模控制项有效降低了系统的稳态误差, 并提高其在预设时间控制下的鲁棒稳定性; 其次, 利用李雅普诺夫方法与代数图论知识, 分析得出二阶系统在该控制方法下达到预设时间编队期望的充分条件, 并证明了包含预设时变函数控制协议的有界性。仿真实验结果验证所设计控制方法的有效性与可行性, 即给定任意初值, 带干扰项的二阶系统均可在任意预设时间内快速准确地达到稳定状态。
形式化方法精确且严格, 较多应用于安全苛求系统开发, 但目前仍存在学习成本高、使用复杂、重用性低等问题。常用的非形式化状态图模型虽易于使用却缺乏严格验证。针对这些问题, 提出一种将状态图SCXML模型转译为形式化B模型的模型转化方法, 从而结合状态图的易用性降低在安全苛求软件系统开发过程中使用形式化方法的复杂度。该转译方法分为映射规则、同步语义和程序实现3个部分, 以保证自动转译后的模型自身含义与基础语义不变。在平交道口控制系统开发案例分析中, 该方法根据图元模型自动生成了对应形式化模型, 通过对形式化模型的分析改进系统在功能安全、数据安全、隐藏分支3个方面的非安全因素, 并保证从需求至模型的一致性, 证明了该方法可降低形式化方法建模难度, 提高软件系统的正确性、可靠性与安全性。
近年来租房市场蓬勃发展, 各种租房平台应运而生。但现有的租房平台中心化问题严重, 一旦中心服务器遭到破坏, 容易引起单点失败问题, 同时泄露用户的隐私。联盟区块链以分布式方式存储数据和执行合约, 不依赖单个节点的可用性, 即使某个中心节点失效, 其他节点仍然可以继续运行和验证交易, 确保系统的持续稳定性和安全性。提出一个基于联盟区块链和星际文件系统(IPFS)的安全租房方案。在方案中, 房东通过预设访问策略对房源数据进行属性基加密, 以实现数据的机密性和安全的细粒度访问控制。采用多关键词排序搜索, 只返回最符合用户需求的前
传统Web攻击检测方法准确率不高, 不能有效防范Web攻击。针对该问题, 提出一种基于变换器的双向编码器表示(BERT)的预训练模型、文本卷积神经网络(TextCNN)和双向长短期记忆网络(BiLSTM)多模型融合的Web攻击检测方法。先将HTTP请求进行预处理, 再通过BERT进行训练得到具备上下文依赖的特征向量, 并用TextCNN模型进一步提取其中的高阶语义特征, 作为BiLSTM的输入, 最后利用Softmax函数进行分类检测。在HTTP CSIC 2010和恶意URL检测两个数据集上对所提方法进行验证, 结果表明, 与支持向量机(SVM)、逻辑回归(LR)等传统的机器学习方法和现有较新的方法相比, 基于BERT的多模型融合的Web攻击检测方法在准确率、精确率、召回率和F1值指标上均表现更优(准确率和F1值的最优值都在99%以上), 能准确检测Web攻击。
车联网(VANETs)是未来智能交通系统的交通基础, 可保障车辆的安全驾驶。然而, 在开放式无线通信模式和复杂的通信环境下, 车联网面临着车辆隐私泄露、通信带宽限制等一系列挑战。为此, 提出一种基于无证书聚合签名的匿名认证方案。该方案采用聚合技术实现了批量认证, 提高了认证效率, 并且通过协调可信中心和车辆来生成公/私钥对和伪身份, 一定程度上摆脱了对防篡改设备(TTPD)的依赖, 同时, 无证书机制避免了证书管理问题和密钥托管问题。当发生恶意事件时, 可信中心可以追踪车辆的真实身份, 并基于中国剩余定理实现车辆的跨域撤销。安全性证明和分析表明, 所提方案在随机谕言机模型下具有存在不可伪造性。效率比较结果表明, 该方案的计算成本和通信成本较低, 在车联网应用环境中具有实用价值, 与同类方案相比, 签名验证阶段计算成本减少了至少25%, 签名通信成本减少了至少6%, 并能满足更多的安全需求。
针对目前移动边缘计算位置隐私保护算法导致用户任务卸载时服务质量降低的问题, 提出一种融合维诺图机制和ε-地理不可区分机制的位置隐私保护策略V-Geo。首先, 云服务器以地图中的边缘节点作为维诺图的生成元, 采用逐点插入法生成维诺图, 将地图划分为若干维诺格, 并将地图划分数据分发至地图中的用户; 其次, 用户以自身所在维诺格为安全区域, 融合ε-地理不可区分机制在该维诺格范围内基于自身真实位置生成一个虚假位置用于代替真实位置进行任务卸载; 最后提出一种融合时延、能耗和距离损失的服务质量损失模型, 该模型根据用户对时延、能耗和距离损失的不同需求评估用户任务卸载时的服务质量高低。以场景内所有用户的服务质量损失模型作为指标, 改变时延、能耗和距离损失的权重占比进行仿真, 仿真结果证明在同等的隐私保护程度下, V-Geo算法较基于本地差分隐私的改进算法(V-R)用户的服务质量损失平均减少了31.2%。同时证明了在不同用户数量和不同边缘节点数量下, V-Geo算法较其他算法依旧存在优势。
入侵检测是一种网络安全技术, 旨在检测和防止未经授权的访问或攻击。现有入侵检测模型对于分布均匀的网络数据具备良好的检测性能, 但是网络中相关数据往往是不平衡的, 现有模型对少数类攻击数据的检测率低。针对上述问题, 提出一种基于图边缘特征注意力的入侵检测模型。首先, 挖掘数据内部隐藏的图结构关系, 并将数据进行归一化处理, 对样本数据的原始特征进行更新, 将数据转换成图结构; 其次, 使用图池化操作对图节点进行下采样, 降低计算复杂度, 利用图边缘特征注意力对采样后的图进行边缘特征加权聚合, 提高模型的表征能力, 将聚合后的边缘特征与节点特征拼接, 生成节点嵌入, 拼接源节点与目标节点嵌入形成边缘嵌入; 最后, 将边缘嵌入输入分类器转换成类别概率进行分类。在数据集UNSW-NB15和NSL_KDD上的对比实验结果表明, 该模型能够有效检测出少数类攻击数据, 相比现有模型提升了对不平衡数据的检测精度, 多分类检测准确率分别达到0.992 9和0.976 6。
随着自动驾驶系统的发展, 针对道路场景下的3D目标检测受到研究人员的广泛关注。然而, 大多数基于单一传感器或者多传感器融合的目标检测方法未考虑实际道路场景中车辆旋转, 使得捕获的场景同步旋转, 从而导致目标检测性能降低。针对这类问题, 提出一种基于多传感器融合的多级全局旋转等变目标检测网络架构, 以缓解场景旋转造成的目标检测困难, 从而提高目标检测性能。首先, 对体素内部进行各点之间距离编码, 增强局部点云几何信息, 并提取体素的全局旋转等变特征; 其次, 引入图像的语义信息并提取全局旋转等变特征, 进一步提高网络性能; 最后, 将具有旋转等变性的点云和图像信息在鸟瞰图上进行融合, 并嵌入群等变网络提取融合鸟瞰图级全局旋转等变特征。实验结果表明, 该网络架构在nuScenes验证集上达到了68.7%的平均精度均值(mAP)和71.7的nuScenes检测分数(NDS), 以及平均角度误差均值(mAOE)降低到0.288, 相比主流的目标检测方法, 其实现了网络架构本身的旋转等变性并在性能上得到了提升, 此外, 各个组件对于整体网络架构的目标检测性能提升都起到了重要作用。
图像超分辨率技术可以通过提高图像的分辨率从而有效提升图片的质量和观看的视频体验。然而, 小型嵌入式设备因硬件资源受限难以运行常规模型。为减少模型的参数量以及加快模型运算速度, 提出一种改进的超分辨率轻量化特征融合方法ILFM。设计结构间部分参数共享模块, 使得在参数量基本不变的情况下增强模块的表达能力, 进而增强模型输出图像质量, 设计一种更加轻量的可分离编解码基本模块。在模型中双层网络结构和改进的参数共享方法被设计为1个统一结构。除此之外, 采用通道叠加的图像预处理方式来提取更多的图像特征。在DIV2K和Flickr2K数据集上进行训练, 在Set5和BSDS100等多个基准数据集上进行测试, 实验结果表明, 相较于基准模型IMDN, ILFM在超分辨率系数为2和4且输出更高图片质量的情况下参数量分别降低了63%和61%。对比当前最优的轻量化超分辨率模型, ILFM能够在多个数据集的峰值信噪比(PSNR)和结构相似性(SSIM)上取得平均0.043 78 dB和0.001 3的增长, 具有更优的综合性能。
现有深度多视图立体(MVS)方法将Transformer引入级联网络, 以实现高分辨率深度估计, 从而实现高精确度和完整度的三维重建结果。然而, 基于Transformer的方法受计算成本的限制, 无法扩展到更精细的阶段。为此, 提出一种新颖的跨尺度Transformer的MVS网络, 在不增加额外计算的情况下处理不同阶段的特征表示。引入一种自适应匹配感知Transformer(AMT), 在多个尺度上使用不同的交互式注意力组合。这种组合策略使所提网络能够捕捉图像内部的上下文信息, 并增强图像之间的特征关系。此外, 设计双特征引导聚合(DFGA), 将粗糙的全局语义信息嵌入到更精细的代价体构建中, 以进一步增强全局和局部特征的感知。同时, 通过设计一种特征度量损失, 用于评估变换前后的特征偏差, 以减少特征错误匹配对深度估计的影响。实验结果表明, 在DTU数据集中, 所提网络的完整度和整体度量达到0.264、0.302, 在Tanks and temples 2个大场景的重建平均值分别达到64.28、38.03。
动作识别是计算机视觉领域一个重要研究方向。目前, 主流方法在局部动作特征上的关注度不足。部分动作识别方法为关注局部动作特征, 将预定义的人体骨架拆分成左右手、左右腿等多个部分。但是, 这些部分包含的骨架关键点较少, 使得动作特征较相似, 导致识别准确率降低。此外, 已有基于局部动作特征的动作识别方法未充分考虑全局姿态特征, 模型识别准确率不稳定。为此, 提出基于图卷积的局部特征细化动作识别方法。将预定义人体骨骼拓扑图划分为身体、上下肢, 加强模型关注局部动作特征的能力。同时, 设计局部特征细化器, 采用对比学习策略扩大不同种类动作的局部动作特征差异, 缩小同类动作之间的差异, 解决因划分策略造成动作特征相似的问题。在此基础上, 将上下肢与身体的分类结果相结合, 充分利用全局姿态特征, 提高模型的稳定性。实验结果表明, 该方法在NTU RGB+D 60 2个基准数据集X-Sub、X-View的识别准确率分别为93.0%和98.8%, 在NTU RGB+D 120 2个基准数据集X-Sub、X-Set的识别准确率分别为88.8%和90.1%, 能够有效提高动作识别的准确率。
为了应对遥感图像目标检测中小目标像素低、背景复杂、硬件资源有限等问题, 提出一种融合超分辨率(SR)和特征增强的小目标检测模型。采用GhostNet网络中的Ghost卷积层替换YOLOv8网络中的传统卷积层Conv, 在不影响检测精度的情况下降低网络模型的参数量和计算量。在主干网络中, 构建超分辨率辅助增强(SRAE)模块提升图像的分辨率和特征提取能力。利用三层特征融合(TFF)模块, 获取主干网络较低层的空间特征, 改善快速空间金字塔池化(SPPF)层特征空间提取不足的问题, 提高小目标空间定位能力。设计自注意力信息转移(SAT)模块, 在保证模型轻量化的同时增强小目标的语义信息和全局信息。实验结果表明, 改进模型在DIOR数据集上实现了90.5%的mAP@0.5、15.1×106的参数量和30.3×109的每秒浮点运算次数(FLOPs), 相比于其他模型在实现网络轻量化的同时提升了小目标检测精度。
无人机影像中的建筑物提取主要面临两大挑战, 首先是容易受到树木和阴影的遮挡, 导致分割错误, 其次是现有方法常忽略建筑物的形态和多分辨率信息。为了应对这些挑战, 在对抗网络的框架内引入双通道并行的生成器策略, 其中一个通道基于形态驱动的小波变换, 专注于捕获建筑物的形态属性, 包括建筑物的轮廓和结构特征, 另一个通道基于DeepLabv3+, 用于处理建筑物的复杂纹理, 包括表面纹理和细节信息, 这种设计使网络可以从多个方面理解影像中的建筑物特征。同时, 为了应对遮挡问题, 提出一种遮挡感知预处理模块, 该模块能够有效地从深度信息中还原被树木和阴影遮挡的建筑轮廓和纹理信息。为了进一步提高网络识别建筑物特征的能力, 通过特征融合模块引入自适应注意力机制, 并实现一个复合损失函数来增强模型对建筑物结构和形态的敏感度。在两个不同的建筑物数据集上进行实验, 结果表明, 该网络的平均交并比(mIoU)分别达到93.60%和96.60%, F1分数、准确率也分别达到94.90%、94.42%和95.90%、96.42%。实验数据显示, 所提网络可以恢复被遮挡信息同时提高分割精度, 为城市规划、资源管理等应用提供有力支持。
现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能, 然而, 大多数方法通常使用区域视觉特征进行编解码, 导致无法全面利用整幅图像的细粒度信息, 且存在视觉特征混淆问题。为此, 将全景分割引入图像描述生成过程, 使用基于全景分割的掩膜视觉特征代替区域视觉特征, 提出一种全景分割与多视觉特征协同的图像描述生成方法。该方法不仅可以有效解耦视觉表征, 而且能够充分结合掩膜视觉特征和网格视觉特征的优势, 提升图像描述生成的可解释性和描述性能。在MSCOCO标准数据集上进行定量和定性实验, 结果表明, 所提方法不仅可以显著提升现有模型的性能, 同时能够增强图像描述生成过程的可解释性, CIDEr和BLEU-4指标分别达到138.5和41。
伪装图像质量、恢复图像质量和传输安全性是图像隐藏最关注的3个问题。为解决这些问题, 提出一种基于深度可逆网络和差分编码的图像隐藏方法, 并用于保护电力巡检缺陷图像。首先训练深度可逆网络, 利用训练好的可逆缩放网络对电力巡检缺陷图像进行向下缩放。与压缩感知等方法相比, 可逆缩放网络能够恢复质量更高的缺陷图像。然后提出一种新的基于差分编码的嵌入算法, 利用该算法将下缩放的缺陷图像嵌入到封面图像中。不同于现存很多方法直接对原图像像素值进行嵌入, 所提方法先利用差分编码对缺陷图像进行编码, 然后利用最低有效位算法完成嵌入操作, 差分编码后的图像数值集中在更小的范围内, 减少了嵌入对封面图像像素值的损害。实验结果表明, 相较对比方法, 所提方法伪装图像的峰值信噪比(PSNR)提高3.99 dB~16.56 dB, 恢复缺陷图像的PSNR提高12.52 dB~17.02 dB。另外, 该方法对SPAM的抗隐写分析性能优于对比方法。分析结果表明, 所提方法在伪装图像质量、恢复缺陷图像质量和传输安全性方面的表现优于许多先进方法。
当前在自然场景下对中国交通标志进行检测时通常存在检测精度和检测速度不平衡的问题, 为此, 提出一种基于YOLOv5的改进算法。首先根据ShuffleNet V2网络的设计理念, 提出改进型轻量化卷积块来代替YOLOv5中的卷积块, 以减少网络整体的计算量和参数量; 其次提出一个扩大感受野的轻量化模块ASPC来代替原网络中的空间金字塔池化模块SPP, 从而降低网络计算量和参数量同时提升网络的检测精度; 最后把颈部特征融合网络中的上采样模块替换为CARAFE上采样算子, 并提出多尺度通道混洗注意力机制MCSA, 将其添加在CARAFE算子之后, 让网络融合全局与局部的特征信息, 更有效地减少颈部特征融合网络对交通标志特征信息的丢失。在自制的中国多类交通标志数据集CMTSD上进行实验, 结果表明, 改进后的算法模型大小相较于原模型减少了41%, 每秒检测帧数(FPS)提高了9.37, 平均检测识别精度mAP@0.5提升了2.91%, 达到94.76%。改进算法在不同的自然场景下均能达到较好的检测效果, 可以满足实际场景中对交通标志检测的需求。
针对当前主流的交通标志目标检测算法在复杂环境中对小目标检测精度低、存在误检和漏检的问题, 提出一种改进的基于YOLOv8s的交通标志检测算法。该算法在主干网络中使用Pconv卷积并设计C2faster模块, 以实现轻量化网络结构同时维持网络精度。为更好地利用底层和高层特征之间的信息, 并增强区域上下文关联能力, 根据SPPF的思想设计SPPFCSPC模块作为空间金字塔池化模块。通过添加GAM注意力机制进一步增强网络的特征提取能力, 有效提高检测精度。为改善对微小目标的检测能力, 在网络颈部添加四倍下采样分支, 优化目标定位。此外, 使用Focal-EIoU损失函数替换原CIoU损失函数, 对预测框的宽高比进行准确定义, 缓解正负样本不平衡的问题。实验结果表明, 在CCTSDB-2021交通标志数据集上, 改进算法的精确率、召回率和mAP@0.5分别达到86.1%、73.0%和81.2%, 相比原始的YOLOv8s算法分别提高了0.8%、6.3%和6.9%。此外, 该算法在复杂天气和恶劣环境下的误检和漏检问题得到明显改善, 综合检测性能明显优于对比算法, 具有较大的实用价值。
在医学图像噪声标注数据的训练中, 目前常用的方法是根据训练损失对噪声标签数据集进行划分, 以过滤掉噪声标签样本。然而, 这种方法面临两个需要解决的问题, 即如何在筛选出噪声样本的同时尽可能地保留与其损失分布相似的困难样本, 以及如何提高样本利用率, 挖掘隐藏在噪声样本中的有用信息以减轻模型过拟合的问题。为了解决上述问题, 提出一种由样本分布引导的噪声鲁棒学习策略(SGRL), 包括样本划分与半监督对比分类。为了更可靠地区分信息量大的困难样本与有害噪声样本, 介绍一种噪声滤波器样本选择方法。此外, 提出了一种增强匹配对比网络, 使用所有样本进行训练, 从而得到一个具有噪声鲁棒性的分类模型。在此基础上, 利用对比学习作为补充, 进一步对抗对噪声标签的记忆, 提高筛查准确率。实验结果表明, 该方法在5%、10%、20%和40%噪声比的尘肺胸片数据集上均取得了显著的性能提升。与现有的先进方法相比, 该方法的筛查准确率分别平均提升了5.88、7.05、7.59和6.19个百分点, 验证了改进方法的有效性。
心肌梗死(MI)是心血管疾病(CVD)中常见的临床表现形式, 在发病时具有较高的致命性, 因此心肌梗死的快速定位对于避免死亡至关重要。目前基于心电图的心肌梗死位置定位模型在面对患者间的个体差异时泛化性能不足, 同时传统的基于卷积的模型难以深入挖掘心电图导联与心肌梗死位置之间的关系。为解决这些问题, 提出一种基于特征融合的多通道心肌梗死定位模型FF-ANN, 该模型主要由特征融合模块和自适应的多通道注意力模块组成。通过特征融合模块整合临床知识中的关键波型特征(例如Q波、ST段等), 使模型具有多种感受域, 从而在不同维度上捕捉心肌梗死的特征; 利用自适应的多通道注意力模块对融合后的特征进行重新标定, 通过注意力权重加权对应的特征, 使模型聚焦对预测有重要贡献的导联特征。通过在混合数据集PTB上验证模型的拟合能力, 并使用迁移学习的方法将从PTB数据集中学习到的模型架构迁移到PTBXL数据集中进行泛化能力验证, 结果表明, 与现有研究相比, 该模型在患者间方案下实现了约2.5%的提升, 证明了该模型不仅具有较好的定位性能, 也显示优越的泛化能力, 其架构适用于现实世界中辅助心肌梗死定位的诊断。
城市化进程的推进促进了城市物流的快速发展, 城市配送出现多层级的新特性, 但随之出现了交通拥堵和环境污染等问题。基于地铁货运探讨城市多级配送的选址-路径问题, 在物流节点与需求点的分配问题中引入双边匹配理论, 构建以最小化运营成本和最大化匹配满意度为目标的多目标0-1型整数规划模型。设计以地铁站的中心性、配送距离和货运量为基础的匹配偏好指标, 设计需求点与城内中转站匹配满意度的计算方法, 并提出NSGA-Ⅱ与Gale-Shapley算法匹配机制相结合的混合算法对问题进行求解。以上海市部分地铁线路的数据为基础构建案例进行分析, 求得Pareto最优解集合, 通过熵权TOPSIS法来确定目标权重和最优解, 并对城内中转站最大服务能力进行敏感性分析, 结果表明, 同时考虑匹配满意度和运营成本可以获得兼顾“稳定性”和“满意性”的选址-路径方案。此外, 该研究对于建立大都市圈的物流配送体系、缓解城市交通压力以及增强城市物流配送能力都有重要的参考意义。
安全是无人驾驶汽车需要考虑的首要因素, 而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法, 在无人驾驶避障领域取得了很大的进展, 但这些方法未考虑障碍物类型对避障策略的影响。基于对障碍物的准确分类提出一种Classification Security DQN(CSDQN)的车辆行驶决策框架。根据障碍物的不同类型以及环境信息给出具有更高安全性的无人驾驶决策, 达到提高无人驾驶安全性的目的。首先对检测到的障碍物根据障碍物的安全性等级进行分类, 然后根据不同类型障碍物提出安全评估函数, 利用位置的不确定性和基于距离的安全度量来评估安全性, 接着CSDQN决策框架利用障碍物类型、相对位置信息以及安全评估函数进行不断迭代优化获得最终模型。仿真结果表明, 与先进的深度强化学习进行比较, 在多种障碍物的情况下, 采用CSDQN方法相较于DQN和SDQN方法分别提升了43.9%和4.2%的安全性, 以及17.8%和3.7%的稳定性。
针对传统评估教学未充分利用教学过程信息, 导致泛化能力差和预测精度低等问题, 提出一种基于SA-BPNN多模态融合的教学质量评价模型。该模型包括模态特征提取模块和多模态融合预测模块。首先构建全过程多维度的教学质量评价体系, 包括人工评分、在线教育平台和教学视频3种模态数据, 通过自注意力机制改进反向传播神经网络模块(SA-BPNN)提取各模态特征信息。其次鉴于评教过程存在模态数据缺失的可能, 在预测模块的早期融合阶段引入多模态混合融合策略以改进反向传播神经网络(MF-BPNN), 该策略按照特定规则将不同模态的特征信息混合再融合, 以减轻模型对某一模态数据的依赖。随后将融合后的特征信息输入到MF-BPNN模块中, 生成最终的评教结果。该模型融合多模态信息进行评价, 避免了传统评教的主观性, 且混合融合策略提升了模态缺失时的预测精度。在某高校真实数据集上的实验结果表明, 相较于BPNN和GA-BPNN方法, 该模型的均方误差分别提高了2.4~3.9个百分点, 能够高效准确地评估教学质量, 为检验教师教学效果和优化教学管理, 最终全面提升教学质量提供理论支持。
自适应理解和求解语义多变的问题文本是机器解答电学问题的关键挑战, 现有方法多侧重于问题文本的语义分析和结构分析, 无法将问题文本解析为类人解答的求解形式。为此, 构建一种基于序列公式树模型的电学问题解答方法。首先通过问题文本预处理标准化文本元素、关系提取, 生成预编码序列和直陈关系序列。其次使用双向门控循环编码器对预编码序列进行特征编码, 生成隐藏状态序列。再通过构建电学定理图, 使用图卷积神经网络(GCNN)编码器建立直陈关系序列和定理之间的关联关系, 将定理图中的关系结点转化为向量表示, 生成公式结点嵌入状态序列, 并提取不同变量之间的隐含电学关系。最后构建树形结构的解码器对隐藏状态序列和公式节点嵌入状态序列进行解码, 形成问题的序列-公式树结构的求解式, 实现电学问题的可读解答。构建一个包含3 027个电学问题的数据集TexPE-3K, 并对其进行标准化和信息标注。在数据集TexPE-3K上的实验结果表明, 关系提取的平均准确率达到了96.8%, 可读解答的平均准确率达到了55.57%, 验证了该方法的可行性和有效性。