人工智能(AI)的快速发展已为众多领域赋能, 对社会带来了深远的影响, 其出色的处理效果、广泛的适用性以及强大的扩展能力, 为高校信息化服务提供了坚实的技术基础。从AI和高校信息化的发展史出发, 探讨了两者的发展历程及其关联, 在国内外高校信息化建设中, 尽管各自对AI的关注点有所不同, 但均展现了其在提升教育质量、优化管理流程等方面的巨大潜力。从聚焦高校信息化建设者的角度, 在教师教学、学生学习、学校管理、教学评估、智能考试等五大核心领域, 详尽归纳并分析了AI赋能高校信息化中的典型应用案例, 展现了其如何有效提升教育质量与管理效率, 同时指出了AI在高校信息化应用过程中可能面临的数据隐私保护、算法偏见、技术依赖风险等问题, 列举了常见的应对策略, 如加强数据安全防护、优化算法透明度与公平性、培养师生信息素养等。基于这些分析, 进一步展望了AI在高校信息化中的未来优化方向, 强调技术创新与伦理规范并重, 倡导建立跨学科合作机制, 共同推动AI技术在高校信息化领域的健康、可持续发展。
智能合约是第二代区块链以太坊的核心, 涉及大量资金流动, 因部署在公有链上易遭黑客攻击。因此, 检测合约潜在漏洞以确保其安全性至关重要。然而, 现有检测方法难以应对攻击代码结构性欺骗、深入解析程序逻辑、缓解状态空间爆炸等情况。为此, 构建一种基于Petri网的智能合约攻击者建模检测框架, 利用抽象语义规则和网络动态运行特性精确捕捉攻击行为, 确保智能合约检测的高适配性和高准确性。同时, 提出一种多层次漏洞统一检测方法, 结合各层次漏洞的关键特征, 推导攻击可能性及其潜在影响。针对状态空间爆炸问题, 设计一种按需生成状态空间的缓解机制, 有效提升了检测效率和资源利用率。实验结果表明, 所提检测方法具有可行性与实用性。
随着多媒体和数据采集技术的快速发展, 多视角数据越来越常见。相比于单视角数据, 多视角数据可以提供更丰富的描述信息, 提高样本结构信息的挖掘效率。针对多视角子空间聚类任务, 提出基于双跨视角相关性检测的多视角子空间聚类算法。首先, 考虑噪声干扰和高维数据冗余性对多视角聚类效果的影响, 采用线性投影变换来获得原始数据的低维低冗余潜在表示, 并利用其进行自表示学习获得准确的子空间表示。其次, 为了充分挖掘多视角数据的互补性信息, 对潜在特征表示和子空间表示进行跨视角相关性关系检测, 具体为: 将多视角潜在特征视为低层次表示, 利用希尔伯特-施密特独立性准则(HSIC)探索和保留多视角特征的多样性属性; 对于包含一致的高层次聚类结构信息的多视角子空间表示, 引入低秩张量约束充分捕获跨视角高阶相关性关系和互补性信息。最后, 采用增广拉格朗日乘子交替方向极小化算法求解模型的优化问题。在真实数据上的实验结果表明, 与对比方法中的次优方法相比, 该算法在6个基准数据集上的聚类准确率分别提高了3.00、3.60、1.90、2.00、7.50和1.90百分点, 该结果验证了该算法的优越性和有效性。
在颅脑CT血管造影(CTA)图像中, 脑血管形态各异、分布分散且不同患者之间差异较大。这导致利用U-Net进行血管分割时对血管局部形态的适应性不足, 容易忽略分散目标之间的相关性, 且在下采样过程中会丢失小尺度血管信息。针对以上问题, 在U-Net的基础上进行改进, 提出一种基于多尺度聚合和高分辨率增强的血管分割网络BVU-Net。在编码器的瓶颈层设计一种结合空洞变形金字塔(DDP)路径与全局注意力(GA)路径的多尺度特征聚合(MSFA)模块, 旨在同时捕获血管的不同尺度的局部形态特征和全局空间相关性特征。在跳跃连接路径中设计高分辨率特征增强(HRFE)模块, 使模型能充分利用语义信息更丰富的高级特征, 提高浅层高分辨率特征的表征能力, 补充小血管信息, 进一步提升血管分割精度。BVU-Net模型在公开数据集3D-IRCADb和私有数据集GLCTA上进行实验验证, Dice指标分别达到0.787 2和0.924 8, 平均交并比(MIoU)指标分别达到0.832 2和0.932 1。上述结果表明, BVU-Net模型的表现优于其他基于U-Net的改进分割模型, 具有一定泛化能力, 为后续的临床治疗和预后分析提供了更有力的参考。
网络异常检测的目的在于及时识别并响应网络中的恶意活动和潜在威胁。大多数基于图嵌入的异常检测方法主要用于静态图, 忽略了细粒度的时间信息, 无法捕获动态网络行为的连续性, 从而降低了网络异常检测性能。为了提高动态网络异常检测的效率和准确性, 提出一个融合动态图嵌入和Transformer自编码器的网络异常检测方法。该方法利用时间游走的图嵌入技术捕获网络拓扑结构和细粒度的时间信息, 结合对比损失的Transformer自编码器来优化节点嵌入表示并捕获长期依赖和全局信息, 增强了模型对动态网络的感知能力, 能更好地捕捉动态网络中随时间变化的事件, 识别网络中的恶意行为。在公开的网络安全领域数据集上进行的大量实验结果表明, 该方法在LANL-2015数据集上的真阳率(TPR)为94.3%、假阳率(FPR)为5.7%、曲线下面积(AUC)为98.3%, 在OpTC数据集上的TPR为99.9%、FPR为0.01%、AUC为99.9%, 异常检测结果优于基准方法。上述结果说明了该方法可以有效地学习动态网络中的拓扑和长短期时间依赖信息, 识别网络中的异常行为。
无人机(UAV)多目标跟踪技术在交通运营、安全监测、水域巡检等领域受到广泛关注。然而, 目前已有的多目标跟踪算法多用于单无人机多目标跟踪, 而单无人机的视角通常具有一定的局限性, 当目标被遮挡时目标发生ID切换会导致跟踪失败。为了解决该问题, 提出一种多无人机多目标跟踪(MUMTTrack)算法。采用基于检测的跟踪(TBD)范式, 利用多架无人机同时跟踪目标, 弥补单无人机视角的局限性。为了有效融合多架无人机的跟踪结果, 为MUMTTrack设计一种基于加速鲁棒特征(SURF)算法的图像匹配策略和ID分配策略。将MUMTTrack算法的性能与当前主流的单无人机多目标跟踪算法在MDMT数据集上进行实验比较。实验结果表明, MUMTTrack算法在识别F1(IDF1)值和多目标跟踪精度(MOTA)这两个多目标跟踪性能指标上均表现出明显的优势。
针对序列上连续决策问题, 诸如故障告警根因定位问题, 强化学习(RL)已经成为一种重要的解决方法, 但现有强化学习方法存在样本效率低、探索成本高昂等问题, 阻碍了其广泛应用。研究表明, 引入因果知识为提升强化学习智能体的决策可解释性和样本效率提供了巨大潜力。然而, 现有方法大多停留在隐式建模环境因果关系, 未能直接利用因果结构知识。提出一种两阶段因果强化学习算法, 第一阶段基于观察数据用因果模型对环境变量进行显式建模, 第二阶段基于所学因果结构进一步构造因果掩码来增强策略, 帮助缩小决策空间, 减小探索风险。由于缺乏允许直接因果推理的公共基准环境, 在模拟故障告警环境中设计根因定位任务, 并在不同维度的环境中通过对比实验证明所提算法的有效性和鲁棒性。实验结果表明, 所提算法在累积奖励指标上相比现有的主流强化学习SAC (Soft Actor-Critic)算法, 在低维环境下提升了13%, 在高维环境下提升了79%, 而且仅需少数的探索即可收敛策略, 样本效率在低维和高维环境下分别提升了27%和52%。
为了解决低光照条件下校园环境等场景监控摄像头图像质量和监控效果受影响而带来的安全问题, 提出一种低光照显著性目标检测(SOD)方法, 以提高低光照条件下目标检测能力。针对低光照条件下图像的显著性特征弱化和缺乏大规模标注数据的问题, 提出一种无源领域自适应(SFDA)方法, 将正常光照图像(源域)下训练的模型知识迁移至低光照条件图像(目标域)。该方法采用两阶段策略: 在第一阶段, 利用源域模型生成低光照图像的伪标签, 为提高伪标签生成的质量, 提出集合熵最小化损失抑制高熵区域, 同时引入选择性投票方法来增强伪标签的生成; 在第二阶段, 采用基于增强引导一致性的教师-学生网络自训练方法对显著图进行精细化, 进一步提高检测结果的精度。在SOD-LL数据集上的实验结果表明, 所提出的方法在低光照场景下总体性能优于其他图像显著性检测方法, 相较于正常光照的SOD方法, 其平均绝对误差(MAE)降低15.15%, 加权F1值(wFm)提高4.73%。
在室内环境中, 不同房间类别的相同物体具有完全不同的用途, 设计附加房间类别约束的目标驱动导航任务, 在机器人导航、智能家居等领域具有重要应用。为提高房间类别约束目标导航任务的成功率, 设计一种结合映射模块、搜索策略、运动控制策略和房间分类模块的模块化导航算法。输入导航任务后, 映射模块结合RGB-D相机数据和惯导获得的姿态信息在线构建语义地图, 用于记忆已探索过的环境。在基于近端策略优化算法(PPO)框架实现搜索策略时, 为尽快找到地图上最可能存在目标物的坐标, 提出边界点簇的概念, 将其中心坐标作为中继点, 根据每个簇包含的边界点数量评定其中心点探索价值并排序, 用于约束全局目标点, 同时在搜索策略奖励函数中引入边界点约束, 以提高目标点落入已探索区域时的搜索效率。在基于运动控制策略控制机器人向着全局目标点移动的过程中, 针对机器人无法识别房间类别的问题, 采用YOLOv8_cls训练得到房间分类模块辅助进行决策, 从而更好地完成导航任务。分别在仿真环境和现实环境中验证导航任务的可完成性以及算法的有效性。实验结果表明, 所提出的算法相比于同样使用深度强化学习(DRL)作为搜索策略的SemExp (Semantic Exploration)算法, 在未附加以及附加房间类别约束的两类导航任务上, 能够更快地完成地图探索并且导航成功率分别提高2.0%和4.0%, 该算法能够更好地理解环境的语义信息, 完成未知环境中的目标物搜索等导航任务。
注意力机制已经广泛地用于语音情感识别(SER)领域, 但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小, 但是只能对通道维度生成注意力权重。针对这个问题, 提出一种改进ECA (IECA)模块, 该模块以较小的参数量对输入的特征图的各个维度生成对应的权重, 使得模型更关注和利用特征图中的重要信息。此外, 为了进一步提升识别率, 分别提取语音的语谱图特征和IS10特征, 通过融合网络对不同支路的预测结果进行决策融合, 得到最终的预测结果。所提出的模型在EMODB和CASIA两个语音情感数据集上分别取得了91.63%、92.46%的加权准确率(WA)和91.25%、92.33%的未加权平均召回率(UAR), 相较之前的研究结果分别有2.69~8.43和4.16~10.69百分点的提升。
在物联网(IoT)场景中, 数据在采集和传输过程中易受噪声的干扰, 导致数据中存在一定的离群值与缺失值。现有的时间正则化矩阵分解模型通常考虑平方损失来衡量重构误差, 忽略了处理存在异常数据的多维时间序列时, 矩阵分解的质量同样是影响模型预测性能的关键因素。提出一种基于L2, log范数的时间感知鲁棒非负矩阵分解多维时序预测框架(TARNMF)。TARNMF通过非负矩阵分解(NMF)和参数可学习的自回归(AR)时间正则项建立多维时序数据的时空相关性, 基于存在离群值的数据服从拉普拉斯分布的假设, 使用L2, log范数来估计非负鲁棒矩阵分解中原始数据和重建矩阵的误差, 以减小异常数据对预测模型的干扰。L2, log范数具备现有鲁棒度量函数的性质, 解决了L1损失的近似问题, 并通过压缩异常值的残差来减少其对目标函数的影响。此外, 提出一种基于投影梯度下降的优化方法对模型进行优化。实验结果表明, TARNMF具有良好的可扩展性和鲁棒性, 尤其在高维Solar数据集上, 较次优结果的相对平均绝对误差降低了8.64%。同时, 在噪声数据上的实验结果验证了TARNMF能高效地处理和预测存在异常数据的IoT时序数据。
为提升深度学习模型中三维卷积提取时空特征的有效性, 提出一种基于时空置换注意力(SAT)机制的残差行为识别模型。SAT机制是由通道结合时间和空间注意力子模块组成的轻量化的多维度混合注意力机制, 其在通道注意力中增加了结合时间的维度, 获取时间与通道信息; 在空间注意力中压缩冗余的时间信息, 提升对空间特征的关注度, 对提取的特征进行通道置乱及通道重组, 提升模型对数据的表征能力并减少参数量。该模型使用Resnext残差网络提取时空特征, 在残差模块中嵌入SAT模块, 利用注意力模块自主学习不同特征图的权重参数, 针对性地对提取的特征在通道、时间、空间域加权, 增强网络对人体行为的表达能力, 使用改进的交叉熵函数Focal Loss作为损失函数, 解决数据集中可能存在的样本分布不均衡的问题。实验结果表明, 该模型在UCF101以及HMDB51数据集上的识别准确率分别达到了96.3%以及71.6%, 相较于其他对比模型均有显著提升。
小样本关系分类(FSRC)是指在任务中使用少量标注实例对各种关系进行分类, 可快速适用于对全新的类别进行归类。然而, 当测试域与训练域之间存在分布差异时, 现有的小样本分类算法泛化能力有限, 导致分类性能下降。针对该问题, 提出一种适用于领域适应任务的知识增强自适应原型网络。通过探索实例之间的联系以提高模型的鲁棒性, 同时学习关于关系的先验知识和内在语义以获得可解释原型。通过引入交互注意力机制来捕捉支持实例与查询实例之间的相关性, 突出关键实例, 并生成交互实例。同时, 自适应原型融合机制以关系信息为锚点生成自适应混合系数, 通过特征融合将实例与关系信息相结合, 从而生成混合原型。在公开数据集FewRel 1.0和FewRel 2.0上的实验结果验证了该网络的有效性。实验结果表明, 与基线模型相比, 所提网络模型的分类准确率取得了显著提升, 具有更好的分类效果与稳定性。
密度峰值聚类(DPC)算法可以发现任意形状的簇, 对噪声具有鲁棒性, 因此被广泛应用于各个领域。但DPC算法需要人工选取聚类中心, 对于密度不均匀型数据集表现较差。为此, 提出一种基于高斯分布的自适应密度峰值聚类算法。首先, 计算局部密度和相对距离的乘积θi, 通过Z-score标准化方法, 将θi映射到符合高斯分布的二维空间中, 利用高斯分布的标准偏差来自适应选取聚类中心, 得到聚类中心集合; 其次, 将其余数据点分配到离其最近的聚类中心所在的簇中, 得到初步划分结果; 最后, 设计缝合因子模型, 计算簇间缝合系数, 当缝合系数大于阈值时合并初步划分结果中最相似簇并更新相似度矩阵, 直至完成合并得到最终结果。在人工数据集和真实数据集上的实验结果表明, 与DBSCAN算法、DPC算法和ICKDC算法对比, 所提算法的聚类准确度更高, 聚类性能更佳。
由于没有跳跃连接结构的深度神经网络在超过一定深度后难以训练, 因此现有的深度神经网络模型大都采用跳跃连接结构来解决优化问题并提高泛化性能。然而, 人们对于跳跃连接结构如何影响深度神经网络特征提取的研究还较少, 在大多数情况下, 这些模型仍然被认为是黑盒。为了分析跳跃连接结构对深度神经网络特征提取的影响, 从特征可视化的角度, 以基于扰动的方法为切入点, 提出一种在保持图像总体颜色分布和轮廓特征基本不变的前提下弱化图像细节特征的扰动方法, 并将其命名为网格乱序模糊(GSB)方法。同时, 研究结合特征可视化中的激活最大化(AM)方法和所提出的GSB扰动方法, 分析了拥有不同程度跳跃连接结构的经典图像分类深度神经网络模型VGG 19, ResNet 50和DenseNet 201。实验结果表明, 没有跳跃连接结构的深度神经网络只提取了图像中较强的特征, 提取的特征数量比较少, 而拥有跳跃连接结构的深度神经网络提取了图像中更多的特征, 但是这些特征相对较弱; 跳跃连接结构使模型更关注图像的局部颜色分布和全局总体轮廓, 而不过多依赖图像细节特征, 并且跳跃连接结构越密集, 这种趋势越强。
基于Transformer的目标跟踪方法广泛应用在计算机视觉领域, 并取得了优异的效果。但是, 由于在实际跟踪任务中受目标变换、目标遮挡、光照变化以及目标快速运动等因素的影响, 导致目标信息发生变化, 现有方法对目标模板变化信息利用不足, 限制了跟踪性能的提高。为此, 通过附加一条动态模板更新分支反映目标最新的外观和运动状态, 提出一种基于实时动态模板更新的Transformer目标跟踪方法TransTRDT。该分支通过模板质量评分头对模板是否更新进行判断, 当判定可以进行更新时, 随后将初始模板、前一帧动态模板以及裁剪后的最新预测结果传入动态模板更新网络中更新动态模板, 通过获取更可靠的模板从而实现更准确的目标跟踪。在公共数据集上的实验结果表明, TransTRDT在GOT-10k、LaSOT以及TrackingNet上的跟踪性能优于SwinTrack和StarK等算法, 在OTB100中的跟踪成功率为71.9%, 跟踪速度为36.82帧/s, 达到目前行业的领先水平。
当前语音情感识别中因情感特征提取不充分和模型对复杂情感表达建模能力不足, 导致识别准确率降低。为了提高当前语音情感识别准确率, 提出一种基于记忆胶囊和注意力的语音情感识别方法。首先, 提取了语音中梅尔频率倒谱系数(MFCC)、能量的均方根(RMS)、梅尔语谱图、过零率(ZCR)、色度分布5种特征; 然后, 在MFCC特征的基础上, 提取MFCC的一阶、二阶和三阶差分动态特征, 并将其拼接; 最后, 将这些特征堆叠成一维向量的形式, 通过引入记忆胶囊和注意力机制所构建的模型, 完成对语音情感识别分类工作。实验结果表明, 所提的模型具有较好的泛化性和鲁棒性, 有效提升了语音情感识别的准确率, 在RAVDESS、EMODB和IEMOCAP 3个数据集上的准确率分别达到了95.87%、98.82%和98.23%, 与现有的方法相比, 识别准确率均得到了有效提升。
开发漏洞利用程序是评估内核漏洞可利用性的主要方式。堆喷对象在漏洞利用过程中被广泛使用, 以完成数据注入、内存布局等恶意行为。现有堆喷对象的研究忽略了基本类型的堆喷对象, 无法生成能够编辑堆喷对象内容的代码。为此, 提出面向内核漏洞利用的堆喷对象控制代码自动化生成技术。该技术包含了基于使用-定义链分析的堆喷对象识别和基于导向式模糊测试的堆喷对象控制代码生成。通过使用-定义链分析静态识别出目标内核中的堆喷对象及能够操控这些对象的关键代码位置; 将识别到的关键代码作为目标点, 利用导向式模糊测试技术动态生成目标堆喷对象的控制代码, 以辅助漏洞利用。实验结果表明, 该技术能够在Linux 5.15版本的内核中识别并生成28个堆喷对象的控制代码, 覆盖了现有研究识别到的所有堆喷对象。生成的控制代码中共有23个能控制堆喷对象完成预期目标, 成功率为82.1%。案例分析表明, 该技术生成的控制代码应用于真实内核漏洞的利用程序开发中。
由于云服务器能够提供强大的存储和计算能力, 因此个人和企业更趋向于将加密数据存储于云端。为了解决密文数据检索困难的问题, 利用同态加密的密文检索方式成为研究热点。然而, 现有的方案主要集中在单关键词检索上, 由于检索限制条件较少、搜索精度较低, 从而导致通信和计算开销较大。另外, 将数据托管到第三方提供的不可信云主机上, 可能出现删除、修改、返回不真实和不全面的搜索信息等恶意情况。为此, 基于全同态加密和不经意伪随机函数提出一种新型的密文检索方案。通过构造加密的关键词索引和哈希表, 使得方案能够支持多关键词的连接查询。利用文件的标识和大小生成验证标签, 使得数据接收者能够对检索结果的正确性和完整性进行验证。理论分析和实验结果表明, 相比于基于全同态加密的单关键词检索方案, 在检索2~3个多关键词时, 所提方案的密文搜索效率提升36.2%~45.9%, 并且在检索更多关键词时拥有更好的综合性能。
为了加强无线传感器网络(WSN)中的基站(BS)位置隐私保护强度, 同时解决现有位置隐私保护方案存在的网络能量消耗不平衡问题, 提出一种基于环结构的BS位置隐私保护路由协议(RBRP)。RBRP通过建立多环结构的网络拓扑模型并设计基于环结构的数据路由, 以解决能量不平衡的问题, 延长网络寿命。同时, 该协议在网络中注入假基站(FBS), 在网络中远离BS的位置产生流量通信, 从而干扰攻击者通过流量分析来确定BS位置。实验结果表明, 与现有方案相比, RBRP不仅能够提高WSN中BS的位置隐私性, 在源节点与BS处于同环或相邻环时其传输时延也能占据优势, 还可以有效平衡能量消耗, 延长网络生命周期。
介绍涉案新闻主题分析的应用场景以及现有方法的不足之处。针对这些不足, 提出一种融合罪名分类的主题分析模型BERT-ECTM。该模型利用法律文书中的罪名信息作为监督信号, 与涉案新闻文本相融合作为主题分析模型的输入, 以提高涉案新闻主题信息的准确性和涉案偏好。为了捕捉上下文语义特征, 采用基于BERT编码的嵌入式主题分析方法, 以提高主题分析的准确性和效果。此外, 在模型训练时, 针对边际分布求解难度较大、复杂程度高这一问题, 结合变分推断的方法, 用后验分布的近似分布来拟合其分布结果。实验结果表明, 在特定的涉案新闻主题分析任务中, 该模型的有效性和准确性相比于现有方法均有明显提升。
针对车联网(IoV)中传统共识算法存在的通信开销大、主节点选取随意的问题, 提出一种基于信誉机制的IoV共识算法RHotStuff。将IoV中的车辆和路旁单元(RSU)作为节点组成共识网络, 同时引入投票积极度、历史影响程度、信誉惩罚因子等指标来实现信誉机制, 用于评估节点的信誉分数, 衡量其可信程度。根据信誉分数将节点划分为主节点、从节点和候选节点。在共识开始前, 仅选取信誉分数较高的部分节点作为主节点, 和从节点参与共识, 以降低通信开销并提高共识性能, 其中主节点由信誉分数最高的节点担任, 以降低主节点的可预测性。在共识完成后, 信誉分数将重新计算, 并据此选择下一轮参与共识的节点。此外, 主节点会在Reply阶段将共识结果发送给其他所有节点, 以同步信誉分数和区块。实验结果表明, RHotStuff具有O(N)的通信复杂度, 并且其共识成功率相较于C-HotStuff提升了约30%。当节点数量为93时, RHotStuff的共识吞吐量相较于R-PBFT提高了11.68%, 同时其共识时延降低了11.74%。综合来看, RHotStuff优化了主节点选取方式, 具有较低的通信开销和共识时延, 同时获得了较高的共识成功率和共识吞吐量, 对提升IoV通信效率、推动智能交通的发展具有重要意义。
单幅图像反射去除是计算机视觉领域的一项重要任务。然而, 现有的图像反射去除模型都基于反射污染区域属于模糊型反射这一前提, 即反射区域仍然保留原始的图像内容信息。当污染图像中存在光斑反射时, 图像原始内容信息完全丢失, 导致现有模型无法从光斑区域中提取原始图像的透射层信息, 从而使模型失效。针对这一问题, 提出一种能够同时去除光斑与模糊反射的新模型, 通过自定义的反射分类器和结构恢复器引导模型预测图像透射层的梯度图, 并以此作为辅助条件, 最终生成纯净的透射层图像。实验结果表明, 该模型对不同类别的反射图像均具有较好的泛化性能, 在艺术图像唐卡上, 模型在结构相似度(SSIM)与峰值信噪比(PSNR)指标上均优于当前最优的反射去除模型, 其中SSIM与最优模型相比提升了1.6%, PSNR提升了5.5%。在公共的自然场景数据集上的实验结果也表明该模型与当前最优模型性能相当。
有轨电车因采用共享路权和司机目视行车的方式运行, 与地铁、磁悬浮等城市轨道交通相比, 更容易和入侵障碍物发生碰撞。因此, 为了保障有轨电车的运行安全, 提出一种基于实例分割和单目视觉的有轨电车障碍物时空距离计算方法。首先基于实例分割模型提取出障碍物和轨行区的轮廓点; 然后基于单目视觉原理建立单目视觉测距模型, 在引入有轨电车轨道标准轨距长度1.435 m作为先验知识后, 实现在相机无标定情况下障碍物与列车的纵向距离计算; 最后根据障碍物距离轨行区最近的点及对应的轨道端点计算障碍物与轨行区的横向距离。该方法通过引入有轨电车标准轨距长度作为先验知识计算障碍物的时空距离, 填补了轨道交通领域障碍物时空距离计算研究的空白, 并且通过引入实例分割模型, 以像素级精度确定障碍物测距关键点, 实现了障碍物时空距离的精准计算。通过从现实场景中拍摄的实验数据来验证所提方法的可行性, 实验结果表明, 该方法的纵向距离计算结果的最大正误差为1.60 m, 最大负误差为1.05 m, 距离计算结果具有较高的准确度。
钢材表面缺陷形状不规则、尺度不一、背景复杂等因素大大增加了钢材表面缺陷检测的难度。针对现有方法检测精度低、检测速度小、小目标缺陷难以检测等问题, 提出了一种基于感受野块(RFB)和YOLOv5特征增强融合改进的钢材表面缺陷检测(RFB-YOLOv5-E)模型, 以提高对钢材表面缺陷的识别率。首先, 对YOLOv5中的C3模块进行修改, 将其升级为C3s模块, 通过增加更多的梯度流分支来获取更多的梯度信息, 从而提高模型的准确度; 然后改进浅层特征提取网络, 添加特征增强函数以增大背景与缺陷间的差距, 再增加一个下采样层和一个检测头以扩大网络的深度和感受野, 进而提高特征提取的能力和检测能力; 此外, 还改进了RFB并替换YOLOv5主干网络中的空间金字塔池化(SPPF)模块, 通过模拟人类视觉进一步增大感受野, 进一步强化网络的特征提取能力。实验结果表明, RFB-YOLOv5-E算法在NEU-DET数据集上的均值平均精度(AmAP)达到了79.2%, 较原YOLOv5算法提高了8.5%, 检测速度为122帧/s, 实现了检测速度与检测精度更好的均衡。
有效的道路表面裂缝检测是维护道路安全、延长道路寿命的关键。针对传统道路表面裂缝检测方法存在的难以识别细小裂缝、分割断裂以及分割精度低等问题, 提出了一种改进DeepLabv3+的道路表面裂缝检测方法, 旨在降低模型参数量的同时提高裂缝检测的准确性。首先, 使用优化后的MobileNetv2网络替换基础DeepLabv3+模型的主干网络, 以降低模型的参数量和复杂度, 提高运行速度; 其次, 将条形池化模块(SPM)融入空洞空间金字塔池化(ASPP)模块, 使得网络能够捕获到更多的裂缝上下文信息, 保留裂缝细小部分的特征; 最后, 引入卷积块注意力模块(CBAM), 使网络更加关注图像中对裂缝检测起决定作用的像素区域, 增强裂缝图像的特征表达能力。实验结果显示, 改进DeepLabv3+模型的平均像素准确率(MPA)为87.85%, 平均交并比(MIoU)为80.53%, 准确率为97.51%, 精确率为88.65%, F1值为88.24%, 相比于基础DeepLabv3+模型分别提高了1.77%、2.03%、0.30%、2.25%和1.51%, 且高于U-Net、HR-Net和PSP-Net模型。此外, 改进DeepLabv3+模型的参数量为6.382×106, 是基础DeepLabv3+模型的88.3%, 实时性更好, 更适用于道路表面裂缝检测任务。
立体匹配的精度直接决定了后续三维场景信息恢复的准确度, 提高视差图的精度一直是研究的热点问题。传统的立体匹配方法对图像的局部结构表达不够精准, 对相似结构区域内的点或前景和背景交界处及含有错误代价点的处理效果不理想。针对以上问题, 提出一种基于四梯度多特征代价和四权重滤波的立体匹配方法。由图像灰度和四方向梯度组成多特征空间, 通过二次编码计算多特征Census变换代价, 再结合多特征绝对误差(AD)代价形成多特征代价, 提升局部结构的表达准确度; 以空间邻近度、像素值相似度、区域相似度和代价相似度四权重构建的滤波核进行代价聚合, 降低异常代价的聚合权重; 以胜者为王(WTA)算法计算初始视差, 以左右一致性检测进行视差初步修正, 结合自适应窗口和视差阈值进行视差优化。在Middlebury V3立体平台上的实验结果表明, 该方法在非遮挡区域和全部区域加权平均的bad4.0分别为14.7%和20.6%, 效能显著优于现有的传统立体匹配算法。
在基于骨架的人体行为识别领域, 图卷积网络(GCN)在近年来取得了很大的进展, 但现有GCN大多将时间卷积和空间卷积简单串联, 导致时空特征融合效果不佳。另外, 现有模型还存在无法高效提取时间特征的问题。为此, 提出扩展时间和时空特征融合图卷积网络(ETFF-GCN)。该网络采用通道聚合的方法对动态空间拓扑和时序特征进行一次融合, 然后运用注意力机制进行二次融合, 进一步增强融合效果。在此基础上, 为了全面提取时序特征, 采用多个不同大小的卷积核构建时域图卷积, 以提取多尺度和多粒度的时间特征, 并引入有效压缩激励模块进行特征增强, 提升特征表达能力。在3个大型数据集上对所提出的方法进行评估, 实验结果表明, 该方法的性能优于现有的方法。
换装行人重识别旨在检索穿着不同服装的目标行人。现有方法通过引入额外信息(如轮廓、步态、3D信息)辅助学习服装无关特征。但受光照、姿态变化等因素的影响, 提取的生物特征可能存在误差。为提高准确性, 探索对比语言-图像预训练(CLIP)在该任务的应用, 提出CLIP驱动的细粒度特征增强方法(CFFE)。首先建模CLIP提取的类文本特征和图像特征的潜在内在联系, 然后引入显著性特征保留模块和显著性特征引导模块。显著性特征保留模块利用注意力掩码定位服装相关的前景区域, 进而擦除该部分特征, 使网络关注有效的非服装特征, 显著性特征引导模块通过注意力机制进一步关注行人的重要局部和全局特征。实验结果表明, 该方法在LTCC、PRCC和VC-Clothes数据集上的检测精度分别达到42.1%、71.1%和89.9%, 与AIM、CAL等算法相比, 能够提取到更细粒度的特征, 在多项指标上有明显提升。
智慧社区场景下的行人检测需要精准识别行人以应对各类情况的发生, 然而面对遮挡和远距离行人的情景, 现有检测器会出现漏检、误检以及模型过大不易部署的问题。针对以上问题, 提出基于YOLOv8的行人检测算法ME-YOLO。设计一种高效特征提取模块(EM), 使得网络更好地学习行人特征和捕捉行人特点, 在减少网络参数量的同时提高检测精度。设计一个重构的检测头模块, 重新整合后的检测层增强了网络对小目标的识别能力, 有效检测小目标行人。引入双向特征金字塔网络来设计新的颈部网络, 即双向扩张残差-特征金字塔网络(BDR-FPN), 利用扩张残差模块和附权注意力机制来扩展感受野及有所侧重地学习行人特征, 缓解网络对遮挡行人不敏感问题。实验结果表明, 在CityPersons数据集上进行训练和验证, 相比原算法YOLOv8, ME-YOLO算法的AP50提高了5.6百分点, 模型参数量减少了41%, 模型大小压缩了40%, 在TinyPerson数据集上验证算法的有效性和泛化性, AP50提高了4.1百分点, AP50∶95提高了1.7百分点。该算法在大幅度减少模型参数和大小的同时, 有效提高了检测精度, 在智慧社区场景中有较好的应用价值。
在制造单元不再唯一且加工时间不确定的柔性作业车间调度中, 多自动导向小车(AGV)发挥着重要作用。然而当AGV执行任务时间过长、消耗电量较多时, 充电事件成为必须考虑的因素。该研究旨在解决考虑电池约束条件下的多AGV的柔性车间作业调度问题。综合考虑制造单元加工时间、AGV小车搬运时间以及AGV小车充电情况等约束条件, 以优化最大完工时间为目标。针对此问题建立数学模型, 将文化基因算法和自适应变邻域搜索算法相结合提出一种混合文化基因算法。该算法采用文化基因算法作为框架, 并引入基于析取图的关键路径方法, 以解决制造单元和AGV小车滞空率高的问题。同时, 为了提高算法的寻优能力, 避免陷入局部最优解, 利用自适应变邻域搜索对当前迭代中的最优解进行改进。针对模型特点, 设计多种打破重组的邻域结构, 以实现算法求解最优值的目标。仿真实验结果表明, 该算法具有寻找最优解的能力且整体性能优于所对比的算法, 验证了该算法的有效性。
基于深度学习的鱼苗检测在水产养殖中的应用为自动化和精确化管理提供了可能。针对鱼苗检测中设备性能低、实时性要求高等问题, 提出一种改进YOLOv8的轻量化鱼苗检测算法FD-YOLO。将快速网络(FasterNet)替换YOLOv8原CSPDarkNet特征提取网络, 采用局部卷积(PConv)减少冗余计算和内存访问。在特征融合中引入深度可分离卷积(DWConv), 将标准卷积过程分解为相对简单的深度卷积和逐点卷积两个步骤并行处理, 进一步减少模型的复杂性和计算资源消耗。使用Focal-EIoU作为模型损失函数, 提高检测精度, 使得模型更具鲁棒性。实验结果表明, 改进后的检测模型参数量和计算量大幅降低, 模型参数量下降了91%, 计算量下降了85%, 在CPU上的推理速度加快了3倍。改进后的鱼苗检测算法能更好地兼顾高精度和实时性之间的平衡, 便于部署在资源有限的硬件平台上。
针对电力负荷数据存在非平稳性且传统预测模型不能精确获取时序负荷数据的空间相关性和时间依赖性, 导致预测精度低的问题, 设计并实现一种基于完全集成经验模式分解的自适应噪声完备性(CEEMDAN)和频谱图卷积网络的电力负荷预测方法。首先使用CEEMDAN将目标负荷序列分解为多个本征模态分量(IMF), 通过计算模糊熵对IMF进行重构; 然后使用频谱时间图卷积网络对重构后分量的空间相关性和时间依赖性进行挖掘, 得到各分量的预测结果; 最后将各分量的预测结果线性相加得到最终预测结果。实验结果表明, 所提方法的平均绝对误差、均方根误差、平均绝对百分比误差3个评价指标分别达到了0.72 KW、0.89 KW、0.92%, 相较于对比模型StemGnn、TCN、LSTM、Informer、FEDformer, 预测精度分别提高了37.9%、17.2%、20.8%、22.5%、12.1%。证明本文所提出的预测方法可以有效降低非平稳性对预测结果的影响, 精确获取时序负荷数据的空间相关性和时间依赖性, 提高预测精度。
交通预测领域面临传统时空建模方法难以有效捕获长程依赖关系、固定时间窗口机制无法适应动态时序模式以及基于统计学的传统模型在复杂拓扑关系建模方面存在局限性3个主要挑战。针对上述问题, 提出基于连续时序的高效图注意力网络(T-EGAT)。首先设计高效多头自注意力机制(EMSA), 采用参数共享和稀疏计算策略, 将注意力头的计算复杂度从O(N)降低到O(NlogaN); 其次开发线性时序扩展模块, 通过可学习的时序卷积核将时间感知范围从固定K步扩展到K+Δ步的弹性窗口, 其中Δ∈为自适应调整参数; 最后构建动态图推理架构, 利用图神经网络(GNNs)的邻域聚合特性, 在每个时间步自动生成包含83个交通要素的拓扑关系矩阵。实验结果表明, 在PeMSD4、METR-LA等5个基准数据集上, T-EGAT相较16种基线模型(包括DCRNN、GraphWaveNet、ASTGCN等)取得显著提升, 平均绝对误差(MAE)降低了2.77%~5.97%, 均方根误差(RMSE)改善了3.12%~6.44%, 单步预测时间缩短了1.41%~2.3%。消融实验结果表明, EMSA带来42%的精度提升, 时序扩展模块减少了17%的长时预测误差, 动态图生成机制提高了29%的拓扑建模准确率。该模型在突发交通事故场景下表现出更强的鲁棒性, 异常事件检测F1值达到0.873, 较传统方法提升了21.5%。该方案为实时交通管理系统提供了新的技术框架, 其弹性时序建模机制和高效注意力架构为时空预测任务提供了普适性解决方案。
现有选择性众包模式大多考虑从配送中心或中转站集中取货后再进行配送的场景, 无法满足工业互联网平台需要从分布式制造企业取货后配送给行业用户的现实需求。针对物流服务选择性众包的多车辆多起始点取送货路径规划问题, 构建以社会车辆和专用车辆差异化起始点和终点、取送货点对应关系等为约束及以社会车辆物流服务报价和专用车辆配送成本之和最小化为决策目标的整数线性规划模型。设计改进的模因算法(IMA), 开发基于概率的正逆混合交叉(MPNC)算子、路径间邻域搜索(VNS)和路径内邻域搜索(PNS)混合策略及其对应的两阶段路径修复方法。实验结果表明, MPNC算子比传统的部分交叉算子能够在更短的时间内获得更丰富的种群多样性, VNS和PNS混合策略比单邻域搜索可产生更优的可行解。不同规模的人工算例结果表明, IMA比遗传算法(GA)、模拟退火(SA)和改进的粒子群优化(PSO)等算法在寻优性能和局部脱困能力等方面更具优势, 并且其采用选择性众包相比于采用纯社会车辆和纯专用车辆降低了实际案例的物流服务成本。
在限定场景内, 无人转运车辆在路径规划过程中不能与周围障碍物保持安全距离, 导致发生车辆与障碍物发生剐蹭的问题, 提出基于混合A*算法和修正RS曲线融合的路径规划。首先, 将提出的基于KD-Tree算法的距离代价函数加入到混合A*算法的代价函数中。其次, 改变混合A*算法的扩展策略, 根据车辆周围环境动态改变节点扩展距离, 实现节点的动态扩展, 提高算法的节点搜索效率。最后, 改进混合A*算法的RS曲线生成机制, 使生成的RS曲线直线部分与周围障碍物边界保持平行, 从而符合厂区内道路行驶要求, 通过对局部路径进行平滑处理, 在保证路径符合车辆运动学约束的条件下满足路径曲率变化的连续性, 从而提高生成路径的质量。实验结果表明, 与传统算法相比, 提出算法的搜索时间缩短了38.06%, 最大曲率减少了25.2%, 路径到障碍物的最近距离增加了51.3%, 有效提高了混合A*算法生成路径的质量, 并能较好地在限定场景中运行。