在教育信息化持续推进的背景下, 构建精准且高效的课程知识图谱已成为推动教育个性化发展的关键任务之一。课程知识图谱作为一种结构化的知识表示模型, 旨在揭示课程内容与学习目标之间的复杂关联关系, 以优化教育资源配置, 并为学习者定制个性化的学习路径。围绕课程知识图谱的构建技术进行探讨, 首先阐述知识图谱、教育知识图谱、课程知识图谱的基本概念及其之间的内在联系与显著差异; 其次深入剖析课程知识图谱构建的关键技术, 涵盖课程本体设计、实体抽取、关系抽取等方面, 并对其发展历程、特点及局限性展开详细分析与总结; 再次, 探讨课程知识图谱在学习资源推荐、学习者画像建模和多模态课程知识图谱构建等场景中的应用价值; 最后, 聚焦于课程知识图谱在构建过程中所面临的难题, 如数据多样性和异构性、知识图谱质量难以评估以及多课程交叉融合不足等, 从深度学习、大语言模型(LLM)等前沿技术的角度出发, 对未来的发展趋势进行展望。
口令泄露事件常常涉及用户口令和用户身份信息的泄露。由于用户在多个网络服务中习惯于重用口令, 这使得攻击者能够通过调整泄露的口令来针对性地攻击用户的账户, 称为凭证调整攻击。通过分析大规模的泄露口令和相应的用户身份信息, 发现用户创建口令的策略往往与用户身份信息相关联。然而, 目前关于凭证调整攻击的研究在预测用户调整口令的策略时仅依据泄露口令的结构, 而忽略了泄露的用户身份信息。为了提升凭证调整攻击的准确性, 设计了一种基于用户身份信息的凭证调整攻击优化方法。在预处理阶段, 从用户身份信息中提取用户名信息和地域信息, 按照地域统计用户选择不同口令创建策略的概率。在训练阶段, 结合地域信息学习用户在泄露口令上采取的字符级编辑操作。在口令生成阶段, 设计了一种综合字符级编辑操作、结构级编辑操作和用户名信息的口令生成方法。实验结果表明, 在猜测次数为103的攻击中, 该方法的命中率和现有最优的方法(PassBERT)相比最高提升了41.8%, 说明利用用户身份信息能扩大凭证调整攻击对口令安全带来的威胁。
随着多变量时序数据在各行业中的广泛应用, 开发有效的异常检测方法对于保障系统的稳定运行和安全性变得极为关键, 由于多变量时序数据内在的复杂性和动态变化特性, 对异常检测算法提出了更高的要求。针对现有异常检测方法在处理含有复杂变量关系的高维数据时存在效率不足的问题, 提出一种基于图神经网络(GNN)与扩散模型的多变量时序数据异常检测算法GRD。通过节点嵌入和图结构学习, GRD算法能有效地捕捉和表示变量间的复杂关系, 并通过门控循环单元(GRU)和去噪扩散概率模型(DDPM)进一步提取特征, 实现了对异常数据的高精度检测。在以往的实验评估中, 大多数算法在评分前会采用点调整(PA)评估协议, 该协议会严重高估算法的检测能力。为了更准确地评估算法性能, 采用新的评估协议和评价指标。实验结果表明, GRD算法在3个公开数据集上的F1@k指标分别是0.741 4、0.801 7、0.767 1, 性能优于现有方法。特别是在高维数据处理方面, GRD算法展现出显著优势, 证明了其在现实场景的异常检测应用中的实用性和鲁棒性。
随着电动汽车的快速发展, 大量的充电需求将带来配电网负荷峰谷差加剧、充电负荷的不确定性等问题。为此, 面向电网负荷稳定提出了自适应离散充电调度策略。构建离散充电调度模型, 通过对电动汽车充电过程中的状态决策变量和充电功率进行联合优化, 以最小化配电网负荷的峰谷差。为了满足电动汽车的实时充电需求, 设计车辆充电区间的自适应调整方法, 根据不同电动汽车的到达时间和离开时间, 实时调整电动汽车的充电调度区间。然而, 离散充电调度模型中的状态决策变量和充电功率具有高耦合性, 是混合整数非线性规划(MINLP)问题。为解决该问题, 首先, 通过计算充电负荷裕度求解时隙的充电负荷分配率; 然后, 基于不同时隙的负荷动态分配, 对充电状态决策变量进行迭代更新; 最后, 基于更新的状态决策变量, 优化时间离散的充电功率。仿真结果表明, 提出的调度策略可以有效降低配电网负荷的峰谷差, 提高电网稳定性, 并可灵活满足电动汽车的实时充电需求。
针对面部情绪识别过程中存在的难以捕获有效特征信息、无法使关键面部信息占据更主要地位的问题, 提出一种基于UniRepLKNet的面部情绪识别网络。为了更精确地提取面部情绪特征, 设计一个掩码极化自注意力模块, 其结合了U-Net和极化自注意力机制。这一模块能够深入挖掘通道和空间之间的依赖关系, 并通过多尺度特征融合策略, 强化人脸局部关键信息在情绪识别过程中的影响力。同时, 对大核卷积神经网络(CNN)UniRepLKNet进行优化, 提出EmoRepLKNet神经网络结构。在EmoRepLKNet中, 利用掩码极化自注意力模块使网络专注于提取面部情绪识别的关键信息, 并结合大核CNN感受野广的特点, 实现对面部情绪的有效识别。实验结果表明, 在面部情绪识别数据集FER2013上, 该方法达到了76.20%的准确率, 不仅超越了现有的对比模型, 而且相较于UniRepLKNet也显著提高了面部情绪识别的准确率。同时, 在RAF-DB数据集的单标签部分进行实验, 所提方法取得了89.67%的准确率。
知识蒸馏(KD)的核心挑战在于从教师模型中提取普适且充足的知识, 以有效引导学生模型学习。最近的研究发现在学习软标签的基础上, 进一步学习深度特征空间中的实例关系有助于提升学生模型的性能。现有基于实例关系的KD方法广泛采用全局欧氏距离度量实例间的亲疏关系。然而, 这些方法忽视了深度特征空间内在的高维嵌入特性, 即数据实际上分布在低维流形上, 其局部结构与欧氏空间相似但整体结构复杂。为此, 提出一种基于实例谱关系的KD方法。该方法摒弃了全局欧氏距离的局限性, 转而通过构建并分析教师模型特征空间中每个实例与其k近邻的相似矩阵, 以揭示潜在的谱图结构信息。设计一种新的损失函数, 该函数能够引导学生模型不仅学习教师模型输出的概率分布, 而且能够更加精细地模拟这种谱图结构表示的实例间关系。实验结果表明, 所提方法显著提升了学生模型的性能, 平均分类准确率相较于基准方法提升了2.33百分点, 这证明了在KD过程中纳入样本间谱图结构关系的重要性及有效性。
卷积神经网络(CNN)的高计算和存储需求限制了其在资源有限的移动边缘设备上的应用推广。模型压缩技术能够在保持网络性能不变的同时显著降低CNN的计算量及参数量。通道剪枝已被证明在模型压缩方面的有效性, 然而现有的大多数通道剪枝方法的剪枝标准是基于评估通道的重要性或人工设定的评价标准, 此类方法的实现需要较多超参数的参与, 且剪枝方法的本身也缺乏自动性。基于上述通道剪枝方法的局限性, 提出一种新的基于斑马优化算法(ZOA)的通道自动剪枝方法。该方法首先使用k-medoids聚类剪枝以形成初步压缩的网络结构, 接着利用ZOA对初步压缩形成的网络结构进行迭代优化, 以搜索出最佳的紧凑网络结构。在两种图像数据集上的实验结果验证了该方法的高效性, 尤其在CIFAR-10数据集上, 该方法在ResNet-56上取得59.3%和56.7%的浮点运算数(FLOPs)和参数剪枝率的情况下, Top-1准确率提高了0.24百分点。
近年来, 知识图谱已经逐渐成为问答系统、信息检索和推荐系统等下游任务的基石。知识图谱推理作为知识图谱技术中的一项关键研究, 其推理结果的准确性决定了知识图谱的质量和服务效果。当前知识图谱推理研究主要集中于以知识嵌入作为知识载体的方式, 通过强大的神经网络模型来学习可表示事实知识隐含语义的实体和关系嵌入。面对当前海量异质知识涌现且持续增长的现状, 知识图谱中出现了知识结构缺失、知识分布长尾效应显著和推理过程可解释性弱等挑战。为此, 本研究提出一种基于文本和多视角局部结构特征的知识图谱推理模型TSNet, 通过有效融合知识图谱中实体-关系文本特征和多视角局部结构特征, 缓解了知识图谱中的结构缺失和数据长尾分布问题。实验结果表明, TSNet模型在4个常用公开数据集FB15k、WN18、FB15k-237和WN18RR上均获得了有竞争力的结果。
船舶轨迹数据作为海上交通的核心数据,可以用于轨迹预测、预警等任务,具有非常明显的时序特征,但海上环境恶劣、通信可靠性差等因素导致收集到的船舶轨迹数据普遍存在数据缺失的问题,对含有缺失数据的时间序列进行学习会严重影响时间序列分析的准确性。当前主流的解决方案是对缺失数据进行近似插补,主要基于卷积模型沿着时间轴对时间序列进行重塑,捕捉时间序列的局部特征,但对长时间序列的全局特征捕捉能力较弱。Transformer模型通过其核心的自注意力机制来捕获时间序列各个时间点之间的关系,从而增强模型对时间序列全局特征的捕捉能力,但注意力机制是通过矩阵乘计算得到的,导致其忽视了时间序列自身的时序性,得到的全局特征权重不具有时间跨度依赖性。因此,针对长时间序列全局特征捕捉的问题,提出一种基于自注意力机制的变体网络GANet。GANet首先通过自注意力机制获得基础的时间序列点之间的全局特征权重矩阵,再使用门控循环单元在时间轴上对全局特征权重矩阵进行遗忘与更新,从而得到具有时间跨度依赖性的全局特征权重矩阵;然后使用该矩阵进行数据重构,对缺失数据进行插补。GANet通过结合自注意力机制与门控机制实现了在捕捉全局特征的同时考虑时间跨度对各个时间点的影响,使得捕获到的全局特征具有时间跨度依赖性。实验结果表明,与现有Autoformer、Informer等模型相比,GANet对于Trajectory、ETT、Electricity数据集具有较好的插补效果。
从铜基复合材料文献中有效抽取实体和关系对构建材料知识图谱并推动材料科学研究有重要作用。由于该领域语料的实体构成复杂(如嵌套实体和非连续实体),且大量存在单实体重叠(SEO)关系,现有的实体关系抽取技术难以直接适用。为此,构建一个铜基复合材料实体关系抽取数据集,并提出一种两阶段实体关系抽取方法。第一阶段通过融合词间关系分类任务以及双向门控循环单元(BiGRU)和多粒度扩张卷积技术,提升了实体识别模型对实体跨度的识别能力。第二阶段在文本序列中标注实体信息,并在关系分类模型中引入实体类型注意力机制,以多特征表示来增强关系分类性能。在Matscholar、SOFC、MSP 3个公开数据集以及自建CBCM-IE数据集上的实验结果表明,该方法在精确率、召回率和F1值上相较基线方法平均有5.91、3.56和3.63百分点的提升,抽取性能较优。
人体异常行为研究是应对人体潜在危险和紧急情况的重要保障任务。针对人体异常行为定义模糊、缺乏标准数据集等问题,基于生活场景定义头痛、摔倒、抽搐、腰痛、拳打、踢踹6种高发生频率的人体异常行为,并自建数据集HABDataset-6。基于注意力机制的TimeSformer算法在自建数据集HABDataset-6上存在高损失和时间序列建模不全面的问题,难以提取复杂样本的特征。为了更好地处理人体异常行为数据,提出改进算法TS-AT。首先采用加速随机梯度下降(ASGD)优化算法改进交叉熵损失函数来设计CAS模块降低原算法损失值,其次嵌入时间偏移模块(TSM)到原算法的Backbone网络中,提高时间序列的感知能力,提取更优特征用于模型训练。实验结果表明:TS-AT算法在自建数据集HABDataset-6上取得了良好效果,各行为类别的平均推理准确率高于80%;在公开数据集UCF-10和老人异常行为数据上,平均测试准确率分别达到了99%和84%,超过了对比算法。这些结果表明TS-AT算法在人体异常行为识别方面具有更高的精确度和良好的鲁棒性,有望提高应对潜在危险和紧急情况的能力,进一步保障人们的安全与健康。
知识图谱嵌入技术旨在将复杂的语义信息转换为易于计算的低维向量形式,这一过程不仅有助于揭示实体和关系之间的潜在相似性,还能够促进计算机对知识图谱内容的理解和处理。当前,在知识图谱嵌入领域,现有的知识图谱嵌入模型仍然难以建模复杂的关系模式,在对称性、反对称性、反演性以及层次结构等方面仍存在局限性。层次感知模型HAKE通过将实体映射到极坐标系统中,并利用极坐标系中的同心圆来反映不同层次结构,同时捕捉同一层级内实体间的关系,但对于其他复杂关系的建模仍有局限。为了解决这一问题,提出一种新的知识图谱嵌入模型ComHA。ComHA在HAKE的基础上融合了几何变换的思想,通过平移、旋转和缩放操作来增强实体和关系的向量空间表示。在公开数据集WN18、WN18RR、FB15k、FB15k-237和YAGO3-10上的链接预测实验结果表明,ComHA实现了性能提升。这验证了ComHA在捕捉知识图谱中复杂关系和层次结构方面的有效性,为未来的知识图谱嵌入模型设计提供了新的研究方向和研究思路。
异质超网络能够建模现实世界中的各种高阶元组关系, 表征超网络的异质高阶信息, 同时异质超网络具有不同程度的不可分解性, 而现有研究方法没有充分考虑高阶元组关系(超边)的不可分解性。针对上述问题, 提出一种基于重要性采样的异质超网络表示学习方法HRIS, 将紧密高阶元组关系融入超网络表示学习中。首先, 该方法提出判断节点的概念, 融合不可分解因子与元组相似度改进随机游走对重要节点的采样来捕获超网络中紧密的高阶元组关系。其次, 为了使序列更具全局性与多样性, 引入数据增强中的随机交换方法来解决过拟合问题, 同时提出基于节点度的随机删除方法提升鲁棒性。最后, 构建一个负采样增强的skip-gram模型NSE-skip-gram来获得高质量的节点表示向量。在4个真实数据集上的实验结果表明: 对于链接预测任务, HRIS显著优于基线方法; 对于超网络重建任务, 在所有重建比例下, HRIS在全球定位系统(GPS)和drug数据集上较最优基线方法平均提升3.75和9.79百分点。
随着社交网络的发展, 人们越来越多地通过语音、文本、视频等多模态数据表达情感。针对传统情感分析方法无法有效处理短视频内容中的情绪表达, 以及现有的多模态情感分析技术存在的诸如准确率较低和模态间交互性不足等问题, 提出一种基于密集协同注意力的多模态情感分析方法(DCA-MSA)。首先利用预训练BERT(Bidirectional Encoder Representations from Transformers)模型、OpenFace 2.0模型、COVAREP工具分别提取文本、视频和音频特征, 然后使用双向长短期记忆网络(BiLSTM)分别对不同特征内部的时序相关性进行建模, 最后通过密集协同注意力机制对不同特征进行融合。实验结果表明, 与一些基线模型相比, 所提出的模型在多模态情感分析任务中具有一定的竞争力: 在CMU-MOSEI数据集上, 二分类准确率最高提升3.7百分点, F1值最高提升3.1百分点; 在CH-SIMS数据集上, 二分类准确率最高提升4.1百分点, 三分类准确率最高提升2.8百分点, F1值最高提升3.9百分点。
随着互联网的不断发展, 不同应用对性能的需求也呈现多样化趋势。例如, 云存储和文件共享服务等应用依赖于高吞吐量以实现高速的数据传输, 而多人在线游戏等应用则侧重于低延迟, 以保证用户间的即时交互和优质游戏体验。然而, 现有的网络交换设备大多采用固定的硬件架构和预定义的转发规则来处理数据流, 随着互联网应用场景的多样化, 这些固定的架构和功能限制了它们对不同网络流量类型的适应能力, 很难为不同类型的应用提供差异化服务。针对这些局限, 提出了一种使用不同优先级队列的流量调度算法。该算法通过交换机的数据平面实时监控流的特征, 并动态地将不同的流量分配到具有不同转发优先级的队列, 从而更有效地处理不同类型的流量, 使得网络服务能够根据不同应用场景灵活地进行资源分配。仿真实验结果表明, 采用不同优先级队列隔离流量的方法能够实现小流低延迟、大流高吞吐量以及降低丢包量等多个目标。这些实验结果为满足不同应用程序的性能需求提供了有力的支持。
对抗样本可以在不知道黑盒模型内部的结构以及参数时利用代理模型进行迁移性攻击, 现有研究针对黑盒模型的定向目标攻击可迁移性都比较弱。提出一种基于特征融合增强图像定向目标攻击可迁移性的方法。通过模型集成攻击得到对抗样本, 以现有对抗样本的梯度方向为基准, 利用从原图提取出的干净特征作为干扰来微调现有的对抗样本, 以提高定向目标攻击的可迁移性。对于模型集成, 根据每个模型对整体对抗目标的贡献大小引入梯度自适应模块, 为减少不同模型之间的梯度差异, 提出梯度滤波器来同步控制梯度方向, 通过特征融合模块混合原图的干净特征对现有对抗样本的梯度方向进行微调以缓解过度关注特定特征的问题。在ImageNet-Compatible数据集上的对比实验结果表明, 所提方法对非鲁棒性训练模型, 相较CFM(Clean Feature Mixup)方法平均攻击成功率提升了7.7百分点, 对鲁棒性训练模型以及Tansformer模型, 相较CFM方法平均攻击成功率提升了5.3百分点, 验证了方法的有效性。
嵌入式设备的快速增长和广泛应用, 带来便利的同时也引入了巨大的安全风险, 其中, 固件安全是关键风险点之一。嵌入式设备固件数量多、格式复杂, 且很多经过加密、混淆, 使安全分析人员难以快速有效地解析固件并发现隐藏脆弱点。针对以上问题, 提出一种面向异构固件的高效靶向分析技术。首先, 研究多粒度分析方法、文件自动分类、关键信息输出和靶向提取等技术, 实现深度可控的固件靶向解析; 然后, 建立文件系统特征库, 研究基于特征值匹配的靶向识别技术, 增强混淆固件的识别能力, 扩展文件系统识别范围; 最后, 设计爬虫提取不同厂商固件并构建万级固件库作为基础支撑, 实现基于邻近版本的固件靶向解密。设计实现了FTA自动化固件解析系统并进行测试, 实验结果表明, 与主流固件分析工具Binwalk相比, FTA实现的多粒度分析方法对固件的解析速度平均提升42.59%, 优化输出模式实现固件中目标文件的靶向提取, 扩展了对多种文件系统特征值的识别能力, 为嵌入式系统安全领域中的固件解析工作提供了有力支持。
数据传输的安全问题是无线传感器网络(WSN)面临的最主要的安全威胁之一, 认证密钥协商(AKA)协议是解决此问题的有效方法。为解决现有协议不抗离线密钥猜测攻击、重放攻击的问题, 提出一种增强的无线传感器网络认证密钥协商协议。该协议基于椭圆曲线密码学(ECC), 实现了传感器节点与服务器之间安全的会话密钥协商。通过BAN(Burrows—Abadi—Needham)逻辑和非形式化安全性分析, 证明了该协议具有相互认证性、完美前向安全性, 能有效抵御离线密钥猜测和重放攻击等。在安全属性、计算开销和通信开销3个方面与现有轻量级AKA协议进行对比, 性能分析结果表明, 相比于现有协议, 该协议不仅满足WSN轻量级要求, 而且具备更强的安全属性和通信优势。
为了降低高性能计算(HPC)互连网络的数据传输延迟, 通常在物理编码子层(PCS)采用可配置旁路纠错方法, 但是存在难以适应物理介质误码变化性、难以适应链路层报文与编码子层前向纠错(FEC)块的粒度差异性等问题。为此, 提出一种自适应旁路FEC解码过程的方法FEC-ABP。FEC-ABP优化接收端数据处理过程, 使得经过通道锁定和重定序的数据复制为两路, 子流程A数据经过完整的FEC解码及后续处理(即删除对齐标记和校验码、解扰、257/264解码、66/64解码和速率匹配)进入链路层, 而子流程B数据完全旁路FEC解码, 只经过后续处理进入链路层。链路层并行处理两路数据, 根据各路报文携带的循环冗余校验码(CRC)和序列号判定接收哪路报文, 并采用Go-back-N机制负责不可纠错报文的重传。基于FEC-ABP方法, 无差错报文传输可以获得旁路FEC解码带来的低延迟性能, 而可纠错报文传输可以获得FEC解码纠错带来的可靠性。实验结果表明, FEC-ABP方法以较低的资源消耗代价获取了较好的数据平均传输延迟优化效果, 这对于实现HPC互连网络的较低延迟数据传输具有重要作用。
通孔柱是先进制程下的一项新技术, 该技术对于优化布线方案中通孔的时延具有显著的效果, 但是需要占据更多的布线资源。因此, 如何在不影响可布线性的情况下, 合理地分配有限的布线资源, 充分地发挥通孔柱技术对时延的优化能力, 是先进制程下层分配算法的一大挑战。围绕先进通孔柱技术下高性能层分配问题展开研究, 提出3项改进策略: 1)提出初始布线顺序优先级定义策略, 综合考虑线网的总路径长度和接收器数量为线网确定优先级, 为后续阶段建立良好的布线基础; 2)提出考虑不溢出情况下历史代价计算策略, 有效地对所有的边进行使用优先级的划分, 减少拥塞的边的使用; 3)提出规范违规线网的重新分配顺序策略, 对迭代布线阶段中的违规线网重新分配顺序进行规范, 综合考虑线网的总路径长度、接收器数量以及线网上一次迭代后的时延, 使布线顺序具有更大的确定性和保障性。实验结果表明, 经上述策略改进, 算法的有效性、平均时延、通孔数、溢出和运行速度均得到了优化。
受到仪器、周围环境以及被扫描目标本身的特性影响, 点云数据中不可避免会存在一些噪声, 最常见的是高斯噪声。针对点云模型在含有高斯噪声情况下出现的法向量估计误差大的问题, 提出基于统计跳变回归分析的点云法向量估计方法。首先, 根据点云数据建立回归模型, 并基于局部线性核平滑来估计当前点的曲面值; 其次, 为了判断当前点是否在曲面边缘上, 沿垂直于梯度方向将当前点所在的局部邻域分成两部分, 分别用这两部分邻域内的观测值再一次估计该点的曲面值; 最后, 分析计算当前点的带权均方残差(WRMS), 最终确定该点曲面值以及法向量。通过仿真实验、公共数据集实验等大量实验结果表明, 该方法相较于常规的点云法向量估计方法, 在含高斯噪声的情况下法向量估计准确性更高且鲁棒性更好。
针对道路坑槽检测中存在坑槽大小不同、形状不规则导致的特征提取不完全及图像拍摄不满足道路检测车的视角问题, 收集并制作不同来源、视角和像素分辨率的坑槽数据集, 并对模型进行改进。首先在Backbone部分的C2f结构中引入DCNv3, 以获取更丰富完整的坑槽特征; 其次融合压缩和激励(SE)模块的注意力机制, 以提高对坑槽特征的提取能力; 然后在Neck部分融合双向特征金字塔网络(BiFPN)结构, 降低网络的计算量; 最后使用Focal-EIoU作为改进模型的损失函数, 降低复杂背景对网络检测性能的影响。改进后的YOLOv8-master网络相较于未改进前的网络, 坑槽检测精度提高了4.06%, 检测速度提高了85帧/s, 浮点运算量降低了19.54%。结果表明, 所提出的改进方法能有效提高原网络检测坑槽的性能, 相比目前主流的目标检测算法, 具有一定的先进性。
由于网络信道压缩过程不可知, 使得图像在历经社交网络传输之后受到的攻击难以预测, 因此研究抵抗压缩失真信道的隐写算法是一个非常具有挑战的难题。现有的抵抗JPEG压缩的算法在训练时所使用的质量因子是固定的, 而在实际应用中, JPEG压缩的质量因子并不是固定的, 而是依赖于原始图像的特性。因此, 要设计出可以抵抗社交网络中的JPEG失真的方法, 首先需要研究社交网络压缩信道的质量因子分布情况。针对现有抗JPEG压缩的鲁棒隐写算法对社交网络压缩失真脆弱的问题, 研究JPEG压缩质量因子在社交网络传输中的分布特性, 并采用高斯混合模型(GMM)对其进行建模。在隐写模型的训练过程中, 质量因子的选择不再采用传统鲁棒隐写方法中的固定值, 而是从GMM中进行平滑采样。实验证明, 所设计的抗JPEG压缩鲁棒性隐写模型在遭受社交网络JPEG压缩攻击后, 能够显著提升图像的视觉质量, 同时降低信息提取错误率。相较于其他模型, 模型也具有较好的安全性。
深度学习在心肌缺血辅助诊断中有重要应用价值, 但传统深度学习医学图像分类网络存在无法捕捉心肌计算机断层扫描(CT)类别间细微差异、丢失CT数据三维(3D)结构信息等问题。为此, 提出一种DBTMed3D网络, 采用3D双线性细粒度池化对传统Med3D网络中的卷积模块进行改进, 用于处理包括CT和MRI在内的多模态医学图像数据。同时, 模仿ResNet网络, 在模块中引入跳跃连接, 融合图像细粒度二阶特征和卷积模块提取到的特征, 使得网络在关注局部特征的同时保留整体特征。此外, 引入3D类别激活图, 将热力图叠加在原心肌图像的CT切片上, 突出网络模型重点关注的心肌位置。最后, 设计3D层次化多头自注意力模块, 通过捕获图像局部特征解决3D医学图像的细粒度分类问题。实验结果表明, DBTMed3D在心肌CT数据集上的分类准确率为86.4%, 相比基准网络3D ResNet-50提升了6.7百分点, 具有较优的分类效果。
在现实环境中, 由于检测人脸图像时受到光照强弱、面部遮挡、姿势变化等因素的影响, 人脸表情识别的准确率通常不高。为解决这一鲁棒性问题, 提出一种融合关键区域注意力机制的人脸表情识别方法。根据人脸视觉系统的面部感知机制, 将人脸的关键区域与整体区域相融合, 增强对复杂及微妙表情的识别能力。在关键区域提取阶段, 采用MTCNN算法将人脸数据依次输入3个级联网络, 得到人脸关键点位置信息。根据人脸解剖学对面部的研究, 提出区域裁剪法(LRC), 对位置信息进行处理, 裁剪得到人脸关键区域图像。将人脸整体区域和裁剪得到的人脸关键区域图像分别输入ResNet-50网络并进行特征融合, 添加通过精确的位置信息以及对通道关系和长期依赖性进行编码的坐标注意力(CA)机制, 使得模型更关注人脸中对表情分类贡献更大的区域。在公开数据集CK+和FER2013上进行实验, 结果表明, 该方法的识别准确率分别达到了96.9%和73.22%, 与现有的诸多先进方法对比, 其准确率均有显著提高, 表明所提方法在网络结构和性能方面具有一定的参考价值。
针对视网膜血管结构细微复杂、边界模糊、计算成本高等问题, 提出一种基于多注意力机制的视网膜血管分割模型(GAC-UNet)。首先, 在跳跃连接中嵌入用于提取通道间关系与空间位置信息的CASP(Channel Attention Spatial Pooling)注意力模块, 将其与残差连接相结合, 构成注意力残差单元(ARU), 以优化编解码器之间的特征处理, 突出重要特征; 然后, 在编码器结构中加入用于合理分配注意力的新型图注意力网络(NGAT), 将其与CASP注意力模块相结合以构建GACA综合注意力模块, 从多个角度对血管细节和边缘进行关注; 接着, 在编码器中堆叠多个GACA模块, 实现NGAT模块内部图注意力信息的累积, 以加强模型建模全局信息的能力, 弥补并丰富边缘特征信息; 最后, 在解码器结构相应层级中聚合不同注意力模块所提取的特征信息, 通过上采样操作得到最终的分割结果。在3个视网膜公共数据集DRIVE、CHASE_DB1、STARE上进行实验, 结果表明, GAC-UNet的特异性分别为97.76%、99.16%和98.66%, 准确率分别为96.80%、96.81%和96.34%, 表明GAC-UNet能够很好地识别出细微复杂、边界模糊的血管结构, 且具有较小的模型参数量。
传统基于RGB视频的人体行为识别方法在面对背景复杂、光照影响以及外貌变化时存在诸多挑战。相比之下, 利用人体骨架信息进行行为识别的方法受到的影响较小。然而, 目前主流的基于骨架的行为识别方法难以兼顾精度与复杂度。为了在保持高识别精度的同时解决模型参数量大、计算复杂度高的问题, 提出一种由3个新编码块组成的轻量化网络结构。首先, 在用于空间建模的自注意图卷积模块和用于时间建模的多尺度时间卷积模块中添加高效的多尺度注意力模块, 提高模型对时间和空间特征信息的识别和利用, 丰富骨架数据特征; 其次, 利用多特征融合自适应模块来增强特征融合与泛化能力; 最后, 使用迭代特征融合增强模块进一步加强对复杂特征关系的理解。实验结果表明, 在大规模数据集NTU-RGB+D60上, 所提方法在交叉主题评估(CS)和交叉视角评估(CV)下的准确率分别为91.1%和95.4%, 在数据集NTU-RGB+D120上, 该方法在CS和交叉设置评估(SS)下的准确率分别为87.3%和88.8%, 参数量为0.72×106, 浮点计算量为0.6×109。对比实验表明, 所提算法的参数量、浮点计算量以及识别精度均优于近年来的一些主流算法, 其有效地平衡了这些指标间的关系, 为人体行为的精确识别提供了轻量级网络模型。
视频数据量的迅猛增长给有限带宽带来了严峻挑战, 为此需提升视频编码效率。视频编码前处理技术能够在不改变编码器核心算法和参数设置的基础上, 降低视频的数据量, 以达到提升视频编码效率的目的, 具备良好的兼容性。提出一种退化补偿多维重建(DCMR)前处理方法, 旨在多维度提取视频图像中与后续编码过程密切相关的特征, 并将这些特征重建为视频图像。首先, 设计退化补偿模型, 在去除编码噪声的同时恢复传输过程中引起的图像退化; 其次, 构建轻量级的多维特征重建网络, 结合残差学习和特征蒸馏原理, 从空间和通道维度提取编码相关特征, 并对提取到的特征进行重建; 最后, 为了恢复去噪过程中丢掉的高频细节, 在DCMR中添加加载着加权引导滤波细节增强卷积模块的辅助分支。在损失函数方面, 选择平均绝对值误差(MAE)损失和多尺度结构相似性(MS-SSIM)损失的组合, 通过分配不同的权重实现多目标优化。在部署阶段, 直接将DCMR集成到现有的任意标准视频编码器前, 无须更改任何编码、流媒体以及解码设置。实验结果表明, DCMR方法可以在H.266/VVC下实现BD-rate(VMAF)平均提高21.6%、BD-rate(MOS)平均提高6.98%的性能增益。
无监督域自适应(UDA)行人重识别(Re-ID)技术致力于将已标记的源域知识转移到未标记的目标域, 但由于伪标签噪声和域间隙等问题的存在, 使得Re-ID十分具有挑战性。对此, 提出一种融合注意力机制的异构师生网络(HTSA)。该网络通过师生模型有效降低伪标签噪声的影响, 结合注意力机制关注行人关键信息, 滤除无关的背景信息; 采用域特定批处理归一化(DSBN)减弱由域间隙带来的性能下降问题; 采用一种新的数据增强方法, 将输入图像沿宽度方向切割为相同大小的两部分, 然后对每一部分进行独立的随机处理, 提升模型的泛化性能。实验结果显示, 在DukeMTMC-reID→MSMT17上, HTSA的均值平均精度(mAP)和Rank-1分别达到40.3%和71.0%, 在Market-1501→MSMT17上mAP和Rank-1分别达到37.7%和67.7%, 验证了HTSA的有效性。
当前主流的视频超分算法主要应用在服务器端或离线视频转换等业务场景中, 当部署到移动端设备时, 存在计算复杂、推理速度慢等问题, 特别是在实时音视频通信(RTC)业务场景中, 这些主流的超分算法虽然在图像质量上可以满足精度需求, 但是在处理时间上很难达到性能要求, 从而影响算法的实际应用效果。提出一种基于卷积神经网络(CNN)改进的实时视频超分技术(OGSR)。首先采用分组卷积和通道混淆的方式, 在基本不降低超分图像质量的条件下优化神经网络模型, 成倍减小前向推理的计算量; 其次使用OpenGL ES图形加速接口, 将模型参数和通道数据布局成最快采样的纹理数据, 上传显存以用于GPU的并行计算; 最后在GPU的着色器(Shader)中通过渲染像素坐标反向计算通道索引和模型参数索引来实现超分算法的核心模块, 从而达到像素级别的细粒度并发。实验结果表明, 利用OGSR对QVGA(320×240像素)和nHD(640×360像素)分辨率的视频帧进行3倍超分放大, 在不同机型的移动手机上都可以达到15~30帧/s的帧率, 同时放大后的图像质量与标准CNN模型的图像质量的误差在2%以内, 表明OGSR可以满足实时业务场景的需求, 性能提升显著。
在当今社会, 指纹识别技术得到广泛使用并占据个人身份认证的大部分市场。性别是区分人与人的最基本的特征之一, 性别分类对于调查刑事犯罪和性别冒充至关重要。目前, 已有许多利用指纹脊数等物理特征进行指纹性别识别的方法, 但基于传统手工特征的识别方法难以应用在复杂多变的场景中。为此, 提出一种基于多尺度注意力机制和多模型融合策略的指纹性别识别方法FGRNet。首先, 在稠密块中引入深度可分离卷积与CBAM(Convolutional Block Attention Module)注意力机制, 在不增加参数量的同时提高网络深度与广度; 其次, 在CBAM模块中引入多尺度结构, 以较低的模型复杂度学习注意力权重, 并有效地整合局部注意力和全局注意力, 从而建立远程通道依赖, 使得网络提取的特征更具判别性; 最后, 利用不同模型之间的互补性, 设计基于证据理论的多模型融合策略, 进一步提升识别精度。实验结果表明, 在公开数据集SOCOFing和自建数据集上, FGRNet的准确率分别达到82.655 8%和91.149 0%, 且模型具有良好的鲁棒性, 在指纹图像包含大量无关噪声的情况下仍能达到较好的识别效果。
面向多工艺式布局车间, 针对不同工艺之间存在共有工序会导致资源浪费的问题, 建立以最小化最大完工时间、最小化总加工成本以及最小化总加工能耗为目标的多车间作业任务协同调度多目标优化模型, 旨在提高车间资源利用率, 实现降本增效。提出一种新的禁忌搜索与快速非支配排序遗传融合算法TSNSGA-Ⅱ, 将遗传算法交叉后的染色体采用禁忌搜索变异策略产生新个体, 增强搜索空间的探索能力, 最后采用层次分析法从工厂角度权衡3个目标以选择最优调度方案。首先在模拟数据集上验证TSNSGA-Ⅱ算法的有效性, 然后在不同规模的标准数据集上对比TSNSGA-Ⅱ算法与MOGWO、ENSGA-Ⅱ元启发式算法的性能, 并与单独的NSGA-Ⅱ和单独的TS模块进行消融对比。实验结果表明, 该算法在以总加工成本为最高优先级时, 在Brandimarte标准数据集中90%的mk算例上都获得了最低的总加工成本, 与ENSGA-Ⅱ算法相比求解时间更短, 与改进前的NSGA-Ⅱ算法相比提高了1.6%;在以最大完工时间为最高优先级的情况下, 该算法在80%数据集上获得了最小的最大完工时间, 与改进前的NSGA-Ⅱ算法相比提高了2.2%。
准确地预测周围车辆的未来轨迹对于自动驾驶汽车(ADV)理解复杂动态环境至关重要。然而, 现有的池化策略仅依赖于欧氏坐标系表征下的历史位置特征编码, 难以有效地捕捉车辆的机动意图等隐变量特征。为此, 提出一种机动意图可知的车辆轨迹预测方法。首先, 构建基于极坐标系特征表征和高阶特征编码的池化机制, 以捕捉车辆间的相互依赖关系; 其次, 设计基于高斯概率分布的位置和加速度机动类型判别策略, 以准确地模拟结构化道路场景下车辆的预期机动; 然后, 设计基于随机采样的规划轨迹与历史轨迹耦合编码模块, 在增强模型交互特征捕获性能的同时避免冗余编码; 最后, 基于编码器-解码器框架构建轨迹预测模型StructNet, 并基于真实道路数据集NGSIM验证算法的有效性。多组对比实验和消融实验结果表明, 所提出的车辆轨迹预测模型在5 s时的均方根误差指标低于3.5 m, 相较于基准模型提升15.3%, 预测准确率得到显著提高。
移动机器人在复杂环境下多使用智能算法进行路径规划, 但由于传统计算机存在"储存墙"问题, 算法运行需要耗费大量的时间。针对上述问题, 提出基于忆阻器阵列与多头绒泡菌算法(MA-PPA)的露天煤矿智能巡视机器人路径规划算法。忆阻器具有"存算一体"等特性, 能够降低算法的运行时间, 多头绒泡菌算法可以自组织且高效地找到最短路径。结合两者的优点, 根据忆阻器阻值随电流变化的正反馈性, 用忆阻器阵列实现了多头绒泡菌算法在二维全局环境下的路径规划, 并在忆阻器阵列中进行多头绒泡菌算法的并行计算, 大幅降低算法的运行时间。实验结果表明, 与其他传统的生物启发算法相比, 提出的算法降低了算法的时间复杂度, 寻找到的最短路径转弯次数更少。
为了解决城市车辆目标检测算法中存在检测效果差、误检漏检率高、泛化能力弱的问题, 提出一种改进YOLOv8的城市车辆目标检测算法。首先, 在主干网络尾部融入高效多尺度注意力(EMA)机制, 有助于模型更好地捕捉目标车辆的细节特征, 结合160×160像素尺寸的小目标检测层来加强对小目标的检测能力, 通过维度交互进一步聚合像素级特征, 增强对目标车辆的挖掘能力。其次, 为轻量化网络设计了一种多尺度轻量化卷积(MLConv)模块, 并基于MLConv重构了C2f模块, 提高模型的特征提取能力。最后, 为抑制低质量图像产生的有害梯度, 采用WIoU损失函数替代完全交并比(CIoU)损失函数, 优化网络的边界框损失, 提升模型的收敛速度和回归精度。在Streets车辆数据集上进行验证, 结果表明, 改进算法的mAP@0.5、mAP@0.5∶0.95和召回率相较于基准模型YOLOv8n分别提升了1.9、1.4和2.4百分点。在国内车辆数据集和VisDrone2019小目标数据集上进行验证, 改进算法的各项性能指标都有不同程度的提升, 充分证明了改进算法具有良好的泛化性和鲁棒性。与其他主流算法相比, 改进算法同样表现出了更高的准确率和召回率, 表明该算法对于城市车辆目标检测具有更好的性能。
配电网规划在电力系统中非常重要, 因为它直接影响到电力供应的可靠性、效率和经济性。良好的规划可以确保电力资源得到高效分配, 同时降低运营成本和减少电力损耗。然而, 随着电力需求的增加和系统复杂性的提升, 传统的决策方法不再适用。为提升设备选型、连接配置和电网布局的效率和可靠性, 提出一种基于知识图谱(KG)和图卷积神经网络(GCNN)的配电网智能规划方法KG-GCNN。该方法综合利用KG、图神经网络(GNN)和卷积神经网络(CNN)技术的优势, 为电力系统规划者提供一种智能化的配电网规划方法, 以更好地理解、分析和优化电力系统的设备配置、连接以及物理布局。首先, 建立电力网络的KG, 该KG包含电网的设备、属性及其相互关系, 为后续的分析和优化提供基础; 然后, 利用GNN对电力网络的结构数据进行分析, 以捕捉设备之间的关系和影响, 为设备配置和连接决策提供重要信息; 最后, 引入CNN改善电网的物理布局, 以确定电网中设备的最佳位置和连接方式, 从而提高电网的性能和可靠性。实验结果表明, 通过与决策树、支持向量机(SVM)、循环神经网络(RNN)相比, 该方法能够有效匹配电网中的复杂拓扑结构, 优化电网的物理布局。