随着移动计算、第五代移动通信技术(5G)以及物联网(IoT)技术的不断演进, 各类终端设备的数量呈现指数级增长。这种激增的终端设备连接到网络产生了巨大的数据流, 对于需要实时处理和快速响应用户任务的需求提出了新的挑战。尤其是在这些海量数据中, 半结构化和非结构化数据所占比例较大, 这使得神经网络因其独特的优势而得到了广泛应用。为了提高数据处理能力和推理精度, 神经网络模型会被设计得非常复杂, 其存储和运行均需要消耗大量的计算资源。然而, 边缘设备通常只配置有限的计算资源, 无法满足存储和运行复杂神经网络模型的需求, 需要借助云计算中心来完成这些任务。这种云协同会引发响应延时和增加网络带宽消耗, 并带来用户隐私数据泄露等潜在风险。为了解决这些问题, 提出一种面向边缘智能的神经网络模型快速生成与自动化部署(NGD)方法, 根据边缘设备的硬件配置和承载的具体计算任务需求, 生成与其匹配的神经网络模型, 并将其快速部署在目标设备上, 实现设备本地推理。在3种典型的硬件平台上的神经网络模型生成与部署实验结果表明, NGD方法能够高效地为资源受限的边缘设备生成匹配的神经网络模型, 并快速地将其部署在设备上进行推理任务。
电子病历(EMR)作为医疗信息化建设的核心, 蕴含着众多有价值的医疗实体, 对电子病历进行命名实体识别有助于推进医学研究。为解决血管外科电子病历研究数据匮乏、实体复杂识别困难等问题, 基于某三甲医院血管外科的真实临床数据, 构建一个小规模的专科数据集作为实验数据集, 并提出一种基于字形特征的命名实体识别模型。首先, 采用掩码校正的来自Transformer的双向编码器表示(MacBERT)生成动态字向量, 引入汉字四角码与汉字五笔两个维度的字形信息; 然后, 将文本表示传入双向门控循环单元(BiGRU)与门控空洞卷积神经网络(DGCNN)进行特征提取, 并对输出结果进行拼接; 最后, 通过多头自注意力机制捕捉序列内部元素间的关系, 利用条件随机场(CRF)进行标签解码。实验结果表明, 所提模型在自建血管外科数据集上的精确率、召回率、F1值分别为96.45%、97.77%、97.10%, 均优于对比模型, 具有更好的实体识别性能。
目前我国废旧电缆回收主要依靠人工分拣, 存在耗时耗力、准确性低的问题。为了更好地将模型部署至小型化硬件设备并提高检测实时性, 提出基于改进YOLOv5s的废旧电缆检测网络模型。首先, 将主干网络中的标准卷积模块替换为轻量化的幻象(Ghost)模块以减小网络的复杂度, 并且在快速空间金字塔池化(SPPF)模块前引入卷积块注意力模块(CBAM), 提高了特征提取和融合的效率。其次, 将网络中Neck部分的C3模块结合有效通道注意力模块(ECA), 实现了跨通道的信息交互, 提高了网络特征融合能力。最后, 在损失函数的计算部分使用Wise-交并比(WIoU)作为新的边界框损失函数以提升回归效果, 加快模型的收敛速度。实验结果表明: 改进模型的平均检测精度为96.3%, 相比单点多框检测器(SSD)提高了1.2个百分点; 参数量为5.15×106, 相比YOLOv5s模型减少了27.0%;在小型嵌入式设备LubanCat-1上的推理速度达到8.49帧/s, 具有良好的实时性, 适用于废旧电缆的实时检测与分类。
针对特定领域中文命名实体识别存在的局限性, 提出一种利用学科图谱和图像提高实体识别准确率的模型, 旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTM-Attention的模型提取文本特征, 使用ResNet152提取图像特征, 并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入, 利用余弦相似度查找句子中的分词在学科图谱中最相似的节点, 保留到该节点距离为1的邻居节点, 生成最佳匹配子图, 作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间, 并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后, 通过交叉注意力机制将多模态特征与子图特征进行融合, 输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较, 结果显示, 所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%, 与最优基线模型相比, F1值提高了1.36个百分点, 表明利用领域知识图谱能有效提升实体识别效果。
隐匿性旁路(CAP)是一种引起心跳突然加速、心悸和胸闷的心脏疾病。针对目前临床医师尚无法通过窦性心律心电图(ECG)对隐匿性旁路进行诊断的现状, 基于临床病例建立包含隐匿性旁路患者术前窦性心律心电图及健康对照人群心电图的数据集, 并提出一种以ResNet26为基线网络的利用窦性心律心电图自动识别预测隐匿性旁路患者的卷积神经网络CAPNet。创建初始模块(IB), 提升模型非线性表达能力。引入非对称卷积以改进瓶颈残差模块, 更好地捕捉心电特征的水平和垂直方向信息, 丰富特征空间。使用注意力机制, 加强模型对心电图中重点波段区域的关注。实验结果表明, CAPNet模型的预测性能优于对比的经典卷积神经网络模型, 与ResNet26相比, F1值、准确率、灵敏度和精确率分别提升了2.41、0.89、4.34和0.47个百分点。上述实验结果验证了CAPNet模型的有效性与优越性。
随着手机应用软件的流行,应用市场上出现了大量非结构化的中文用户评论。基于用户评论识别App用户意图,可以帮助开发人员对App软件进行有针对性的维护和改善。为了从中准确识别用户意图,提出一种基于融合模型和语义网络的App用户意图识别方法FSAUIR。使用百度工具Senta判断评论的情感倾向,构建基于RoBERTa的融合意图分类模型RBMS,通过RoBERTa模型将用户评论转化为语义特征表示,并将其输入到双向门控循环单元中,以提取评论的全局上下文语义信息,同时利用多头自注意力机制和SoftPool获取关键的特征信息,保留主要特征,通过Softmax进行归一化处理,得到意图分类结果。在意图分类的基础上,引入PositionRank模型提取各意图类别下评论的关键词,计算关键词之间的共现关系,构建关键词语义网络,从而更细粒度地识别用户意图。实验结果表明,相比BERT、RoBERTa、RoBERTa-CNN等模型,RBMS模型在人工标注数据集上具有较优的分类性能,准确率、精确率、召回率、F1值分别为87.75%、88.09%、87.80%、87.88%。此外,在意图分类的结果集中,FSAUIR构建的语义网络可以高效地挖掘出用户评论中有价值的信息。
与基于图像的行为识别方法相比, 利用人体骨架信息进行识别能有效克服复杂背景、光照变化以及外貌变化等因素影响。但是, 目前主流的基于人体骨架的行为识别方法存在参数量过大、运算速度慢等问题。对此, 提出一种多流轻量级语义图卷积的行为识别方法。设计多流语义引导的图卷积网络(MS-SGN), 将骨架信息分别表达为骨长流、关节流和细粒度流3种数据流形式, 再对嵌入语义信息的数据流通过自适应图卷积提取空间特征, 并采用不同内核和膨胀率的多尺度时域卷积提取时域特征, 最后对各流分类结果进行加权融合。实验结果表明, 该方法在NTU60 RGB+D数据集上的识别精度分别为90.0%(X-Sub)和95.83%(X-View), 在NTU120 RGB+D数据集上的识别精度分别为83.4%(X-Sub)和84.0%(X-View), 优于SGN、Logsin-RNN等主流方法, 且网络框架更为轻量化。
抑郁症作为一种常见的心理健康问题,严重影响人们的日常生活甚至是生命安全。鉴于目前的抑郁症检测存在主观性和人工干预等缺点,基于深度学习的自动检测方式成为热门研究方向。对于最易获取的文本模态而言,主要的挑战在于如何建模抑郁文本中的长距离依赖与序列依赖。为解决该问题,提出一种基于上下文知识的增强型Transformer网络模型RoBERTa-BiLSTM,旨在从抑郁文本序列中充分提取和利用上下文特征。结合序列模型与Transformer模型优点,建模单词间上下文交互,为抑郁类别揭示与信息表征提供参考。首先,利用RoBERTa方法将词汇嵌入到语义向量空间;其次,利用双向长短期记忆网络(BiLSTM)模型有效捕获长距离上下文语义;最后,在DAIC-WOZ和EATD-Corpus 2个大规模数据集上进行实证研究。实验结果显示,RoBERTa-BiLSTM模型的准确率分别达到0.74和0.93以上,召回率分别达到0.66和0.56以上,能够准确地检测抑郁症。
针对机器人路径规划对于路径最短、搜索效率以及平滑度的性能要求, 提出一种改进A*算法与改进动态窗口法(DWA)相融合的算法。针对传统A*算法在复杂场景下输出非最优路径、寻路效率低等问题, 结合曼哈顿距离和对角线距离设计新的启发函数, 并对其动态分配权重, 实现全局路径最短, 减少寻路时间。针对传统8邻域8方向搜索方式搜索效率低、耗时长等问题, 提出一种基于8邻域改进的搜索策略, 对当前节点实时动态分配最优的搜索方向。针对路径存在多余无用节点的问题, 使用Floyd算法去除冗余节点, 减少转向次数, 缩短路径长度。针对传统动态窗口法规划的路径非全局最优、目标点附近存在障碍物时规划的路径长度增加或者规划失败的问题, 加入全局关键节点信息和引入目标点距离评估子函数。针对关键节点距离较长导致融合算法规划的路径偏离全局最优路径的问题, 提出关键点密集化策略。最后, 将提出的改进A*算法、融合算法和已有的其他改进算法进行比较, 仿真结果表明: 改进的A*算法能够在复杂环境中生成最短全局路径, 平均转向次数减少16.3%, 平均寻路时间缩短55.66%;融合算法在临时障碍物环境下, 平均路径长度和平均运行时间分别缩短6.1%和14.7%, 在移动障碍物环境下, 平均路径长度和平均运行时间分别缩短1.6%和39.8%。
PIDNet是三分支网络构成的语义分割模型, 在众多竞赛数据集中均保持优秀的分割精度。然而, 积分分支中进行多次下采样和金字塔池化模块中多分支特征融合冗余的缺点限制了算法精度的提高。在水位线检测任务中, 现有算法的缺点会导致局部细节信息丢失, 使得水体边缘精细化检测的能力有所下降。为了缓解这个问题, 提出一种基于改进PIDNet的水位线检测算法。首先设计一种结合通道注意力的轻量化像素增强模块, 在积分分支下采样过程中进行像素增强, 减少局部信息丢失。然后对金字塔池化模块进行重构, 在减小池化输出特征大小的基础上减少并行分支数, 同时在特征融合时结合通道注意力进一步加强关注重要特征的能力, 提高水位线边缘的分割精度。此外, 融合多场景的河流数据集, 避免复杂场景下检测出的水位线位置发生偏移和断线。实验结果表明, 所提方法(S和M)在水位线检测任务中相对原算法(S和M)在3个性能指标上都有所提高, 以M规模为例, 像素正确率提高了1.47个百分点, 平均交并比提高了1.04个百分点, 检测延迟降低了0.9 ms。
机器学习模型的好坏影响预测精度、输入与输出结果的拟合情况。在复杂系统中, 使用单一模型评估系统安全性问题时容易受数据量、数据格式、模型结构以及环境干扰等因素影响, 使得这个模型在解决某个问题的能力上比较出色, 而在解决其他问题时, 结果却不尽如人意。针对上述问题, 提出一种基于特征匹配度和异类子模型融合的安全性评估方法。首先, 按照采样数据的输出值划分不同规模的数据集并构建子模型; 其次, 通过计算每个新数据对于这些子模型的匹配度, 进而得到每个子模型的权重; 最后, 根据权重大小融合所有子模型的子输出得到最终的多模型融合结果。所提方法对山东省济宁市霄云煤矿采掘数据集进行研究, 实验结果表明, 该方法与多样本单模型、少样本单模型和传统多模型方法相比, 在以330/70的比例来构建子模型的情况下均方根误差(RMSE)分别降低了15.13%、51.67%和12.46%, 该方法充分集成各子模型所能提供的有效信息, 减少和分散单一模型的预测误差, 以提高模型的预测精度和泛化能力。
针对软件定义网络(SDN)交换机和控制器的饱和攻击是SDN中的主要安全问题。在使用集成学习方法检测饱和攻击时, 现有方法通常使用距离或熵值等简单的信息计算方法修正证据, 可能存在信息丢失问题, 降低饱和攻击检测精度。为解决上述问题, 提出一种基于曲线决策融合的饱和攻击检测方法(SACOIN)。SACOIN首先计算多分类器概率矩阵的混乱程度修正多分类器内证据; 随后将多分类器概率矩阵转换为曲线并去除噪声, 提取重构小波的信号特征组成特征矩阵; 然后计算特征矩阵行内互信息, 基于上述互信息修正多分类器间证据; 最后使用D-S证据理论融合修正证据, 得到最终检测结果。实验结果表明, SACOIN在检测针对SDN交换机和控制器的饱和攻击时的准确率、精确率、召回率、F1值分别为92.3%、93%、92.1%、91.3%。
智能合约是区块链技术最成功的应用之一, 随着其广泛应用, 智能合约的安全问题也引起了研究人员的关注。尽管已有一些针对智能合约缺陷检测的研究, 但对于智能合约代码特征的挖掘还不充分。提出一种采用多特征融合方式的智能合约缺陷检测方法。首先, 对智能合约代码进行预处理, 其中包括颜色标记、词汇提取、ASCII字符转换以及合约之间继承关系的提取; 然后, 将颜色标记、词汇提取、ASCII字符转换得到的处理信息输入到由BERT、卷积神经网络(CNN)以及双向长短期记忆(BiLSTM)网络构建的融合模型中进行特征提取, 同时将合约之间的继承关系信息输入node2vec随机游走算法, 以获得合约关系的特征向量; 最后, 将所有特征向量连接并输入分类器进行缺陷分类。使用真实的Solidity智能合约数据集对该方法进行验证, 实验结果表明, 相比其他模型, 所提多特征融合模型在F1值实现了6%~12%的改进, 在准确度方面实现了4%~11%的提升, 该方法能够更好地挖掘智能合约代码的深层特征, 提高缺陷检测性能, 对智能合约的安全性具有一定的应用价值。
针对移动边缘计算(MEC)中边缘服务器是否可信的安全性问题, 以及基于深度强化学习(DRL)的任务卸载方案存在收敛慢、波动大的难题, 提出一种基于信任感知和DRL算法的任务卸载方案。首先, 构建基于客观信息熵和历史卸载次数组合赋权的多源反馈信任融合模型, 用于聚合信任反馈信息, 评估边缘服务器的可信度; 然后, 利用基于优先级经验采样的优先经验回放(PER)-SAC算法, 将基站作为智能体, 负责计算任务的卸载决策。实验结果表明, 该方案相较于TASACO、SRTO-DDPG和I-PPO方案, 具有更优的性能和更好的收敛性, 其累积奖励、时延和能耗指标均为最优, 且其收敛速度更快、波动幅度更小, 在多个测试场景下, 相较于TASACO方案能耗性能最少提升5.8%, 最大提升32.2%, 时延性能最少提升8.5%, 最大提升21.3%。
联邦学习是一种分布式机器学习技术, 通过聚合客户端本地模型参数共建全局模型。现有的联邦学习客户端选择算法作用于训练前或者训练后。面对统计异质的客户端数据, 训练前选择算法会使一些性能较差的客户端参与聚合, 导致模型的准确率下降。而训练后选择算法要求所有客户端参与训练, 需要大量的通信开销。为此, 提出双重客户端选择(DCS)算法, 在训练前选择1个客户端训练子集, 以减少全局模型的下发, 在子集训练后选择部分客户端参与聚合, 以减少本地模型的上传。在本地训练前, 服务器根据本地与全局模型的余弦相似度进行层次聚类, 得到不同的选择概率分布, 从中选出无偏的训练子集, 以便更好地适应客户端数据的统计异质性。在子集训练后, 服务器不仅考虑了本地损失, 还结合了本地与全局模型的余弦相似度筛选出聚合子集, 提高全局模型准确率。在Fashion-MNIST和CIFAR-10数据集上的实验结果表明, DCS算法相比于基线算法的测试准确率最大可提升8.55个百分点, 同时上行和下行链路的通信开销分别为O(mn+2d)和O(dn+m)。
边缘计算(EC)技术通过在网络边缘实时处理数据, 解决了单车感知、传感器处理和传输延迟等问题, 为提供高效、安全的自动驾驶服务提供支持。时敏信息是自动驾驶的核心问题, 信息年龄(AoI)成为解决实时性和性能问题的关键指标。将AoI引入自动驾驶EC场景, 在协同感知系统架构中, 以AoI为主要优化目标, 提出最大信息年龄优先的服务策略。通过计算服务策略的时间指标理论值, 寻找影响系统性能的关键参数。采用蒙特卡洛方法对传统服务策略和所提的策略进行对比实验。仿真结果表明, 在随机初始化的批次结构下, 所提的服务策略具有最低的平均AoI, 相比并行服务策略降低了54.57%, 证明其在AoI优化上的显著优势。
在车联网(IoV)边缘计算环境中, 针对如何高效地进行任务卸载和资源分配来缓解移动车辆存储和计算能力有限的问题, 提出多智能体与双层卸载的IoV卸载算法。首先, 提出移动边缘计算(MEC)服务器与车辆以及空闲车辆(MEC-V-NTVC)互联的3层网络模型, 建立了任务模型、判断模型和计算模型; 其次, 将任务车辆的计算卸载以及资源分配抽象成部分可观测马尔可夫决策过程(POMDP), 并提出双层卸载机制以达到最小化系统总成本的目的。基于空闲车辆云以及单调值函数分解QMIX, 提出一种基于双层卸载机制的深度强化学习卸载算法DLSQMIX。该算法协调任务车辆、空闲车辆以及环境信息, 在考虑车辆任务时间约束的情况下, 充分利用MEC服务器以及空闲车辆的计算能力, 求得系统最优卸载决策。从边缘服务器、空闲车辆的计算能力、任务车辆、空闲车辆的数量以及平均任务量等方面对系统开销和时延进行对比。仿真实验结果表明, DLSQMIX算法能够有效求解任务卸载问题, 与遗传算法(GA)、粒子群优化(PSO)算法以及QMIX算法相比, 所提算法的系统开销减小2.52%~3.91%, 时延降低3.50%~6.59%。
针对工业物联网(IIoT)中对信息新鲜性日益增长的需求, 提出一种基于非线性能量采集(EH)的IIoT监控系统, 配备电池容量大小为B的传感器节点, 从无线供电基站(WPS)使用非线性EH技术采集射频(RF)能量进行充电, 电池充满后将采集到的数据发送给数据采集节点。此外, 针对在复杂场景中需要设置多个非线性信息年龄(AoI)算法所存在系统较为复杂的问题, 提出1个普适函数来描述不同的非线性AoI, 并通过调节参数来控制函数图像形状。在推导系统非线性AoI封闭表达式的同时引入系统能量效率(EE), 以两者的比值Ψ作为系统的性能指标。鉴于问题较为复杂, 采用一维搜索方法来寻找最优电池容量。通过系统仿真和数值分析, 证明了存在最优的电池容量B使系统Ψ最小化。仿真结果表明, 信道衰落参数、状态更新大小、WPS发射功率等参数都会对系统的性能产生影响, 在相关系统的优化设计时都需要考虑。当WPS发射功率为0.5 W时, 指数型非线性AoI下的Ψ是对数型非线性的2倍, 是线性的1.8倍。
针对数值模拟输出的大规模科学数据, 体绘制方法为了刻画复杂物理特征, 会进行高密度光线采样, 但由此带来了极大的计算开销和数据增量。在国产自主CPU高性能计算机上, 由于处理器单核的计算能力低于商业CPU, 只能使用更多的处理器核来分担体绘制任务, 从而引起了采样数据并行通信的可扩展性瓶颈。为充分利用国产自主CPU高性能计算机来高效完成体绘制任务, 针对大规模并行体绘制提出一种基于多绘制管线的性能优化技术, 通过多管线、多进程的两级并行模式来降低单条管线的并行规模。在大规模并行体绘制中, 该技术将绘制目标图像划分成多个子区域, 绘制进程则相应分组, 每个进程组独立执行一条绘制管线, 以完成图像相应子区域的绘制, 最后再收集所有的图像子区域, 形成完整图像并输出。实验结果表明, 优化后的体绘制算法在国产自主CPU高性能计算机上可以扩展到万核规模, 并能有效完成体绘制任务。
传统随机遮挡算法在合成葡萄遮挡图像时会导致合成数据失真, 易使葡萄遮挡预测失效。因此, 提出一种适用于葡萄遮挡预测的遮挡数据合成方法, 并进一步提出基于自监督学习的葡萄实例去遮挡预测算法。在数据合成阶段, 该算法采用接近式遮挡策略取代随机遮挡方式用于将完整葡萄实例合成为不同的被遮挡实例, 并在合成过程前通过一系列预处理机制来控制互为遮挡的葡萄实例尺寸, 从而保证合成的遮挡葡萄符合真实情形, 不存在失真问题; 随后, 将遮挡预测过程拆分为掩码重构与语义填充2个部分, 并挑选对应的合成数据分别用于训练基于通用Unet的掩码重构网络和语义填充网络。为了克服因实例分割截取尺寸限制而无法预测完整实例的问题, 该算法在数据合成阶段充分考虑被遮挡实例与遮挡者实例, 并提出对应的重构和填充函数; 在遮挡预测阶段, 基于开源架构训练的Pointrend实例分割网络以及所提出的掩码重构网络和语义填充网络被依次用来完成对被遮挡葡萄的预测。在遮挡估计数据集上进行实验, 结果表明, 该算法预测的遮挡葡萄掩码与真实标注间的交并比(IoU)值达到81.16%, 高于其他对比方法, 表明所提合成算法与重构框架能够用于葡萄遮挡预测任务。
现有图像描述方法只利用区域型视觉特征生成描述语句, 忽略了网格型视觉特征的重要性, 并且均为两阶段方法, 从而影响了图像描述的质量。针对该问题, 提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先, 在特征提取阶段, 利用视觉特征提取器提取出区域型视觉特征和网格型视觉特征; 其次, 在特征融合阶段, 通过视觉特征融合模块对区域型视觉特征和网格型视觉特征进行拼接; 最后, 将所有的视觉特征送入语言生成器中以生成图像描述。该方法各部分均基于Transformer模型实现, 实现了一阶段方法。在MS-COCO数据集上的实验结果表明, 所提方法能够充分利用区域型视觉特征与网格型视觉特征的优势, BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE指标分别达到83.1%、41.5%、30.2%、60.1%、140.3%、23.9%, 优于目前主流的图像描述方法, 能够生成更加准确和丰富的描述语句。
遥感建筑物分割是对遥感图像中的建筑物进行像素级别的分割, 从遥感图像中准确提取出建筑物区域, 包括建筑物轮廓和内部细节信息。由于遥感图像的特殊性, 在对建筑物分割时, 阴影与建筑物颜色相似易造成欠分割, 树木遮挡等因素易造成过分割。针对遥感图像中建筑物轮廓分割不完整、阴影干扰强以及分割边缘锯齿状明显等问题, 提出一种平行结构的多分支特征融合网络(MFF-Net)。该网络以ResNet-50作为主干网络, 解码器采用包含双通道掩码分支的多条平行结构, 分别恢复不同尺度的特征图。同时, 在每条分支结构中使用改进后的CBAM注意力以加强边缘重要特征, 通过双通道掩码结构调整通道交互性, 最后进行特征融合。在ISPRS Potsdam和ISPRS Vaihingen数据集上的实验结果表明, 与现有主流分割网络相比, MFF-Net的全局准确率、精确率、召回率、F1值、均交并比(mIoU)均有不同程度的提升, 在Vaihingen数据集上精确率达到96.22%, F1值达到95.55%, mIoU达到92.16%, 在Potsdam数据集上精确率达到96.95%, F1值达到96.32%, mIoU达到93.40%, 其提取的建筑物轮廓完整清晰, 抗干扰性更强。
黑色素瘤图像病灶分割的主流模型大多基于卷积神经网络(CNN)或Vision Transformer(ViT)网络, 但是CNN模型受限于感受野大小, 无法获取全局上下文信息, 而ViT模型只能提取固定分辨率的特征, 无法提取不同粒度的特征。为解决该问题, 建立一种基于Swin-Transformer的融合双分支的混合模型SwinTransFuse。在编码阶段, 首先利用Noise Reduction图像降噪模块去除图像中的毛发等噪声, 然后采用CNN和Swin-Transformer构成的双分支特征提取模块来提取图像的局部细粒度信息和全局上下文信息, 并对来自Swin-Transformer分支的全局上下文信息使用SE模块进行通道注意力操作以增强全局特征的提取, 对来自CNN分支的局部细粒度信息使用卷积块注意力机制模块(CBAM)进行空间注意力操作以增强局部细粒度特征的提取, 接下来利用Hadamard积运算对两个分支输出的特征进行特征交互以实现特征的融合, 最后将SE模块输出的特征、CBAM模块输出的特征和特征融合后的特征进行拼接以实现多层次特征融合, 并通过一个残差块输出交互后的特征。在解码阶段, 将特征输入到上采样模块得到图像最终的分割结果。实验结果表明, 该模型在ISIC2017和ISIC2018皮肤病数据集上的平均交并比分别为78.72%和78.56%, 优于同类型的其他医学分割模型, 具有更高的实用价值。
人脸识别技术是公安侦查中人证核验的关键技术之一。尽管现有算法在无遮挡人脸识别上都能达到较高的识别精度, 但当人脸被遮挡时, 使得有效的人脸特征丢失, 导致识别精度大幅下降。针对上述问题, 提出一种基于深度特征抑制的遮挡人脸识别网络, 通过遮挡人脸自适应地生成特征掩码, 利用特征掩码抑制深层特征图中因遮挡损坏的特征, 最后根据抑制后的特征完成人脸识别。为了提升抑制后特征的辨别力, 在训练环节通过孪生网络结构将遮挡人脸与对应无遮挡人脸的深度特征进行度量学习。同时利用不同层次的特征信息, 构建特征金字塔网络(FPN)和自适应特征融合模块对人脸的多尺度特征信息进行提取, 对其中包含特征信息较多的特征层赋予更大的融合权重, 从而增强特征的表征能力。实验结果表明, 该方法具有较好的鲁棒性, 其中在LFW数据集和LFW口罩遮挡数据集上的准确率分别达到了99.50%和98.42%, 在AR数据集4个实验设置上的准确率分别达到了100%、100%、99.86%和99.02%, 优于目前的主流算法。
图像融合是将多个输入图像合并成一个单一图像的技术。可见光红外图像融合能提高目标检测的准确性, 但在低光照场景下往往效果不佳。基于此, 提出一种新的融合模型DAPR-Net。该模型具有跨层残差连接的编解码结构, 将编码器的输出与解码器的对应层的输入相连接, 加强各层卷积层间的信息传递。在编码器中设计了双注意力特征提取模块AFEM, 使得网络能够更好地区分融合图像与输入的可见光和红外图像之间的差异, 同时保留两者的关键信息。在多个公开数据集上与6种先进方法进行对比, 实验结果表明, 与基准PIAFusion模型相比, 该模型在LLVIP和MSRS数据集上的信息熵、空间频率、平均梯度、标准差、视觉保真度指标分别提高了0.849、3.252、7.634、10.38、0.293和2.105、2.23、4.099、27.938、0.343;在YOLOV5目标检测网络上, LLVIP和MSRS数据集的平均精度均值、召回率、精确率、F1值指标分别提高了8.8、1.4、1.9、1.5个百分点和7.5、1.4、8.8、1.2个百分点, 相较于其他融合方法表现出更显著的优势。
图像语义分割技术在缺陷检测、医疗诊断、无人驾驶等领域广泛应用。针对现有语义分割模型普遍存在训练成本过高、目标轮廓分割效果不佳以及对小目标误分割、漏分割等问题, 基于DeepLabv3+网络框架, 提出多注意力机制与跨特征融合相结合的图像语义分割算法。该算法选取轻量级网络MobileNetv2作为主干, 以缩短训练时间; 通过优化空洞空间金字塔池化模块中空洞卷积的膨胀率, 改善多尺度语义特征的提取效果, 提高模型对小目标的分割能力, 并将兼具通道与空间的卷积块注意力机制引入其中, 更加关注对分割起决定作用的区域, 从而加强对目标边界的提取; 在编码器中设计跨特征融合模块, 以聚合不同层次特征图的空间信息和语义信息, 提高网络学习特征的能力; 在编码和解码部分均引入坐标注意力机制, 以分解全局平均池化的方式将位置信息嵌入到通道中, 从而得到分割目标的准确位置。实验结果表明, 所提算法F3crc-DeepLabv3+在PASCAL VOC 2012增强数据集和Cityspaces数据集上的平均交并比分别达到了75.06%和73.06%, 平均精度分别达到了84.16%和82.05%, 精确率分别达到了86.18%和85.43%, 训练时间分别为10 h和13.8 h, 具有较优的网络性能。
全监督方法在心脏磁共振成像(MRI)分割任务中的成功依赖于大规模标记数据集, 然而由于患者隐私及人工标注困难等问题, 心脏MRI标注数据规模较小, 使全监督方法面临挑战。基于半监督的对比学习方法, 设计双分支编码与单分支解码的心脏MRI分割网络CPCL-Net, 引入图像和像素的联合对比损失, 提升了模型对数据样本的特征表达能力。为了增强CPCL-Net对Hard负样本的分割精度, 设计动态自适应加权模块(DAWM), 利用生成的
随着我国航天技术的迅猛发展, 各种航天器相继发射, 然而航天器在运行时将受到辐射、温度变化等不可控因素的影响, 这会导致地面站无法精确测量和定位航天器的位置与姿态, 从而对通信和航天器之间的对接或抓捕等空间在轨服务产生影响。为了解决上述问题, 首先对包含检测、分割与部件识别的航天器数据集SDDSP中的部件进行人工标注, 该数据集共包含3 117张航天器图片, 标注后得到11 001个检测目标; 然后提出一种空间在轨服务中基于残差自注意力(RS)和分离集合匹配(SSM)的高效端到端航天器组件检测模型, 该模型在Sparse DETR模型的基础上引入残差自注意力机制解决了稀疏标记(token)导致的收敛速度降低并影响模型预测精度的问题, 引入分离集合匹配机制解决了二分匹配过程中可能出现的不稳定性现象。实验结果表明, 在SDDSP数据集上, 该模型的平均精确率(AP)和收敛速度相比于基线DETR模型提升了17.9个百分点和10倍, 相比于Sparse DETR模型提升了3.1个百分点和20%。
针对光线在水中的散射和吸收效应造成水下图像纹理和结构不清晰的问题, 提出一种基于卷积调制(CM)与空间协作(SC)的水下图像增强算法。以编码器-解码器作为基础网络, 使用RepVGG的浅层和深层网络分别提取水下图像的纹理和结构特征。首先, 特征主导网络将RepVGG中提取到的水下图像特征转化成具有不同尺度的纹理和结构特征, 使其与解码器中的特征图进行拼接融合。其次, 在编码器中使用卷积调制模块, 采用深度可分离卷积(DSConv)模拟自注意力机制的方式减少图像细节信息的丢失, 提高编码器特征提取的能力。最后, 在解码器中使用空间协作卷积(SCConv), 在空间维度上处理水下特征保留更多的位置信息, 以提高解码器对融合后特征的增强能力。实验结果表明, 该算法在视觉感知与性能指标上优于对比算法, 峰值信噪比(PSNR)和结构相似性(SSIM)指标最高达到23.446 5 dB和0.894 6, 水下彩色图像质量评价(UCIQE)和水下图像质量测量(UIQM)指标最高达到0.582 6和3.068 9, 进一步证明了该算法能够有效增强水下图像的纹理和结构特征, 具有较好的视觉感知效果。
针对自适应图像隐写中如何在轻量化隐写、最佳嵌入定位、高隐匿输出三者之间实现均衡的问题, 提出一种基于深度强化学习的自适应图像隐写算法(AISA-DRL)。设计一种轻量化安全隐写网络, 在降低模型隐写成本的前提下加强模型对图像隐写特征的提取能力, 增强载密图像的安全性和稳定性。首先将具有高效特征融合特性的EPSANet引入EfficientnetV2-s, 得到改进的EPSA-EfficientnetV2-s, 以提高像素级嵌入过程的表征能力, 从而获得最优像素修改位张量。随后将秘密信息与最优像素修改位张量加权求和得到载密图像。最后通过学习隐写分析网络对载密图像进行最优像素级奖励分配, 根据设计的最小化失真函数通过梯度回传来更新网络参数, 以获得最佳嵌入位置, 从而实现秘密信息的最佳化嵌入。实验结果表明, AISA-DRL算法的模型参数量减少了94.22%, FLOPs减少了24.88%, 与其他基于强化学习的隐写方案相比, 在不同经典隐写分析器下的检错率提高了2.48%~6.55%。此外, 在不同载荷下生成的载密图像PSNR值均在30 dB以上, 不仅提高了模型对像素修改位的定位准确率, 而且使隐写网络具有更强的表征能力。
在如今大数据和机器学习应用范围不断扩大的背景下, 分布式计算系统成为处理庞大数据的必要工具。对于具有一定规模的计算集群, 其性能会不可避免地受到系统噪声的影响, 应考虑在分布式计算系统中借助编码技术来增强系统的鲁棒性。现有应用于分布式矩阵计算的编码方案多为固定速率编码, 无法适应节点数量动态变化的实际情况。同时, 由于部分任务有截止期限制, 应在保证任务顺利完成的前提下尽可能地减少平均开销从而降低时延。针对上述问题, 提出将LT码应用于雾计算场景下的分布式矩阵计算, 设计Remo2算法。依托LT码的无速率特性自适应信道状态变化, 通过合适的度分布函数设计以及双向切割、因子化度数的方法达到降低时延、增强分布式计算系统鲁棒性的预期效果。令k1为A矩阵被切分后的子矩阵行值, k2为B矩阵被切分后的子矩阵列值, 实验结果表明, 在
在基于脑电的卒中分类诊断任务中, 以卷积神经网络为基础的深度模型得到广泛应用, 但由于卒中类别病患样本数量少, 导致数据集类别不平衡, 降低了分类精度。现有的少数类数据增强方法大多采用生成对抗网络(GAN), 生成效果一般, 虽然可通过引入缩放点乘注意力改善样本生成质量, 但存储及运算代价往往较大。针对此问题, 构建一种基于线性有效注意力的渐进式数据增强算法LESA-CGAN。首先, 算法采用双层自编码条件生成对抗网络架构, 分别进行脑电标签特征提取及脑电样本生成, 并使生成过程逐层精细化; 其次, 通过在编码部分引入线性有效自注意力(LESA)模块, 加强脑电的标签隐层特征提取, 并降低网络整体的运算复杂度。消融与对比实验结果表明, 在合理的编码层数与生成数据比例下, LESA-CGAN与其他基准方法相比计算资源占用较少, 且在样本生成质量指标上实现了10%的性能提升, 各频段生成的脑电特征样本均更加自然, 同时将病患分类的准确率和敏感度提高到了98.85%和98.79%。
针对嵌入式领域低开销、高性能的应用需求, 设计一种基于RISC-V开源指令集架构的32 bit微处理器。采用顺序发射、顺序执行、乱序写回的五级流水线结构, 实现了整型和乘除法指令集模块组合。为了应对流水线冲突, 处理器采用动态分支预测技术, 设计数据相关性控制和乱序写回机制。使用Verilog进行设计并采用先进高性能总线(AHB)和高级外围总线(APB)为互联总线协议构建片上系统(SoC)。在仿真环境下通过编写RV32IM汇编指令测试程序, 完成对处理器逻辑功能的验证。在Vivado综合工具下添加时序约束和物理约束条件后, 对处理器代码进行逻辑综合并分析处理器硬件资源利用情况, 最后将综合生成的码流文件下载到Xilinx Artix-7 (XC7A200T-2FBG484I) 现场可编程门阵列(FPGA)开发板中并以50 MHz的主频运行CoreMark程序, CoreMark跑分达到3.25 CoreMark/MHz。实验结果表明, 处理器性能跑分与ARM Cortex-M3系列处理器基本持平, 在各项技术对比指标相同的前提下, 所设计的处理器跑分均优于RISC-V处理器对比项。所设计的处理器逻辑功能正确, 使用较低的硬件开销, 取得相对较高的性能指标, 适用于成本受限的高性能嵌入式应用领域。
随着人工智能(AI)的飞速发展,新算子和底层硬件层出不穷,这给算子库的开发和维护带来了巨大的工作量。单纯基于手工优化来解决AI模型的性能和效率很容易出现瓶颈。TVM深度学习编译器通过代码的自动化生成减轻了手工优化的负担,但同时也存在搜索时间长的问题。为此,针对TVM的自动化代码生成框架Ansor,提出基于梯度提升算法的新代价模型和基于预定义规则的调度空间剪枝优化2种优化策略,旨在加速TVM的自动化代码生成过程,实现模型快速落地与部署,并进一步为人工智能技术的应用提供更高效的解决方案。实验结果表明,通过应用优化后代价模型可以在不损失推理时间的前提下,使得在x86 CPU平台上模型的调优时间减少30%~35%,同时优化后算子性能最高可提升22%,使得在深度计算单元(DCU)平台上模型的调优时间减少20%左右,同时优化后算子平均性能提升5.7%,此外,基于预定义规则的剪枝策略可以有效提升代价模型的收敛速度,并且在原有最佳迭代次数下,模型推理时间可提高7.4%。
作文自动评分(AES)是教育领域中应用自然语言处理(NLP)技术的重要研究方向之一, 其旨在提高评分效率, 增强评价的客观性和可靠性。针对主题相关性缺失和长文本信息丢失问题以及预训练语言模型BERT不同层次能够提取不同维度特征的特点, 提出一种基于主题感知和语义增强的作文自动评分模型。该模型采用多头注意力机制提取作文的浅层语义特征并感知作文主题特征, 同时利用BERT的中间层句法特征和深层语义特征增强对作文语义的理解。在此基础上, 融合不同维度的特征并用于作文自动评分。实验结果表明, 该模型在公共数据集ASAP的8个子集上均表现出了显著的性能优势, 相比于通义千问等基线模型, 其能够有效提升作文自动评分性能, 平均二次加权的卡帕值(QWK)达到80.25%。
在信息爆炸的互联网时代, 谣言传播的速度越来越快, 传播的范围越来越广。社交媒体和互联网的普及使得谣言可以在短时间内迅速传播, 给个人、组织和社会带来负面影响, 因此, 对谣言传播进行研究具有重要意义。目前已有大量文献研究社交网络中的谣言传播问题, 但较少考虑禁言机制对谣言传播与辟谣模型的作用, 而禁言对维护社交网络的秩序与安全具有现实意义。为此, 在经典SIR谣言传播模型的基础上, 提出一种考虑禁言机制的谣言传播与辟谣模型, 从竞争性创新扩散角度建立其数学方程。此外, 通过对该模型进行实验仿真, 研究禁言周期、记忆时长、遗忘率等因素对谣言传播的影响。实验结果表明, 抑制策略在多数情况下能够对谣言传播起到有效的控制效果, 然而, 增大禁言周期可能并非最佳方案, 较低的遗忘率、较长的记忆时间和提高公信力对谣言传播控制也十分重要。
变压器是大型电力系统中的关键重要设备, 其机理复杂且影响面广, 对变压器的状态检测与故障诊断是传统电力系统中的关键问题, 也是智能化时代下智能算法应用的重要方向。为解决现有的智能化故障诊断研究受限于故障样本稀缺、诊断结果可解释性差、模型更新困难等问题, 提出一种基于时序流数据动态分析的变压器故障诊断模型。首先通过人工辅助标注和数据增强方法, 构建具有序列特征的高置信故障数据样本库; 然后使用由融合时序特征分析器和多分类器构成的神经网络模型作为训练及分析的模型基础, 构造基于相似案例的推理方式, 通过距离相似性、模式相似性、形状相似性等多维度距离度量方法, 对实时检测到的流数据进行故障诊断及分类预警, 以指导运维人员结合历史经验及智能技术开展故障分析。实验结果表明, 所提方法在故障诊断的准确性与可解释性上显著提升, 可应用于变压器故障在线诊断真实场景中。
随着能源转型和碳中和的全球发展趋势, 储能变流器关键组件的稳定性变得至关重要。特别是其功率器件和散热器在实际运行中的稳定性直接关系到整个系统的可靠性。关注储能变流器功率模组振动信号的故障诊断问题, 传统诊断方法处理复杂信号时往往面临挑战, 需要频繁地调整参数。此外, 由于储能变流器的工作环境复杂, 现有深度学习诊断方法的性能也不尽如人意。为此, 提出一种基于大模型知识和通道注意力网络的储能变流器功率模组故障诊断方法LLMCAN。首先通过预训练的大规模语言模型, 在特征提取过程中利用丰富的领域知识, 增强模型对复杂功率模组振动信号的分析能力。其次引入通道注意力网络使模型能够自适应学习信号中不同通道之间的关系, 提高故障诊断的准确性。在包含1 000条真实工况数据的储能变流器信号数据集上进行验证, 其中包括正常工况和9种故障模式。实验结果表明, 该方法在多种度量指标下均显示出优越性能, 其中诊断准确率高达99.8%, 远超传统方法, 为储能变流器功率模组的故障诊断提供一个高效、准确的解决方案。