全面概述大语言模型(LLM)在数学推理中的研究进展、机制原理以及应用趋势, 为后续开展相关研究提供参考借鉴。选取与大语言模型在数学推理领域相关的122篇文献。系统描述了数学推理问题的类型及其数据集, 分别从增强模型推理能力的策略和思维链提示方法这两方面深入解析各技术的原理、应用价值和存在问题。通过定性分析, 提出未来可能的研究方向。大语言模型相关研究发展迅速, 相关调研工作可能未覆盖完整。基于思维链提示技术、微调、利用编程语言等外部工具、验证机制等方法可以有效提升大语言模型的数学推理能力, 特别是基于思维链提示的方法成为当前大语言模型的主要研究热点。未来研究工作可在进一步提升大语言模型的推理能力、提出解决数学推理问题的新方法等方面展开深入研究。
文本相似度计算是自然语言处理的一部分, 用来计算两个词、句子及文本之间的相似程度, 具有多种应用场景, 文本相似度计算的研究对于人工智能的发展有着重要作用。文本相似度计算起初基于字符串表面, 随着词向量的提出, 文本相似度计算可进行基于统计以及深度学习的建模与计算, 也可与预训练模型相结合。首先, 将文本相似度计算方法分为基于字符串、基于词向量、基于预训练模型、基于深度学习、其他方法5类, 并对这些方法进行简要介绍。然后, 根据不同文本相似度计算方法的原理, 具体介绍了编辑距离、汉明距离、词袋模型、向量空间模型(VSM)、深度结构语义模型(DSSM)、句子嵌入的简单对比学习(SimCSE)等常见方法。最后, 对文本相似度计算常用的数据集以及评价标准进行整理和分析, 并对文本相似度计算的未来发展进行展望。
遥感图像时空融合超分辨重建从高时序密度的低分辨率图像和低时序密度的高分辨率图像中提取信息, 生成同时具有高时序密度的高分辨率遥感图像, 它直接关系到后续的解译、检测、跟踪等任务的实施。随着卷积神经网络(CNN)的快速发展, 研究者们提出了一系列基于CNN的时空融合方法, 然而由于卷积的局限性, 这些方法在全局信息提取方面仍然存在不足。受Swin Transformer全局能力的启发, 提出一种基于Swin Transformer的超分辨重建模型。在特征提取阶段, 引入双流结构, 将特征提取网络分为两个部分, 分别提取时间信息与空间信息, 并通过Swin Transformer的全局能力提升模型性能。在特征融合阶段, 引入结合通道注意力与空间注意力的卷积块注意力模块(CBAM), 用于增强重要特征, 提升图像重建精度。在Coleambally灌溉区(CIA)与Gwydir下游流域(LGC)数据集上将该模型与多种时空融合超分辨率重建模型进行对比实验, 结果表明该模型在各项评价指标上均取得了最优的结果, 具有更出色的性能和更强的泛化能力。
在自然界中, 生物入侵以其发展的迅速和巨大的生态影响而受到关注, 所引入种群对合适栖息地的寻找过程往往有其内在的逻辑, 种群之间的交流和种群的扩张也在这个过程中起到了重要作用。通过探究种群对适宜栖息地的寻找原理, 提出一种基于生物入侵的特征选择(BIAFS)算法。在BIAFS算法中, 生物入侵过程分为种群建立、种群迁移、种群交流和扩张、种群发展4个阶段。在实验验证过程中, 在9个数据集上将BIAFS算法与8种高性能算法进行实验比较。实验结果显示, BIAFS算法在7个数据集上的分类准确率(CA)和降维(DR)率均超过了对比算法。此外, 适应度标准偏差的比较实验也证实了BIAFS算法的高稳定性, 表明其在多个数据集上能更加稳健地寻找最优解。上述实验结果证明了BIAFS算法在特征选择任务中的有效性和优越性。
在磁浮轨道的仿真数据处理过程中, 磁浮轨道点云数据的滤波提取是重要环节之一, 实际应用应根据待提取的磁浮数据特性, 采用高效的滤波方法。磁浮轨道的点云数据对象主要包括由无人机(UAV)倾斜摄影获取的磁浮轨道的图像数据并经过三维重建后形成的稠密点云数据、由手持式激光雷达扫描磁浮轨道获取的激光点云数据。根据这两种点云的数据特性, 考虑磁浮轨道四周复杂场景的点云环境, 分别对两种点云进行混合滤波。首先, 对激光点云数据采用八叉树下采样方法, 有效降低了点云数据的数量级, 节省了运行时间。然后, 分别对激光点云与稠密点云数据采用布料模拟滤波(CSF)方法, 过滤了地平面点云数据, 保留了非地面点云数据; 采用统计离群点去除(SOR)滤波方法, 筛除了大量离群点; 根据磁浮轨道特征, 采用直通滤波过滤了坐标范围外的点云数据。实验结果表明, 在不影响磁浮轨道结构的前提下, 对于采用八叉树下采样方法的激光点云数据和没有采用八叉树下采样的稠密点云数据, 该方法的滤波率分别为86.15%和64.76%, 经混合滤波后的两种点云数据的结构近似, 点云数量处于同一数量级, 为磁浮轨道点云特征提取等后续任务提供了有效保障。
行政执法的智能化水平是国家治理能力现代化的体现, 数据是智能化发展的重要依托。在行政执法领域, 各行政机关存储大量以文本形式记录的历史案件, 这种非结构化的数据价值密度较低、可利用性不强。利用事件抽取技术从行政执法案件文本中快速高效地抽取案件职权类型、案发时间、案发地点等结构化信息, 可推动行政机关对历史案件信息的利用和智能化执法办案研究。收集整理某城市的真实案例数据, 并通过人工标注构建一个行政执法领域的数据集, 根据行政执法案件文本的无触发词、文档级、格式不固定等文本特征, 提出结合基于Transformer的双向编码器表示(BERT)和基于条件随机场的双向长短期记忆网络(BiLSTM-CRF)模型的两阶段事件抽取方法, 通过文本多分类和序列标注依次完成事件类型检测和事件论元抽取任务。实验结果表明, 事件类型检测任务的F1值达到99.54%, 事件论元抽取任务的F1值达到97.36%, 实现了对案件信息的有效抽取。
与2D图像数据集相比, 3D点云数据集的规模较小且表征性较差, 容易导致神经网络出现过拟合和泛化能力差的问题。为此, 提出一种点云自蒸馏(PointSD)框架, 通过对表征形式不同的数据样本进行学习, 使网络提取到原始点云数据中的更多特征信息, 实现样本之间的知识交互, 在不增加额外计算负荷的情况下提升网络的泛化能力, 适用于不同规模的分类网络模型。基于该框架提出一种点云抗腐败训练方法TND-PointSD, 解决了当前点云训练方法抗腐败能力不足的问题。实验结果表明: 在ScanObjectNN数据集上, 应用PointSD框架的PointNet++和RepSurf-U‡2X基准网络的平均准确率(MA)相比于应用标准训练(ST)方法提高了8.22和4.86个百分点; 在ModelNet40-C数据集上, 在15种腐败类型上分类网络的平均整体准确率(MOA)均有所提升, 证明了TND-PointSD方法能够有效地增强网络模型的腐败鲁棒性。
在Kubernetes中, HPA具备自动扩展Pod的能力, 它可以根据流量的波动情况, 在高峰时增加Pod数量以应对需求, 而在低谷时减少数量以节省资源。然而, 由于HPA是根据当前Pod的性能指标来进行扩展的, 当流量激增时, 可能会对应用服务的可用性产生不利影响, 并且当压力较小时, 算力资源的空载会导致电子资源的浪费。针对上述问题, 研究并验证一种基于时序预测的集群资源自动缩放与智能休眠唤醒策略, 使用GC-TimesNet模型对集群资源的使用情况进行预测。当资源利用率较低时, 计算出需要关闭的算力节点数量, 将这些节点设置为不可调度状态, 并驱逐节点现有的Pod, 然后将这些机器置于睡眠状态。相反, 当资源需求增加时, 会唤醒足够数量的机器, 并通过HPA控制器增加所需数量的Pod副本。实验结果表明, 该策略能够较为准确地预测集群负载的变化趋势, 结合实施智能的休眠与唤醒策略, 提升优化集群的运维管理能力, 最大程度地提高计算资源的利用率, 为降低集群能源开销提供数据支撑, 实现节能减排。
特征演化流是指特征空间以任意形式动态变化的数据流, 其中同时存在数据类别分布不平衡的现象, 这给数据流分类任务带来巨大挑战。在线学习是数据流挖掘的有效工具之一, 但目前鲜有在线学习框架可同时处理数据流中特征演化和类不平衡问题。因此, 提出一种类不平衡的特征演化流在线学习方法。首先, 对实例特征进行划分, 并将分类器分别投影至对应特征空间, 结合在线被动-主动算法分别训练不同特征空间下的分类器; 然后, 将代价敏感指标最小化问题融入模型在线优化目标函数中, 根据不平衡率定义新的代价敏感因子, 动态调整类别权重以解决类不平衡问题; 最后, 为提高分类器泛化性能, 利用变异系数筛选出重要特征, 从而对分类器稀疏截断处理。大量仿真实验结果表明, 该方法在11个UCI数据集上均获得较高的准确率、几何均值和马修斯相关系数, 分别平均提升约0.021、0.058和0.072, 验证了所提方法对特征演化流具有良好的自适应能力, 同时能有效处理特征演化流中的类不平衡问题。
命名实体识别作为构建知识图谱的基础任务, 其识别效果直接影响知识图谱的质量。在实际生产中, 机械故障数据通常包含大量的领域专业词汇, 同时实体类型普遍存在分布不平衡的问题, 这对准确识别故障实体构成了挑战。通用领域实体识别方法在这一领域效果欠佳, 从而降低了知识图谱的质量。为应对上述问题, 提出一种融合焦点损失(Focal Loss)函数和专业词典的实体识别方法。该方法使用Focal Loss函数应对实体类型不平衡问题, 通过引入平衡因子和调制系数, 改进传统的交叉熵损失函数, 提升实体识别效果, 同时将领域专业词汇嵌入到模型中, 进一步提高实体识别性能, 这一词典包含机械故障的领域术语, 有助于模型更准确地识别机械设备故障命名实体。在自建的矿井提升机实验数据集上进行广泛实验验证, 结果证明, 融入Focal Loss后模型的F1值比主流模型BERT-BiLSTM-CRF提高了5.57个百分点, 相比用于解决数据不平衡的典型方法SMOTE效果更优, 在此基础上, 通过嵌入领域词典, 模型的F1值得到进一步提升, 达到89.13%。
高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题, 提出一种基于大语言模型的中文科技文献标注方法。首先, 制定适用于多领域中文科技文献的细粒度标注规范, 明确标注实体类型以及标注粒度; 其次, 设计结构化文本标注提示模板和生成解析器, 将中文科技文献标注任务设置成单阶段单轮问答过程, 将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词; 然后, 将提示词注入到大语言模型中生成包含标注信息的输出文本, 经由解析器解析得到结构化的标注数据; 最后, 利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL, 其中包含分布在48个学科的10 000篇标注文档以及72 536个标注实体, 并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明, BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳, F1值为0.335。上述结果可作为后续研究的测试基准。
目标语音提取作为语音分离领域的一部分, 旨在从混合语音数据中提取出目标语音。考虑到视听信息具有天然一致性, 在进行模型训练时, 可以融合视觉信息指导模型对目标语音的提取。对此, 传统方法是将视觉特征和音频特征进行简单拼接, 然后进行卷积操作实现通道融合, 这种方法无法有效挖掘到跨模态信息间的相关性。针对这个问题, 设计一个基于两阶段的跨模态注意力特征融合模块。在第一阶段进行点积注意力计算来挖掘跨模态信息间存在的浅层相关性, 在第二阶段进行自注意力计算来捕捉目标语音特征间的全局依赖关系, 以增强目标语音的特征表示, 2个融合阶段分别训练不同的可学习参数来调节注意力权重。此外还在时间卷积网络(TCN)中引入门控循环单元(GRU)来增强其捕捉序列数据间长期依赖关系的能力, 从而改善视觉特征的提取, 进一步提升视听特征的融合效果。在VoxCeleb2和LRS2-BBC两个数据集上进行测试, 实验结果表明, 相比于基线方法, 提出的方法在2个数据集上都有较好的表现, 在评估指标源失真比(SDR)上分别提升了1.05 dB和0.26 dB。
采用相关滤波的判别式目标跟踪算法因具有较好的跟踪效果得到广泛关注, 但该类方法使用的矩形框估计法通常只能得到目标正矩形框, 难以获得目标更加精细的状态信息, 如旋转矩形框、目标轮廓、掩码信息等。为解决上述问题, 提出一种基于Transformer的单目标跟踪与分割统一算法T-TS, 利用Transformer的注意力机制优势对目标精确定位, 通过得到的目标定位编码信息引导目标分割网络对目标进行前、背景分割, 获得目标精细掩码, 再对掩码进行形态学处理, 优化得到目标的最佳旋转矩形框及其轮廓。在跟踪数据集VOT2018和分割数据集DAVIS上进行实验, 结果显示, T-TS算法与孪生网络类算法相比具有更高的鲁棒性, 与相关滤波类算法相比具有更高的跟踪精度, 其在VOT2018上期望平均重叠率指标达到0.463, 在视频分割任务上也实现了较好结果, DAVIS2016和DAVIS2017上Jaccard指标分别达到77.3和65.3, 运行速度达到34 frame/s。实验结果表明, 该算法能够准确得到旋转矩形框, 对目标进行精准预测, 有效解决目标旋转、形变等问题。
实体对齐是融合不同来源知识图谱的关键步骤。现有的实体对齐方法主要利用结构信息和名称信息, 对实体属性值的利用还不够充分, 同时在结构利用方面主要利用一阶邻域的结构进行信息的传递, 对距离较远的邻居实体的感知能力不足。针对以上问题, 提出一种基于多跳信息融合的实体对齐模型。使用预训练语言模型编码属性值信息, 在模型的输入中使用实体的名称信息和属性值信息, 将其分别输入到2个通道的编码器中进行信息融合, 通过多重注意力机制融合不同距离的实体信息, 分别计算出不同信息表示下的距离矩阵, 对矩阵融合调整后得出最终对齐结果。在原始和降质后的DBP15K数据集上的实验结果表明, 所提模型相比现有的各基线模型总体上得到了更精确的对齐结果, 其中Hits@1性能比最优模型分别提高了2.51和5.54个百分点。
针对现有知识图谱卷积网络(KGCN)推荐模型随机采样选择邻域容易导致推荐结果不稳定的缺点, 构建基于结构洞和共同邻居的重要性排序采样模型(SHCN), 结合KGCN处理高维异构数据的优势, 提出基于结构洞和共同邻居的KGCN推荐模型(KGCN-SHCN)。首先使用SHCN模型对知识图谱中的实体邻域进行排序采样, 其次根据图卷积网络将实体信息与邻域采样信息进行聚合得到学习资源的特征表示, 最后将学习者的特征表示和学习资源的特征表示依据预测函数得到交互概率。在3个学习资源数据集上的实验结果表明, 所提模型尤其是使用求和聚合(Sum)方式时, 评价指标AUC和ACC总体优于KGCN、RippleNet等基于知识图谱的推荐模型, 证明了所提KGCN-SHCN模型的有效性。
局部保持投影(LPP)方法是机器学习领域中一种经典的降维方法。然而LPP方法以及部分改进方法在构建数据的局部结构时简单地使用k最近邻(k-NN)分类算法寻找样本的近邻点, 容易受到参数k、噪声和异常值的影响。为了解决上述问题, 提出一种基于最优近邻的LPP方法。该方法使用寻找最优近邻算法, 在找到样本近邻点后, 进一步选择与样本有一定数量的共同近邻点的近邻样本作为最优近邻, 通过共同近邻点的限定来选择与样本最相似的近邻, 增强近邻样本间的相关性, 避免了传统LPP方法受参数k影响大等问题。在选择出足够的样本最优近邻后, 构建数据局部结构, 以便准确地反映数据的本质结构特征, 使降维后的数据能最大程度保留样本的有效信息, 提升后续机器学习模型的性能。公共图像数据集上的对比实验结果表明, 该方法具有较好的数据降维效果, 有效地提高了图像识别准确率。
工业用电占我国全社会用电量比重大, 通过工业负荷预测了解负荷趋势和用电量信息, 有助于电网安全稳定运行, 为电力部门发电规划提供依据, 且有助于工业用户优化生产工艺和降低成本。为了兼顾工业负荷波动的不确定性以及工业用户用电行为的规律性特征, 提出一种基于多时间尺度(MTS)特征的工业负荷预测方法MTS-BiGRU-DMHSA, 利用MTS特征融合挖掘工业负荷的周期趋势特征和局部波动特征, 提升工业负荷表征的可解释性。此外, 双层多头自注意力(DMHSA)机制利用注意力权重聚焦重要特征, 在挖掘输入特征关联性的同时捕捉时序关联性, 强化重要特征变量与关键时间步的信息表达。在中国某工业企业五面受总柜实采数据上完成实验验证, 采用2种评价指标对所提方法及5种基于神经网络的预测方法进行对比分析。实验结果表明, 所提方法相较于对比方法平均误差降低逾20%, 其中4.67%得益于对MTS特征的运用。通过对比各方法计算效率证实了所提方法的综合性能优势, 可视化实验结果与对比分析也验证了其在工业负荷预测任务上的可行性。
近年来误食有毒野生菌导致的中毒事件频发, 严重危害人们的身体健康, 这使得准确鉴别野生菌变得尤为重要。然而, 现有的野生菌分类算法在处理背景噪声大、类间差异小和类内差异大的图片时容易出现识别错误的问题。为了解决这一问题, 提出一种基于Vision Transformer(ViT)架构结合多级区域选择和跨层特征融合的野生菌分类算法。该算法旨在捕获具有强鉴别力的特征, 以确保网络能够聚焦在主要信息上, 并提高分类的准确性。首先采用ViT作为网络框架, 以提取野生菌图像的特征和全局上下文信息。其次设计多头自注意力选择模块, 用于提取具有鉴别力的token, 并通过自适应分配算法为不同层级的编码层确定抽取token的数量。最后为进一步提升分类性能, 引入跨层特征融合策略和标签平滑损失进行拟合训练, 从而减少细节信息的丢失。为使网络对野生菌图像特征的学习更具针对性, 自建野生菌数据集。实验结果表明, 所提出的算法与基线算法相比, 分类精度有了显著提高, 准确率达到98.65%。
系统级芯片(SoC)集成多种外设接口, 其外设接口的验证工作已经成为芯片开发最耗时的环节之一。PCIe协议为系统内部提供了高速的点对点串行互联服务, 同时还支持热插拔和热交换, 逐渐成为一种通用的总线协议。使用传统硬件描述语言(HDL)对PCIe接口设计进行验证时, 存在短时间内难以覆盖多种设计场景和边界条件, 以及验证不完备等问题。为了解决上述问题, 利用统一验证方法学(UVM)搭建1个PCIe接口的验证平台。该平台采用UVM定义的框架和测试类, 实现了顶层环境集成和测试约束的设计, 具有可重用性强和验证全面的特点。实现的内容包括SoC系统级环境集成、待测模块设计与连接、验证平台中sequencer类和monitor类的实现, 以及部分接口设计。为了确保测试用例覆盖尽可能多地设计状态和路径, 针对性地划分不同功能点, 并设计约束条件。通过多种覆盖率指标对测试用例的有效性和覆盖程度进行评估。实验结果表明, 该验证平台能缩短验证周期, 使综合覆盖率提高30%以上。
数据结构是程序执行时的重要信息载体, 其演变过程往往较为复杂和抽象。针对程序设计初学者较难理解数据结构演变过程的问题, 提出一种面向程序调试中的数据结构演变可视化方法。在调试开始时, 首先使用组件表达式表示数据结构, 然后通过配置表以及布局函数将组件表达式生成可视化视图。在进行单步调试后, 通过对比单步调试前后的可视化数据方式生成组件演变行为, 运用有限状态机理论构建数据结构演变模型, 该模型的执行使得组件发生演变, 同时生成可视化动作。使用动画单元执行可视化动作, 实现数据结构演变的可视化呈现, 帮助初学者理解数据结构相关程序的执行过程。实验结果表明, 将该方法应用于1个数据结构演变可视化框架StructV, 并应用于1个在线可视化编程实训云平台的研发, 可有效降低初学者理解数据结构演变过程的难度, 并提升编程实训时的程序调试效率。
近年来, 后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件, 在实际运算中占用较多的时间和消耗较多的资源。为此, 提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式, 达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验, 验证结果的正确性。实验结果表明, Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms, 吞吐量为167次/s, 在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比, 在同时并行1 024个Falcon密钥树生成部件时, GPU相对于CPU的加速比达到了约56倍, 在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。
随着深度学习等高算力应用的发展, 异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速, 针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器, 应用在科学计算、人工智能、信号处理等众多领域。现有某类国产加速器的可用库中SVD算法性能远低于NVIDIA, 这对相关应用的高效移植带来了挑战。为此, 通过调整算法流程减少线程启动与访存开销, 提出了面向国产加速器的矩阵双对角化方法mySVD。卸载计算密集型任务到加速器, 设计面向国产异构平台的分治算法; 通过CPU+加速器多流, 提出了任务并行的奇异向量矩阵生成方法。最终形成一套奇异值算法的高效移植优化方案。实验结果表明, 该方案在不同的测试矩阵规模上, 性能最高达到现有的商业闭源线性代数库MKL的9.8倍, 以及现有开源异构计算线性代数库MAGMA的5.5倍。最终将其用于图像处理, 并跨平台与MATLAB、NVIDIA公司的GPU线性代数库CUSOLVER进行对比, 其具有更快的速度且生成的图像与原图像相似度更高。
Steiner最小树(SMT)是总体布线的最佳连接模型, 其构造是1个NP-难问题。粒子群优化(PSO)算法在解决NP-难问题中具有良好的表现, 而PSO算法中种群的拓扑结构及搜索信息的传递机制对其性能有着很大的影响。1个适用于具体问题的种群拓扑结构对算法性能的提升极为显著。因此, 利用PSO求解总体布线问题需要根据具体布线问题的特性来选择合适的粒子拓扑结构策略, 以提升PSO的性能。提出基于动态PSO的X结构Steiner最小树(XSMT) 算法以解决总体布线问题。首先, 设计动态子群与信息交换策略, 对种群进行子群划分, 引入信息交换的概念, 让子群在保持独立性的同时与其他子群进行信息交换, 增加子群多样性; 其次, 设计粒子学习与变异策略, 通过设置子群中粒子的学习对象使子群趋向于全局最优, 并选择每个子群中适应度值最好的粒子进行变异, 使粒子更易于跳出局部最优; 最后, 设计从多群局部学习过渡到单群全局学习策略, 使算法在迭代次数到达阈值之后从局部学习过渡到全局学习, 使得粒子在较优拓扑结构的基础上内部连接以获得更好的线长优化率。实验结果表明, 与现有的2种R结构SMT(RSMT)算法相比, 所提算法在优化线长方面分别优化了10.25%、8.24%;与现有的3种XSMT算法相比, 该算法在优化线长方面分别优化了2.44%、1.46%、0.48%, 验证了算法的有效性。
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此, 资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构, 通过中心化设施制定卸载策略并进行资源调度, 容易受到单点故障的影响, 且会产生较多的能耗和较高的时延。针对以上问题, 提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN) 卸载策略。首先, 设置通信矩阵模拟现实中边缘服务器有限的通信状态; 其次, 通过对任务设定优先级, 使任务可以在不同边缘服务器之间跳转, 保证各边缘服务器均可以自主制定卸载策略, 完成任务卸载的去中心化; 最后, 根据任务的跳转次数为任务分配更多的计算资源, 提高资源利用效率和优化效果。为了验证所提策略的有效性, 针对不同DQN下参数的收敛性能进行了研究对比, 实验结果表明, 在不同测试情景下, DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法, 性能可提升约11%~19%。
针对多重水印技术如何确定最优的嵌入区域, 以实现多个水印之间的权衡问题, 提出一种基于多通道嵌入的彩色图像多重水印算法。当嵌入水印时, 选择在彩色图像R、G、B 3个通道嵌入不同的水印图像, 目的是嵌入更多的水印信息。通过提升小波变换(LWT)和非下采样剪切波变换(NSST)提取宿主图像每个通道中的方向性特征, 确定水印的嵌入位置, 以提高对常规攻击和几何攻击的鲁棒性。通过将加密的水印有效信息嵌入到具有良好稳定性的奇异值矩阵中, 保证水印的提取效果。实验结果表明, 嵌入水印后的图像峰值信噪比(PSNR)在43 dB以上, 所提算法具备良好的不可见性, 对嵌入水印后的图像进行高强度的旋转、滤波、剪切等攻击, 提取水印的归一化系数(NC)值在0.95以上, 其中, 滤波攻击对应的NC值可以达到0.99以上, 水印信息提取完整、清晰可辨, 表现出较强的鲁棒性。同时, 该算法可以1次嵌入3个水印图像, 具有更高的嵌入容量。因此, 与现有的多重水印算法相比, 该算法的不可见性、鲁棒性和嵌入容量均有较大的提升。
现有深度学习方法在处理点云分类任务时, 依赖于点的绝对坐标, 存在模型复杂度较大的问题。对此, 提出一种轻量级的点云分类网络DMGCN-3D。使用自适应空洞K近邻(KNN)算法构造图结构, 尽可能捕捉局部更广泛空间的几何结构信息, 并减少计算开支; 构造可变形三维图卷积, 引入可学习的点与点之间的方向向量来获取相对特性, 在特征提取过程中保证点云的置换不变性与尺度不变性; 构建多头自注意力模块, 通过残差结构将分组变换注意力(GSA)与多层感知机(MLP)相结合, MLP有助于保持原始点云信息的完整性, GSA使得网络能够学习特征内部的自相关性, 在提高特征表达能力的同时降低参数总量; 使用空间变换网络结合MLP来学习点云特征; 对所提取的特征进行融合以得到更综合的特征, 将其用于点云分类。实验结果表明, DMGCN-3D在ModelNet10、ModelNet40、ScanObjectNN数据集上的总体精度分别达到96.5%、94.7%、81.9%, 比DGCNN分别提高2.9、2.1、3.8个百分点, 参数总量相比DGCNN、LDGCNN、3DGCN模型分别降低52.9%、23.9%、3.3%, 且DMGCN-3D能够保持较高的鲁棒性。
基于卷积神经网络(CNN)的图像去噪方法能有效去除低剂量计算机断层扫描(CT)图像伴随的伪影和噪声, 从而确保CT设备输出高质量图像同时降低辐射, 这对患者健康和医学诊断具有重要意义。为了进一步提高低剂量CT图像的质量, 提出一种小波域去噪网络MDTNet。首先, 基于双树复小波变换(DTCWT)构造多级编解码去噪网络, 在多个尺度上提取特征以保留更多高频细节; 然后, 利用扩展的像素重排技术替代卷积上下采样, 实现多级输入和特征融合, 从而降低计算复杂度; 最后, 通过大量训练找到最佳的去噪模型, 即二级MDTNet配合LeGall滤波器和Qshift_b滤波器, 并选择较大尺寸的CT图像作为训练数据。使用AAPM数据集评估MDTNet的性能, 实验结果表明, MDTNet能有效去除条纹状伪影和噪声, 在定量和定性评估中性能均优于同类型去噪方法。与FWDNet相比, 对于1 mm的切片, MDTNet的平均峰值信噪比(PSNR)和结构相似性指数(SSIM)分别提高了0.088 7 dB和0.002 4;对于3 mm的切片, 分别提升了0.144 3 dB和0.003。对于单张512×512像素的低剂量CT图像去噪, MDTNet在GPU上仅需0.193 s。MDTNet在保持高效率的同时保留了更多的高频细节, 能够为低剂量CT图像去噪提供一种新的框架。
运动模糊是导致图像退化的常见原因, 其限制了图像的可读性和后续处理效果。针对卷积网络感受野有限以及常规多阶段网络中信息丢失的问题, 提出一种基于Transformer的多阶段去模糊网络。网络采用多阶段编码器-解码器结构, 在单个阶段内和多个阶段间采用跳跃连接来增强信息的传递。首先, 高效Transformer模块采用通道注意力和深度卷积来处理图像的全局和局部信息; 其次, 多分支结构的前馈传播网络通过引入多个并行的分支, 实现了不同尺度和不同层次的特征提取和融合; 最后, 通过多阶段的残差处理实现更优的图像恢复结果。实验结果显示, 在GoPro数据集上该网络的峰值信噪比(PSNR)达到32.23 dB, 结构相似性指数(SSIM)达到0.955, 在HIDE数据集上PSNR和SSIM分别达到30.15 dB和0.930, 优于DeepDeblur、DeblurGAN-V2等模型。
针对现有场景文本图像超分辨率重建方法存在的重建文本图像细节信息丢失和边缘模糊的问题, 提出一种基于双分支序列残差注意力的重建方法DSRASRN。首先, DSRASRN采用一种新的双分支序列残差注意力模块(DSRAB), 该模块采用双分支结构分别专注于水平和垂直方向上的上下文信息提取, 并通过高效通道注意力(ECA)机制给予重要信息更高的权重, 以增强特征的表达; 其次, 在DSRASRN内新增文本边缘感知模块(TEAB), 增强对文本图像边缘细节和纹理的处理, TEAB采用特定方向的卷积核捕捉特定空间方向上的信息, 同时结合具有不同空洞率的空洞卷积来扩大感受野并增强对高频信息的重建能力。在真实场景文本图像数据集TextZoom上的实验结果表明, DSRASRN不仅可以重建出更多的图像细节信息, 而且在提高文本识别准确率方面也表现出明显优势。与TSRN、TBSRN、TG、TPGSR方法相比, DSRASRN的峰值信噪比(PSNR)分别提升0.27、0.78、0.59和0.51 dB, 且DSRASRN可以使文本识别器ASTER、MORAN和CRNN的平均文本识别精度分别达到65.0%、62.1%和52.0%。此外, 真实场景文本识别图像数据集ICDAR2015和SVT上的测试结果表明DSRASRN具有良好的泛化能力。
在下雨天气中, 玻璃上的雨滴会对图像质量产生严重影响, 且目前的去雨滴方法过度依赖成对图像, 使得无监督图像雨滴去除面临较大挑战。针对这一问题, 提出一种域变换图像去雨滴方法。构建域变换网络(DTN), 通过有雨与无雨域之间的变换, 以无监督的方式实现图像的雨滴去除。同时, 通过引入快速傅里叶卷积(FFC)来设计生成网络和判别网络, 实现全局与局部特征的信息交互。在FFC中, 通过频谱变换(ST)对空间域和频域进行转换, 克服传统卷积神经网络(CNN)感受野不足的问题, 从而更好地感知细小的雨滴。在2个真实的雨滴测试集上进行去雨滴实验, 结果表明, 该方法在定量结果和视觉效果上均优于现有的先进方法。与改进前的U-Net+马尔可夫判别网络相比, 改进后的该方法在峰值信噪比(PSNR)和结构相似性指数(SSIM)上分别提升3.37 dB和0.031 3, 并且其能在去除雨滴的同时还原更多的图像纹理细节。
小目标通常具有低分辨率和模糊不清的特点, 并容易受到遮挡和背景的影响, 导致难以实现准确且实时的小目标检测。为提升检测效果, 提出一种基于多任务学习的超分辨率辅助小目标检测算法Multi-YOLO。首先, 引入一个超分辨率辅助分支引导主干网络提取有效特征, 减少小目标信息丢失; 其次, 采用Anchor based协同监督Anchor free的双检测头训练方法来辅助提升检测准确性, 另外, 在骨干网络尾部使用CTR3模块加强目标信息与位置感知的关联性; 最后, 在推理阶段仅使用检测分支进行推理以保证推理速度。实验结果表明, Multi-YOLO相对于基准网络在VEDAI、COCO MiniTrain和SPCD数据集上均取得了一定的性能提升, 其中在VEDAI数据集上, Multi-YOLO实现了10.9%的平均精度均值(mAP)提升, 且与基准模型大小相近。同时, 与主流的单阶段目标检测网络相比, Multi-YOLO在小目标检测方面表现出色, 并在精度和速度之间取得了平衡。
医学图像分割在疾病辅助诊断中起着关键的作用。现有的深度分割模型需要依赖带有标注的数据完成大规模训练, 而医学影像标注需要具有专业背景的临床医生进行像素级标注, 导致标注数据获取困难。基于半监督的医学图像分割方法利用少量的标注数据和大量的未标注数据进行学习, 可以在一定程度上缓解标注数据获取困难的问题。针对半监督分割模型不能充分利用未标注数据中的可学习信息的问题, 提出一种半监督分割模型TCA-Net。该模型使用U-Net作为骨干网络, 通过在U-Net中引入卷积块注意力模块(CBAM)与多头自注意力模块(MHA)来解决其在下采样过程中的信息丢失问题; 为了充分利用未标注数据中的不确定性信息, 构建一个教师互一致性模型, 该模型由具有1个编码器和3个略有不同的解码器的学生模型与教师模型组成, 通过在学生模型的概率映射与教师模型的伪标签之间添加一致性约束, 以此在训练过程中最小化输出之间的差异, 从而提升模型的分割效果。在公开的WORD腹部多器官数据集与ACDC心脏数据集上进行实验, 结果表明, 在使用20%标注数据的WORD数据集上, TCA-Net的Dice系数、Jaccard指数、HD95和ASD分别达到90.81%、83.79%、21.38和6.08, 在ACDC数据集上分别达到89.69%、81.94%、1.66和0.45。消融实验与对比实验结果表明, TCA-Net能够有效提升未标注数据的利用率, 在不同数据集上均达到了较好的分割效果, 验证了模型的鲁棒性。
目前大多数图像去噪算法在去除图像噪声的同时, 通常会丢失图像的细节信息, 特别是当噪声强度较大时甚至会出现失真。随着当前神经网络结构普遍趋向于深层设计, 导致图像的浅层特征难以与深层特征融合。针对这些问题, 提出一种基于注意力机制的双路解码器图像去噪方法。首先, 设计一种残差密集块(RDB)来对U-Net网络进行改进, 实现网络深度的增加, 有效提升模型的稳定性并缓解梯度消失问题; 其次, 设计一种双路解码器结构, 通过在不同尺度的解码器中进行多尺度特征提取, 加强深浅层特征的融合; 最后, 通过在解码器中引入注意力机制, 有针对性地捕获图像的边缘信息, 增强模型的去噪表现。实验结果表明, 相较于现有常见的图像去噪方法, 所提方法不仅能够有效去除图像噪声, 还能更好地恢复图像纹理细节, 同时具有较快的去噪速度, 在主观和客观评价中均获得了更好的结果。
传统钢筋深化设计的大量排布工作是基于手动或半自动化的方式完成的, 时间及人工成本较高。目前基于单根钢筋的智能设计方法存在3个问题: 同向钢筋没有共享机制, 无法利用相似信息, 造成大量重复性计算; 钢筋之间不具备协同机制, 无法保证钢筋前后左右间距的一致性; 优化策略基于局部信息进行智能体轨迹规划, 难以应对复杂和特殊的钢筋排布场景。为解决上述问题, 提出基于模型预测控制(MPC)的多钢筋并行排布智能设计方法, 以提高钢筋的排布效率及质量。MPC是一种可以兼顾全局信息和局部信息的寻优策略, 通过滚动优化和最优解首元素的应用, 提高钢筋应对复杂环境的能力, 实现钢筋智能避障和长度优化。多钢筋并行排布策略采用领航跟随者模式实现信息共享和行为协同, 利用同向钢筋的相似信息, 可减少重复性工作并保证钢筋间距一致。为提高优化效率和质量, 结合群体智能的优点进一步改进差分进化算法, 并将其作为MPC的求解器。实验结果表明, 通过与单钢筋排布方法在不同障碍物情形下的对比, 提出的多钢筋并行排布方法能够有效提高钢筋排布的质量、优化效率和应对复杂障碍物场景, 并以预制混凝土楼梯构件设计为示例, 验证了所提方法的可行性和有效性。
为了加快教育的数字化转型, 人工智能技术融入教与学全过程行为的精准分析与实证应用已成为当前的研究热点。针对目前学生课堂行为检测中存在的检测精度低、目标框密度高、重叠遮挡严重、尺度变化大以及数据量不平衡等问题, 创建学生课堂行为数据集DBS Dataset, 并提出一种基于改进YOLOv8的学生课堂行为检测算法VWE-YOLOv8。首先引入注意力机制CSWin-Transformer, 增强模型对图像全局信息的提取能力, 提高网络的检测精度; 然后集成大可分离核心注意力(LSKA) 模块到SPPF架构中, 增加模型在多尺度目标上的识别能力; 接着将遮挡感知注意力机制融入到检测头的设计中, 将原有的Head结构修改为SEAMHead, 实现模型对遮挡物体的有效检测; 最后引入权重调整函数Slide Loss来处理样本不均衡问题。实验结果表明, 与YOLOv8相比, 在DBS Dataset和公开数据集SCB Dataset上, 改进后VWE-YOLOv8的mAP@0.50分别提高了1.16%、1.70%, mAP@0.50∶0.95分别提高了7.36%、2.13%, 精度分别提升了4.17%、6.74%, 召回率分别提升了1.96%、3.13%, 说明该算法具有更高的检测精度和较强的泛化能力, 能够胜任学生课堂行为的检测任务, 有力支撑智慧教育应用, 助力教育数字化转型。
碎片拼接是古陶瓷修复的关键工作, 针对古陶瓷碎片形状随机、数量大、表面纹理弱且存在局部缺损而导致算法的精度较低、匹配时间较长等问题, 提出一种基于凹凸性和转向角的古陶瓷碎片二次配算法。在提取古陶瓷碎片轮廓曲线的基础上, 通过先后使用粗匹配和细匹配的二次匹配组合实现碎片的两两精确匹配。一次粗匹配先通过多边形逼近碎片轮廓曲线, 以降低轮廓的复杂性, 再提取多边形的顶点凹凸性和顶点转向角构建一次轮廓特征集合, 最后利用凹凸互补性和遍历顶点对齐的双模态特征初次匹配算法来寻找大致匹配段, 并得到粗匹配点集。二次细匹配先随机选取粗匹配点集中的任意相邻两点点对来提取碎片轮廓片段, 以减少轮廓点数量并提高算法效率, 再计算轮廓片段的轮廓转向角以提取二次轮廓特征集合, 最后利用基于粒子群优化的二次匹配来搜索精确匹配段, 并得到细匹配点集。实验结果表明, 该算法对二维古陶瓷碎片的拼接效果较好, 且具有较强的鲁棒性, 拼接误差不超过2%, 运行时间效率相比已有算法提高了8%~20%。
利用分割的医学图像进行诊断在临床和医学研究上是一种有效的辅助方法, 但由于医学图像的隐私性、分散性和标注困难等问题严重影响了其实际应用效果。对颈椎磁共振成像(MRI)图像分割来说, 其图像数据获取更困难, 且标注成本高昂, 颈椎分割模型在面对不同来源的异质性数据时难以有效提取颈椎细节信息。因此, 在联邦学习场景下, 针对标注信息缺少以及数据异质性导致分割精度下降的问题, 提出一种基于标签分离与引导的多尺度半监督分割网络M-FedLO。M-FedLO通过标签分离的方式分别对椎块与椎间盘进行分割, 同时实现多尺度输出, 使得椎块与椎间盘的边缘信息得到进一步提取, 更好地分离出椎块与椎间盘。在联邦“全局+本地”的模式下, 利用全局模型的标签引导, 使本地模型在无标签数据上提取的特征与全局模型逼近一致, 从而增强本地模型对无标签数据的利用。同时使用随机权重平均(SWA)算法对参数进行优化, 缓解模型权重震荡问题, 提升模型泛化能力。实验结果表明, 与半监督基准分割模型相比, 提出的模型不仅在非异质性上的颈椎MRI医学图像分割效果上取得一定的提升, 而且在异质性的颈椎图像上也具有较好的成果。在颈椎数据集上与实验结果最好的ICT模型相比较, Disc相似性系数(DSC)指标达到86.86%, 提升了1.72个百分点。
风力发电机故障分类的复杂性和多样性严重影响风能发电效率, 传统的人工方法效率低下, 准确率较低, 已有的深度学习模型在真实环境中易受数据噪声干扰而表现不佳。为提升风力发电机故障分类模型在真实环境下的分类性能与鲁棒性, 提出一种基于对抗训练与Transformer的故障分类方法。首先通过引入一维卷积与门控线性单元(GLU)增强注意力机制对局部特征的学习, 保留易被忽略的局部信息, 提升模型对于局部特征的敏感度。其次结合限制因子约束对抗样本, 提高对抗样本产生的准确性。最后在消除错误样本的同时反馈生成过程, 使其具备更好的抗干扰能力。实验结果表明, 与5种常用的分类模型相比, 所提模型分类性能平均提升7.76%, 与真实结果之间的误差最小。局部增强的注意力机制和所提的对抗训练方法分别使模型的分类性能平均提升4.51%、4.95%。所提模型在10%~20%噪声环境中仍保持较好性能, 增强了其在真实环境中的稳定性。该方法在提高分类准确率的同时使模型具备更强的泛化能力, 对于提升风力发电机故障分类性能与鲁棒性具有重要意义。