作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用


说明:以下列出经编委会审查通过,被本刊录用的文章。这些文章尚未确定具体刊出日期, 其个别内容、版式可能与最后的发表版本稍有差异, 请以最后发表为准。本刊已经为这些文章分配了文章唯一和持久的doi,您可以使用doi直接引用本文。

Please wait a minute...
  • 全选
    |
  • 宋艳蕊, 庄雷, 徐泽汐, 冯旭, 莫文帅
    录用日期: 2024-04-26
    在应对车联网系统中请求类型多样化及数据海量化挑战时,软件定义网络(SDN)和网络功能虚拟化(NFV)技术支持的云边协同架构已成为服务功能链(SFC)部署的有效手段。然而,车联网中无处不在的电磁干扰使组成SFC的虚拟网络功能(VNFs)极易受损,且以软件形式存在的VNFs本身存在一定故障概率,这使SFC部署过程的可靠性受到威胁。为了在最小化成本前提下实现云边协同架构中车载请求的可靠部署,构建了一个基于SDN/NFV的可靠云边协同车载计算架构,采用集中式训练-分布式推断方式训练部署模型;设计了基于可靠成本效益比的可靠性增强算法SFC-RA,通过创建与VNFs具有相同功能的备份虚拟网络功能(BVNFs)增强SFC可靠性;提出了一种基于策略梯度算法的在线SFC可靠部署算法PG-RA,采用序列到序列模型作为学习代理,以保障在满足资源约束的前提下能够提供满足用户需求的高可靠低成本服务。仿真结果表明,相对于其他冗余方式和部署算法,该算法能够降低5-7个单位冗余成本,平均提高13.9%的可靠性水平,降低平均时延7%左右。
  • 刘圣杰, 何宁, 王鑫, 于海港, 韩文静
    录用日期: 2024-04-26
    人体姿态估计被广泛应用于运动健身、手势控制、无人超市、娱乐游戏等诸多领域,但姿态估计任务仍面临着诸多挑战。针对目前主流的人体姿态估计网络参数量大,计算复杂的问题,提出一种基于高分辨率网络的轻量级姿态估计网络(Lite-Pose Network,简称LitePose)。首先,采用Ghost卷积,降低特征提取网络的参数;其次,通过采用解耦的全连接(Decoupling Fully Connected Attention, DFC)注意力模块,可以更好地捕获远距离空间位置像素间的依赖关系,减少由于参数量下降导致提取特征的缺失,提高人体关键点回归的准确性;此外,设计了一个特征增强模块对骨干网络提取的特征进行进一步增强。最后,设计了一个新的坐标解码方法,降低热图解码过程的误差,提高关键点回归的准确率。将LitePose在人体关键点检测数据集COCO和MPII上进行了验证,与当前的主流方法进行对比,实验结果表明LitePose相比基线网络HRNet精度损失0.2%,但参数量不及基线网络的三分之一。在保证少量损失网络精度的同时,大幅降低了网络模型的参数量。
  • 张元, 吕德芳, 孟建军, 祁文哲
    录用日期: 2024-04-26
    铁路钢轨扣件的缺陷检测是铁道安全巡检中极为重要的工作之一,为提高钢轨扣件维护工作的效率,将实施基于深度学习的方式进行巡检。而使用当前主流的目标检测模型进行钢轨扣件缺陷的检测时,由于模型体积大、参数量多造成无法同时平衡检测准确度和速度。本文对YOLO v5模型进行改进,采用SE和CA组成的双注意力机制;重新设计网络,选用MobileNet v3为主干网络,同时引入含有GSConv模块的Slim-Neck结构和轻量级上采样算子,降低计算成本;最后,将YOLO v5的坐标损失函数修改为SIoU,提升训练时的收敛速度,使得模型更加轻量化。使用改进后的模型在钢轨扣件数据集上进行测试,结果显示,单张扣件图片的检测时间为53.8ms,速度为17.9FPS,并且模型大小仅有8.3MB,符合模型体积小、检测效果佳的要求。
  • 庞文豪, 王嘉伦, 翁楚良
    录用日期: 2024-04-26
    大数据背景下,随着科学计算、人工智能等领域的快速发展,各领域对硬件的算力要求越来越高。GPU特殊的硬件架构,使其适合进行高并行度的计算,并且近年来GPU与人工智能、科学计算等领域互相发展促进,使GPU成为了CPU最重要的协处理器之一。然而GPU的硬件配置在出厂后不易更改,且显存容量有限,在处理大数据集时显存容量不足的缺点对计算性能存在较大影响。CUDA 6.0推出了统一内存,使GPU和CPU可以共享相同的虚拟内存空间,以此来简化异构编程和扩展GPU可访问的内存空间。统一内存为GPU处理大数据集提供了一项可行的解决方案,在一定程度上缓解了GPU显存容量较小的问题,但是统一内存的使用也带来了一些性能问题,如何在统一内存中做好内存管理成为性能提升的关键。本文将对CUDA统一内存的发展和应用进行综述,包括:CUDA统一内存的特性、发展、优势和局限性,以及在人工智能和大数据处理系统等领域的应用,未来的发展前景等。为未来使用和优化CUDA统一内存的研究工作提供有价值的参考。
  • 杨红菊, 吉昌
    录用日期: 2024-04-26
    目前,基于CNN(卷积神经网络)深度学习的图像压缩已经取得了非常优异的成果,但是由于其感受野受限,不能学习到图像非局部区域内像素之间的上下文关系,缺少了长距离建模和感知能力,造成结果出现失真、伪影和压缩率较高等问题。为了解决以上问题,本文提出了以下两种解决办法:第一,本文设计了一种由CNN、多尺度注意力机制 (Multi scale attention,MSA)和残差单元所构成的对称编解码器架构,该架构在对图片进行通道变换和空间变换的同时引入多尺度注意力机制,能够对特征进行重新校准,减少潜在表示的冗余像素。第二:设计了一种基于U型框架的超先验网络,可以在不同层级上获取多尺度的上下文信息,在帮助提取高级语义特征的同时,保留详细的低级特征信息,能够更好的进行边界细化和细节恢复。在Kodak,Tecnick和CLIC三种数据集上,与其他先进的图像压缩方法进行对比实验,在相同比特率下,本文提出的模型在PSNR指标上分别提高了约0.3 dB、0.6 dB、0.5 dB。并且在保证压缩率的同时,有效的提高了对非重复纹理特征和图像细节特征的重建效果。
  • 刘洲峰, 李冰芮, 杨瑞敏, 李春雷, 何媛, 丁淑敏
    录用日期: 2024-04-26
    基于图像级标签的弱监督语义分割方法可利用少量带有图像级标签的注释对网络进行训练从而减轻注释负担。然而,现有基于类激活映射的方法存在分割区域不完整的问题。为使得最终分割预测结果包含更多前景目标,提出一种基于调制-全局推理的弱监督语义分割方法。在分类网络中首先通过设计空间-通道激活调制模块以提取更完整的目标对象特征,从而避免类激活图过度关注显著性区域;其次,提出全局推理单元模块,可利用该模块捕获特征图中不相交区域和较远区域之间的全局关系以便选出包含更完整的目标对象,从而进一步增强非显著区域的特征;最后,通过设计潜在目标挖掘模块以降低伪标签中的假阴性率,进而提取其中的丢失信息,从而有效缓解初始伪标签中目标区域不完整的问题。在分割网络中通过将分类网络生成的初始预测和伪标签结合并通过非显著区域挖掘模块进一步生成掩蔽伪标签从而提升分割效果。该方法在仅使用图像级标签的情况下,在Pascal VOC 2012 验证集和测试集上的精度分别为69.5%和69.8%,在 MS COCO 2014验证集上的精度为32.8%,同时可有效解决分割区域不完整的问题,且优于已有方法。
  • 胡朝举、郭凤仪
    录用日期: 2024-04-26
    近些年,人工巡检的管理方式导致MODF端口状态的信息准确率较低,无法区分占用端口与虚占端口。针对MODF资源管理中的端口状态识别问题,提出了一种改进的YOLOv7目标检测模型。首先,鉴于数据集采集困难且类别不均衡,采用了多种数据增强方法来扩充数据集;此外,在骨干网络中使用共享权重的RFEM,扩大端口目标的感受野,减少训练过程中的过拟合风险;其次提出F-EMA注意力模块,以提高对空间上下文信息的利用率,减少因端口接近或被遮挡而导致的漏检、误检等情况;最后,使用NWD损失函数替代IoU度量,减轻对小目标位置偏差的敏感性,提升密集小物体检测准确率。实验显示,改进模型的mAP@.5值达98.8%,相比原Yolov7模型提升了2个百分点,mAP@.5:.95值达63.8%,提升了9.5个百分点,改进提高了MODF端口资源利用率,满足了智能巡检系统对于端口占用状态识别准确率的基本要求。
  • 张倡倡, 吕卫东, 蔡子杰 , 刘炎奎
    录用日期: 2024-04-26
    针对现有睡岗数据集少,现阶段分类算法泛化性差,推理速度慢等问题,构建了一份包含4708张图像的睡岗数据集,用于验证模型识别精度和泛化能力,并提出了一种基于域泛化的轻量化图像分类算法Stable_MobileNet。首先,对输入的图片填充短边,使其保持图像中的人物比例,然后再进行图像增强和随机擦除,用于扩充数据集;其次,引入高效的ECA注意力模块改进MobileNetv3_large网络;最后,使用稳定学习StableNet方法提高模型的泛化性,通过学习训练样本的权重来消除特征之间的依赖关系,这有助于模型摆脱环境的变化,更专注于人物特征。在睡岗数据集上的实验结果表明,Stable_MobileNet平均推理速度更快,识别精度可达93.56%,比MobileNetv3_large提高了2.23%;在样本分布异于训练样本分布的测试集中,该算法的识别精度提高了2.23%。
  • 王圆圆, 王世谦, 王 涵, 郭正宾, 胡显承
    录用日期: 2024-04-26
    如何对企业生产过程中能源排放进行预测一直是企业管理和政府监督时重点关注的问题,而且随着信息采集能力增强,能源排放预测过程中会涉及越来越多跨界数据,这一情况导致了预测模型面临着数据量庞大和数据关联性较低的挑战,从而增加了模型训练的难度,降低了预测的准确性。针对上述问题,本文提出了基于纵向联邦学习的能源排放智能预测模型,模型分为两部分:(1)针对跨领域联合建模过程中数据源分散、信息密度小的问题提出基于纵向联邦学习的异步网络更新方法,通过该方法保证本地数据的安全和多方建模的质量,异步更新方式还能降低多方建模的时间和空间开销;(2)针对模型间通讯数据的安全高效传递问题提出基于同态加密的数据跨平台通讯算法,利用数据加密保障通讯网络安全的同时使用数据压缩技术减小加密数据的体积,进一步提高了模型间通讯的效率。最后设计实验证明该模型具有良好的性能,相比于基准方法,本文提出的能源排放预测模型的R2值最多提升了16%,并能够降低约40%的联合建模时间,充分证明本能源排放跨界智能分析模型解决了跨界数据难以共享共用的问题,并且提高了跨界联合建模的速度和准确率。
  • 郭佩林, 张德, 王怀秀
    录用日期: 2024-04-25
    由于没有跳跃连接结构的深度神经网络在超过一定深度后难以训练,近期的深度神经网络模型大都采用跳跃连接结构来解决优化问题和提高泛化性能。然而,人们对于跳跃连接结构如何影响深度神经网络特征提取的理解还较少,大多数情况下,这些模型仍然被认为是黑盒。为了分析跳跃连接结构对深度神经网络特征提取的影响,本文从特征可视化的角度出发,以基于扰动的方法为切入点,提出了一种在保持图像总体颜色分布和轮廓特征基本不变的前提下弱化图像细节特征的扰动方法,并将其命名为网格乱序模糊方法。同时,研究结合特征可视化中的激活最大化方法和所提出的网格乱序模糊扰动方法,分析了拥有不同程度跳跃连接结构的经典图像分类深度神经网络模型VGG19, ResNet50和DenseNet201,结果表明:第一,没有跳跃连接结构的深度神经网络只提取了图像中较强的特征,提取的特征数量比较少,而拥有跳跃连接结构的深度神经网络提取了图像中更多的特征,但是这些特征相对较弱;第二,跳跃连接结构让模型更关注图像的局部颜色分布和全局总体轮廓,而不过多依赖图像细节特征,并且跳跃连接结构越密集,这种趋势越强。
  • 江敏, 陈飞, 程航, 王美清
    录用日期: 2024-04-25
    高强度的高斯噪声往往会模糊或破坏图像的细节和结构,导致边缘信息的丢失。为此,提出基于逐像素强化学习的边缘保持图像复原算法。首先,为每个像素构建一个像素层智能体并设计针对边缘处的侧窗均值滤波器到动作空间中,所有的像素层智能体通过共享优势行动者-评论家算法的参数,模型可以同时输出所有位置的状态转移概率并选择合适的策略进行状态转移,从而复原图像;其次,在特征提取共享网络中结合协调注意力,从而聚焦所有像素位置在特征通道间的全局信息,并保留位置嵌入信息;然后,为了缓解稀疏奖励问题,设计一个基于图拉普拉斯正则的辅助损失,关注图像的局部平滑信息,对局部不平滑区域加以惩罚,从而促进像素层智能体更加有效地学习到正确的策略来保持边缘。实验结果表明,所提的算法在Middlebury2005年数据集和MNIST数据集上的峰值信噪比分别达到32.97dB和28.26dB,相比于Pixel-RL算法分别提升了0.23dB和0.75dB,参数量和训练总时间降低了44.9%和18.2%,在边缘保持的同时有效降低了模型的复杂度。
  • 张雯欣, 刘玉杰, 王兆勇, 孙浩淼, 李宗民
    录用日期: 2024-04-25
    行人搜索旨在全景图像中对目标行人进行定位和识别,可以看作目标检测和行人重识别任务的结合。然而,不同行人的着装相似性和同一行人在多变环境条件下的外观差异,增加了行人身份辨别的难度。为了解决这一问题,提出了一个原型分散网络,通过调整原型的分布情况,增强网络的辨别能力。首先,设计了一个原型增强模块,通过原型特征指导注意力网络的学习并利用K最大池化方法保留更多重要的行人特征,借助原型的指导使网络关注更重要的区域,学习更细粒度的行人特征,进而提高网络对相似行人的辨别能力。其次,提出一种自适应更新的原型学习策略,保证在原型特征更新时,检测精准的候选框做出更大的贡献。最后,通过分布稀疏损失保证所存储的原型尽可能分散,从而确保网络能识别到行人的可区分性特征。最终在公共的行人搜索数据集CUHK-SYSU和PRW上进行了实验,在mAP上分别达到了95.1%和49.8%,在top1准确率上分别达到了95.9%和88.5%,该方法有效地提高了行人搜索的准确率,证明了本文方法的有效性。
  • 马晓月, 陈媛媛
    录用日期: 2024-04-25
    准确的视盘和视杯分割能够有效地辅助青光眼的诊断和监测,从而进一步提高治疗效果。然而,现有方法没有考虑到眼底图像不同通道之间的差异,并且难以实现对视杯边界的精确分割。针对这个问题,提出了一种基于对抗学习和引导机制的网络框架(ALG-Net),旨在提高视盘和视杯的分割性能。ALG-Net由分割网络和鉴别器两部分组成,在分割网络中构建了引导融合模块,该模块将单通道特征信息与RGB图像特征融合,使网络充分学习眼底图像不同通道之间的差异信息,引导分割网络聚焦于关键区域。ALG-Net网络框架还采用了鉴别器,通过对抗性学习的方式促进分割网络生成更真实的分割结果。在REFUGE和Drishti-GS数据集上进行了广泛的实验评估,实验结果表明,ALG-Net在RUFUGE数据集上视盘和视杯分割的平衡精度分别达到了98.6%和95.9%,在Drishti-GS数据集上也表现出更优异的性能。此外,ALG-Net的分割结果还应用于青光眼分类任务,在RUFUGE数据集上ROC曲线下面积取得了98.3%的效果,相较于经典UNet算法提高了1.5%,为青光眼的早期诊断和监测提供了有力的支持。
  • 胡倩, 皮建勇, 胡伟超, 黄昆 , 王娟敏
    录用日期: 2024-04-25
    针对现有的行人检测仍存在密集行人或小目标行人检测精度低的问题,本文提出了一种基于YOLOv5的综合改进算法模型YOLOv5_Conv-SPD_DAFPN(Asymptotic Feature Pyramid Network)。首先,针对小目标或密集行人的特征信息易丢失这一问题,本文在骨干网络中引入了Conv-SPD网络模块替代原有的跨步卷积,从而有效地缓解了特征信息丢失的问题。其次,针对非相邻特征图不直接融合从而引起特征融合率较低的问题,本文提出了全新的双层渐进金字塔网络DAFPN,显著提高了行人检测的准确性和精度。最后,本文基于EIoU-Loss和CIoU-Loss引入EfficiCIOU-Loss的定位损失函数,以调整和加速帧回归率,从而促进了网络模型的更快收敛。本算法模型在CrowdHuman和WiderPerson行人数据集上相比于原YOLOv5模型算法, AP50、AP50-95分别提升了3.9、5.3个百分点和2.1、2.1个百分点;引入EfficiCIOU-Loss之后,本模型收敛速度分别提升了11%、33%。这些创新性的改进使得基于YOLOv5的密集行人检测在特征信息保留、多尺度融合和损失函数优化等方面都取得了显著进展,提高了其在实际应用中的性能和效率。
  • 郝金骁, 王龑, 郭倩宇, 张文强
    录用日期: 2024-04-25
    传统的寿命预测算法在包含退化阶段数据的滚动轴承寿命预测方面已取得不错的效果,但难以在只有正常工作阶段数据的情况下作出准确预测,根本原因是非退化阶段数据相似,刚运行和运行一段时间数据几乎没有区别。储备池计算(Reservior Computer,RC)可根据之前时刻数据预测多个时间步长之后的数据,为通过数据模拟补充退化数据从而将早期预测转化为传统预测提供了可能。回声状态网络(Echo State Network,ESN)可在充分利用时序信息的基础上输出当前时刻的相关维度。针对早期阶段轴承寿命预测提出一个基于RC和ESN的递归可重构神经网络(Recursive Reconstructible Neural Network,RRN)的方法。首先设计一个基于RC的特征模拟网络,根据早期特征模拟包含退化数据的全寿命周期数据。然后提出一个基于ESN的寿命预测网络,根据输入的模拟特征输出剩余寿命。最后,在PHM2012数据集上进行了实验,与目前效果较好的方法相比,原测试数据实验与早期阶段剩余寿命预测的实验平均误差分别降低了61.35%和53.14%,证明了方法的有效性和优越性。
  • 周雪阳, 傅启明 , 陈建平, 陈延明, 陆悠, 王蕴哲
    录用日期: 2024-04-25
    针对生物医学文献句式冗长、实体密集从而导致关系抽取复杂度高、难度大的问题,提出一种证据路径增强的图推理框架(EPE-GR)。首先,建立一种引入结构化偏差的图注意力机制(B-GAT)增强图推理中信息聚合的指向性,结合提及级和实体级图建模学习全局交互特征和局部依赖信息;其次,使用启发式搜索聚焦证据句子,同时构建一种基于掩膜多头注意力机制的路径推理结构,强化非邻居证据句子之间的相关性并缓解细粒度证据编码带来的复杂度剧增问题;最后协同全局、局部和路径推理预测实体之间的语义关系。与已有方法相比,EPE-GR在挖掘药物与突变相互作用的公开数据集(DMI)和抽取化学物质诱导疾病的公开数据集(CDR)上都获得了最佳的性能,前者在二分类和多分类任务的设定下准确率分别提高了5.65和5.13个百分点,后者F1分数提高了2.85个百分点,证明它是一个有效的生物医学文档级关系抽取方法且具有较好的泛化能力。此外,通过进一步的实验表明所提出的关系依赖建模和证据路径推理机制能够有效提升模型推理句间关系的能力。
  • 林丹, 郑梓烨, 付齐双, 吴嘉婧, 郑子彬
    录用日期: 2024-04-25
    跨链桥作为一种新型区块链基本服务,实现了区块链间的资产和数据流通,极大地促进了区块链去中心化金融的建设。然而,在实际应用过程中,由于跨链桥的交易不透明与资产难追踪问题,许多犯罪分子开始将跨链技术作为一种洗钱手段,在链间进行非法资产的转移。因此,跨链交易追踪问题正逐渐成为学术界与相关监管部门关注的焦点。现有方法主要通过规则匹配的启发式算法来实现跨链交易的关联,这种方法虽能有效地匹配特定区块链间的交易,但仅面向中心化金融(Centralized Finance,CeFi)跨链桥服务,且高度依赖于中心化的内部应用程序编程接口(Application Programming Interface,API),难以广泛支持多种跨链桥的交易关联。提出一种面向去中心化金融(Decentralized Finance,DeFi)跨链桥服务的交易关联方法解决以上问题。根据跨链桥消息传递机制获取源链的存款事件日志,并基于专家规则提取关键跨链信息。利用数据爬取技术构造目标链交易搜索空间。在此基础上,通过多种业务规则实现跨链交易的关联。该方法在Celer cBridge、Multichain和Poly Network三座跨链桥的真实交易数据集(以太坊作为源链,币安智能链作为目标链)上进行了验证,准确率分别达到了93.6%、95.3%和91.6%,具有较好的关联效果。
  • 杨兴睿, 马斌, 李森垚, 钟忺
    录用日期: 2024-04-19
    大型语言模型在自然语言处理领域蓬勃发展,但在教育数字化领域应用过程中仍面临一系列重要挑战。针对教育数字化领域垂域数据稀缺、摘要长度不稳定导致信息缺失或冗余的问题,提出了一种用于教育领域摘要的轻量化幂等模型框架IGLM。该模型首先采用多源训练进行自适应扩增以增加数据多样性,然后对下游的文本摘要任务进行多种微调。同时,为降低文本长度的影响设计幂等摘要生成策略拉近初次摘要与幂等摘要来约束模型,减少语料分布不均导致的偏见,结合量化技术在低资源条件下生成更为精确和流畅的摘要文本。实验以ROUGE F1分数为评估指标,在公开中文文本摘要数据集LCSTS、EDUCATION、NLPCC上进行验证。实验结果表明,该框架在生成摘要的准确率和流畅性上有明显提升,其中ROUGE-1/2/L相较基线模型在LCSTS数据集上分别提高了7.9、7.4和8.7,在EDUCATION数据集上分别有了12.9、15.4、15.7的提升,在NLPCC数据集上分别提高了12.2、11.7、12.7,从而验证了模型有效性,为教育数字化工作提供了有效的解决方案。
  • 郑雅洲, 刘万平, 黄东
    录用日期: 2024-04-19
    针对现有检测方法对短域名检测性能普遍较差的问题,提出了一种BERT-CNN-GRU 结合注意力机制的检测方法。首先通过BERT提取域名的有效特征和字符间组成逻辑,再通过并行的融合简化注意力的卷积神经网络(CNN)和基于多头注意力机制的门控循环网络(GRU)提取域名深度特征。使用形如n-gram排布的CNN能够提取不同层次的域名信息,采用批标准化(Batch Normalization, BN)对卷积结果进行优化;使用GRU能够更好获取前后域名的组成差异,加上多头注意力机制善于捕获域名内部的组成关系。对并行检测网络输出的结果进行拼接,在最大限度上利用了两种网络的优势,采用局部损失函数,聚焦域名分类问题,最终提高了分类性能。实验结果表明:在二分类上,模型达到了最优效果,在短域名多分类数据集上15分类的Weighted F1-score达到了86.21%,比BiLSTM-Seq-Attention模型提高了0.88%,在UMUDGA数据集上50分类的Weighted F1-score达到了85.51%,提高了0.45%,并且模型对变体域名和单词DGA检测性能出众,具有域名数据分布不平衡检测能力和更广泛的检测性能。
  • 王骞, 张俊华, 王泽彤, 李博
    录用日期: 2024-04-19
    脊柱的三维模型在治疗脊柱侧弯等脊柱疾病时发挥着重要的作用,但传统的脊椎三维重建方法存在耗时长、主观性强、辐射大等问题。为应对这些挑战,本文提出了一种基于双平面X线片的脊柱三维重建网络,即X2S-Net。该网络利用患者的正位和左侧位X线片作为输入,通过双视角平行编码器、三维重建模块以及分割监督模块后重建出对应位置的脊柱体素模型,实现了从X线片到可视化三维模型的端到端生成。X2S-Net在特征提取阶段使用了针对双平面X线片特点而设计的平行特征编码器用于提取脊柱的空间信息,并设计了多尺度通道注意力机制用于提取特征。在三维模型阶段,X2S-Net结合了传统图像分割任务设计了分割监督模块以提高三维重建效果。最终X2S-Net在数据集上的实验结果表明本方法能够充分利用双平面X线片的输入信息对脊柱进行三维重建,各数据集的平均Hausdorff距离达到了6.95mm且Dice系数达到了92.01%。
  • 吴若岚, 陈玉玲, 豆慧, 张洋文, 龙钟
    录用日期: 2024-04-19
    联邦学习作为新兴的分布式学习框架,允许多个客户端在不共享原始数据的情况下共同进行全局模型的训练,从而有效保护了数据隐私。然而,传统联邦学习仍然存在潜在的安全隐患,容易受到中毒攻击和推理攻击的威胁。因此,为了提高联邦学习的安全性和模型性能,需要准确地识别和防止恶意客户端的行为,同时采用梯度加噪的方法来避免攻击者通过监控梯度信息来获取客户端的数据。结合恶意客户端检测机制和本地差分隐私技术提出了一种鲁棒的联邦学习框架。具体而言,该算法首先利用梯度相似性来判断和识别潜在的恶意客户端,以最小化对模型训练任务的不良影响。其次,根据不同查询的敏感性以及用户的个体隐私需求设计了一种基于动态隐私预算的本地差分隐私算法,旨在平衡隐私保护和数据质量之间的权衡。在MNIST、CIFAR-10和MR数据集上的实验结果表明,与三种基准算法相比,该算法在准确性方面针对sP类客户端平均提高了3个百分点,针对其他攻击方法平均提高了1个百分点,实现了联邦学习中更高的安全性水平,显著提升了模型性能。
  • 张财 , 马自强 , 闫博
    录用日期: 2024-04-19
    本文针对政务微博评论杂乱、审核困难的问题,提出了一种基于机器学习的政务微博情感分析模型。该模型能够量 化分析政务微博中的情感,为自动审核提供了有效依据。研究以冬奥会和中国足协微博为例,首先扩展了与冬奥会和中国足 协相关的词汇,并进行了数据清洗和文本特征表示。然后,采用机器学习模型进行情感倾向判断,并结合大连理工大学中文 情感词汇文本计算情感强度。本文分别采用了基于词袋模型和 Word2vec 模型的决策树、朴素贝叶斯和支持向量机模型,并对 它们的性能进行了对比评估。实验结果表明,在基于 Word2vec 的支持向量机模型下,模型对于情感分类的准确率达到 84.3%。 这表明本文提出的模型在预测政务微博情感方面具有有效性和全面性,可应用于政务微博自动审核。
  • 刘雨欣 , 栗风永
    录用日期: 2024-04-18
    图像加密是保护图像安全性的重要方法。现有的图像加密方案安全性不高且加解密效率较低,无法抵御多种类型的攻击。针对上述问题,提出了一种基于全置乱超混沌序列和多进制DNA编码的图像加密算法,可以在提高加密效率的同时,保证密文图像的安全性。首先,结合灰度图像的内容,使用图像哈希算法和外部密钥生成五维超混沌系统和逻辑映射的初始值。其次,将原始图像转换为四值图像,使用五维超混沌系统和逻辑映射生成的混沌序列,对图像进行DNA加密,包括DNA编码、DNA置乱、DNA扩散和DNA解码四个阶段。最后,对图像进行位平面分解,利用五维超混沌系统和逻辑映射生成的随机矩阵分别与高四位平面和低四位平面做异或运算,得到最终的密文图像。实验结果证明,该图像加密算法具有密钥空间大、密钥敏感性强、加密效果良好、加密效率高等优点,能够抵抗统计分析、差分攻击、裁剪攻击和噪声攻击等多种常规攻击方式。
  • 曾建州, 李泽平, 张素勤
    录用日期: 2024-04-18
    在移动边缘网络中为了降低内容获取时延和传输开销,提出一种基于双延迟深度确定性策略梯度(TD3)的多智能体协作缓存算法(MACC)。首先,构建多智体边缘缓存模型,将多节点缓存替换问题建模为部分可观测马尔可夫过程(POMDP),把相邻节点的缓存状态和内容请求信息融入到各节点的观察空间,提高智能体对环境的感知能力,并通过三次指数平滑法提取各节点内容请求的流行度特征,使得算法能够适应内容流行度变化,从而提高缓存命中率;然后,联合本地与相邻节点的传输时延和开销来设计指导性奖励函数,引导智能体进行协作缓存,降低系统的缓存冗余和内容传输开销;最后,结合Wolpertinger Architecture方法对TD3算法进行多智体扩展,让每个边缘节点都能自适应的学习缓存策略,从而提高系统性能。实验结果表明,MACC算法中边缘节点牺牲了部分缓存空间协助相邻节点缓存请求内容从提高缓存命中率,在同一数据集上与MAAC、DDPG、独立TD3算法相比,MACC算法的缓存命中率分别平均提高了8.50%、13.91%、29.21%,并能适应动态的边缘环境实现较小的内容获取时延和传输开销。
  • 宋航, 周凤, 熊伟
    录用日期: 2024-04-16
    传统时间序列异常检测模型在处理信息物理系统(CPS)中的多元传感器和执行器数据时,难以准确提取多元数据之间的时序联系,从而影响异常检测性能。为解决这一问题,本文提出一种新的时间序列异常检测方法,称为自相关-变分自编码-对抗学习网络(AM-VAE-GAN,简称AMVG)。该方法以GAN为基础,使用NOISE数据增强方法扩展训练数据量,并通过引入自相关矩阵增强数据依赖关系,结合变分自编码器的数据重建能力,加强模型鲁棒性同时进一步提高异常检测模型性能,其中AMVG的两个解码器构成互相对抗的G网络和D网络,G和D不断对抗训练优化模型的检测能力。通过在三个真实世界的CPS数据集上进行实验验证,AMVG方法相较于最新研究方法在精度、召回率、以及F1分数等综合性能上均取得显著提高。具体而言, AMVG在三个数据集上的F1分数分别为0.953、0.758、0.891,其中F1值分别提高了6.2%、3.4%、7.5%,这表明该方法在CPS异常检测中的准确性和有效性。
  • 王翔, 魏玉锌, 毛国君
    录用日期: 2024-04-16
    在图神经网络中,图池化是一类用于对图数据进行下采样以提取图表征的重要操作。由于图数据存在较为复杂的网络拓扑结构和高维度的特征信息,现有的图池化方法在设计中还存在以下问题:1、未能充分利用并同时融合图数据的拓扑结构信息和节点的长距离依赖信息;2、在图池化过程中没有考虑丢弃节点的特征,不可避免造成图数据的重要信息损失。针对以上问题,本文提出了一种基于多元特征融合的图池化方法来同时捕获图数据的局部拓扑信息、全局拓扑信息以及长距离节点依赖关系,并使用一个聚合模块聚合这些特征信息得到一个新的池化图。为了缓解图池化过程中节点的特征信息丢失,提出一种新的特征融合方法将丢弃节点的信息以一定比例汇聚到保留节点上。基于该池化方法,构建了一个基于分层池化的图分类模型,并在多个公共数据集上进行实验。结果表明,与最佳基线模型相比,本文所提出的模型在图分类任务上取得了更好的效果,在D&D、PROTEINS、NCI1和NCI109四个数据集上的分类准确率分别提升了2.97%、3.59%、0.48%和0.24%。这表明它能够更有效利用图数据的特征信息、拓扑信息和长距离节点依赖信息,提升图分类效果。
  • 赵南南 , 高翡晨
    录用日期: 2024-04-16
    实现辅助驾驶、车路协同均需要对交通场景进行高精度的实时检测分割,但在实例分割过程中,由于环境复杂、目标堆叠、对象分辨率低等因素,存在着错检、漏检及掩膜缺失等问题,且针对高精度实例分割研究中多采用二阶段模型,通常因参数量过大无法满足实时性需求。提出一种基于改进型YOLOv8 的实例分割算法(DE-YOLO)。为减少图像中复杂背景的干扰,引入高效多尺度注意力机制,跨维交互使各特征组内空间语义特征分布平均。在主干网络部分,使用可变形卷积DCNv2结合C2f卷积层,突破原始卷积限制,增加可变性。为减小有害梯度并整体提升检测器精度,采用动态非单调聚焦机制Wise-IoU(WIoU)替代CIoU损失函数进行质量评估,优化检测框定位,提升分割精度。同时,开启Mixup数据增强处理,充实数据集丰富训练特征,提升模型学习能力。实验结果表明,DE-YOLO在城市景观数据集Cityscapes中的掩膜平均精度(mAPmask)较基准模型YOLOv8n-seg提高了2.0个百分点,APmask@0.5提升了3.2个百分点,在精度提升的同时,保持了优良的检测速度和小参数量,模型参数量相较同类模型低2.2-31.3个百分点。
  • 胡涌涛, 黄洪琼
    录用日期: 2024-04-16
    换装行人重识别(Clothes-changing Person Re-identification, CC RE-ID)是行人重识别的一个新兴的研究课题,旨在找回被换衣的行人,该课题尚未得到充分研究。当前提出的方法主要集中在使用多模态数据辅助解耦表征学习的方法上,如通过脸、步态、身体轮廓等辅助数据解耦行人自身属性以减少服装影响,但泛化能力较差,需要大量额外工作。而仅使用原始数据的方法对于相关信息的提取能力还不够充分,性能较弱。针对换装行人重识别存在的问题,提出了一种结合特征融合和通道注意力的多分支换装行人重识别方法(MBFC)。该方法通过在主干网络中融入通道注意力机制在特征通道层面学习关键信息,设计局部与全局特征融合方法提高网络对行人细粒度特征的提取能力。此外,MBFC模型采用多分支结构,使用服装对抗损失和交叉熵标签平滑损失等多种损失函数引导模型学习与服装无关的信息,减少服装对模型的影响,从而提取到更有效的行人信息。本研究模型方法在PRCC数据集和VC-Clothes数据集上进行了广泛实验。实验结果表明,本文所提出的模型性能在RANK-1和mAP指标上优于当前换装行人重识别先进方法。
  • 阳丽莎, 李茂军, 胡建文, 王鼎湘
    录用日期: 2024-04-15
    针对带钢表面缺陷检测任务存在小目标检测效率低、缺陷定位不准确、检测算法参数量大、难以运用在终端设备上等问题,提出一种改进的YOLOv7-tiny检测算法。首先,使用GSConv替换颈部网络中的标准卷积,再基于GSConv设计一种改进的高效聚合网络(ELAN-G),保证带钢表面缺陷特征信息被充分融合的同时降低算法的参数量;其次,在预测头和颈部网络之间增加针对低分辨率和小缺陷的SPDConv模块,模块先生成一个中间特征图,通过对中间特征图中的小缺陷特征信息过滤学习得到最终特征图,以此提高预测头对小缺陷的检测精度;最后,引入MPDIoU损失函数,合理利用边界回归框的几何性质,简化损失函数计算过程并提高缺陷定位精度。实验结果表明,在NEU-DET数据集上,改进算法比其他6种先进目标检测算法效果更好,性能更均衡,改进算法的平均精度均值(mAP)可达74.1%,且参数量和计算量低于所有对比算法,可布置在工业坏境中的带钢表面缺陷检测系统上。
  • 贾 硕, 林士飏, 杨苗会, 孙滕
    录用日期: 2024-04-15
    窄路段作为交通场景中不可避免的瓶颈路段,其短时车流量预测对优化路径规划、改善交通状况有着非常重要的意义。针对窄路段的时效性,同时考虑适用模型的准确度,提出一种基于佳点集初始化种群、非线性参数控制及柯西变异扰动的改进鲸鱼优化门控循环单元(GRU)的窄路短时车流量预测模型,以SUMO仿真数据进行了实证研究。对比实验结果显示,改进后的鲸鱼算法有较好的全局性、收敛速度且更加稳定。基于改进鲸鱼优化GRU的窄路短时车流量预测模型,指标RMSE相较于WOA-GRU、PSO-GRU、LSTM分别降低了10.96%、28.71%、42.23%,指标MAPE分别降低 了13.92%、46.18%、52.83%,有较为显著的准确性和稳定性。
  • 任书玉, 汪晓丁, 林晖
    录用日期: 2024-04-15
    Transformer在自然语言处理中表现出惊人的性能,激励了研究人员开始探索其在计算机视觉任务中的应用。DETR将目标检测视为一个集合预测问题,引入Transformer模型来解决目标检测任务,从而避免了传统方法中的提案生成和后处理步骤。最初的DETR在训练收敛和小物体检测方面存在一些问题。为了解决这些问题,研究人员进行了多方面的改进,实现了DETR的实质性改进,提升其性能。我们对DETR的基本模块和最近的增强进行了深入研究,包括对主干结构的修改、查询设计策略和注意机制的改进。同时,还对各种检测器进行了比较分析,评估了它们的性能和网络架构,深入探讨了DETR的局限性和面临的挑战,并展望了未来在该领域的发展方向。通过这篇论文的研究,展示了DETR在计算机视觉任务中的潜力和应用前景。
  • 张明, 郭文康, 王海峰†
    录用日期: 2024-04-15
    在GPU异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能提出一种CPU/GPU异构图计算引擎,用于提升异构处理器的计算性能。首先提出新的异构图分割算法,该分割算法以流式图划分为核心,通过贪心策略调整顶点位置,进而实现计算节点之间、CPU/GPU之间的动态负载均衡。在初始图划分时该方法基于最多邻居顶点来分配图顶点,在迭代时基于最少连接边动态调整顶点位置。其次,设计面向的GPU异构计算模型,通过CPU/GPU功能并行的方式实现协同计算。CPU与GPU并行执行图算法,提高CPU核心的利用率,进而提升图计算效率。实验以图算法PageRank、Connected Component、SSSP与K-core为例,与其他图计算系统展开对比。与未考虑异构计算的图引擎相比,异构图引擎DH-Engine(Distributed Heterogeneous Engine)能更好地平衡各节点计算负载以及计算节点内部的异构处理器之间的负载,通过缩短局部时延来提高整体的计算速度。实验结果表明DH-Engine的CPU/GPU协同度趋于1。相较于其他图系统,DH-Engine异构计算的加速比达5倍。分布式异构引擎可以提供更好的图异构计算方案。
  • 张玉杰, 高晗
    录用日期: 2024-04-15
    工业质检过程中,冲压件缺陷图像分割作为缺陷检测的重要环节,直接影响缺陷检测效果。而传统的FCM聚类算法未考虑到空间邻域信息,对于噪声干扰较为敏感,导致分割精度较差;且整体易受初始值的影响,导致收敛速度变慢。针对上述问题,本文提出一种改进的FCM算法,采用内核诱导距离中的简单两项代替传统的欧氏距离,将原有的空间像素映射到高维特征空间,提高线性可分概率和计算速度;利用图像像素之间的空间相关性,通过引入改进的马尔可夫随机场对FCM目标函数进行修正,提高了算法的抗噪能力以及分割精度;采用秃鹰搜索算法确定FCM的初始聚类中心,提高了算法的收敛速度,同时也避免了算法易陷入局部极值的情况。为验证改进的FCM算法性能,选取划分熵、划分系数、Xie_Beni系数以及迭代次数作为评价指标,并与近年来不同学者提出的图像分割算法进行实验对比,验证了算法的有效性。实验结果表明,本文算法具有较好的抗噪能力,能得到较好的缺陷分割效果,对工业上冲压件的缺陷检测有一定程度的应用价值。
  • 王磊, 马驰骋, 齐俊艳, 袁瑞甫
    录用日期: 2024-04-15
    煤矿开采安全问题尤其是采空区地表沉降现象会对人员安全及工程安全造成威胁,研究合适的矿区地表沉降预测具有很大意义。矿区地表沉降影响因素复杂,单一的深度学习模型对矿区地表沉降数据拟合效果差且现有的地表沉降预测研究多是单独进行概率预测或考虑时序特性进行点预测,难以在考虑数据的时序特征的同时对其随机性进行定量描述。针对此问题,在对数据本身性质进行观察分析后选择了差分整合移动平均自回归(ARIMA)模型进行时序特征的概率预测,结合长短时记忆网络(LSTM)模型来学习复杂的且具有长期依赖性的非线性时序序列特征。提出了基于ARIMA-LSTM的地表沉降预测模型,通过利用ARIMA模型对数据的时序线性部分进行预测,并将ARIMA模型预测的残差数据辅助LSTM模型训练,以在考虑时序特征的同时对数据的随机性进行描述。研究结果表明,相较于单独采用ARIMA或LSTM模型,该方法具有更高的预测精度(MSE为0.26287、MAE为0.40815、RMSE为0.51271)。进一步的对比验证显示,预测结果与雷达卫星影像数据(经SBAS-INSAR处理后)趋势一致,证实了该方法的有效性。
  • 李海丰, 刘森森, 王怀超, 李南莎, 张艺凡
    录用日期: 2024-04-15
    为促进道面地下领域知识和目标检测算法的深度融合,缓解不同病害样本间的特征复杂性和相似性导致的特征畸变问题,提升病害的自动化检测效果,提出了融合关联关系推理的机场道面地下病害检测算法。首先,本算法结合残差网络和多尺度特征金字塔模块(Feature Pyramid Network,FPN)提取目标特征信息;其次,通过挖掘机场道面地下病害关联关系矩阵,结合图推理设计地下病害关联关系推理模块,以区域生成网络(Region Proposal Network,RPN)生成的特征向量作为输入特征,利用自我学习的变换矩阵设定图的传播权重,实现特征信息传播并构建有效的关联关系推理模块。实验证明,融合关联关系推理的机场道面地下病害检测算法可以有效地利用地下病害之间的关联关系,消除病害之间的相互干扰并且检测效果达到最优,平均准确率达到了87.38%。
  • 刘兆伟, 方艳红, 郑明宇, 锁斌
    录用日期: 2024-04-15
    肺部疾病存在种类多、病灶区域小的特点,现有数据集也存在数据量小的问题,导致模型效果不理想。为提高诊断效果,提出一种基于多任务联合注意力机制的肺部诊断网络(ASNet)。基于U-Net构建多任务诊断网络,在原有病灶分割任务基础上加入病理分类任务,加强任务之间的联系以分割任务为辅提升分类任务准确率;提出多尺度挤压激励模块,加强空间和通道之间的信息融合;引入一种轴向注意力机制,强调全局上下文信息和位置信息缓解由于医疗数据匮乏引起的欠拟合问题;设计自适应多任务混合损失函数,实现分割和分类任务损失权重的均衡。在自建数据集上进行了详尽的实验,病灶分割任务上Dice系数、SP、SE、HD和准确率的平均结果为81.1%、99.0%、84.1%、24.6mm和97.5%,优于SAUNet++、SwinUnet等其他先进分割网络;在病理分类任务上比较优网络(MobileNetV2)在Precision、召回率和准确率指标上分别提升了2%、1.8%和1.7%。实验说明所提网络提升了在分类和分割上的精度,对小目标病灶分割效果更佳,合理的参数量适用于协助肺部疾病诊断。
  • 张欢, 王晨, 单景东, 仇润鹤
    录用日期: 2024-04-15
    电梯作为特种设备之一,其运行安全风险预测至关重要。当前对于电梯相关的研究多基于电梯部件数据,并且预测方法在变换应用场景的情况下会出现预测精度低,泛化能力差等问题。为此提出一种基于领域自适应与注意力机制的电梯安全风险预测方法。该方法基于对抗领域自适应网络,并且使用注意力机制优化网络的特征提取能力。方法包括特征提取器,标签分类器和领域分类器三部分,输入数据为同时包含源域与目标域数据的电梯安全风险因素,经由注意力机制优化的特征提取器,自适应提取并保留源域和目标域之间的公共关键特征,然后将关键特征同时输入至标签分类器和领域分类器,通过领域自适应实现由源域至目标域的迁移学习,通过标签分类器输出电梯运行状态。实验结果表明,所提出的方法在迁移至目标域应用场景的情况下,预测精度可以达到86.9%,相较于优化前提高了2.6个百分点,与LSTM-AE、CNN-LSTM、TrAdaBoost.R2、DSAN比较分别高出9.5、8.3、3.7以及1.2个百分点,能够有效对电梯安全风险进行预测。
  • 王磊, 李文杰, 王海
    录用日期: 2024-04-15
    针对以多属性概率语言集为信息环境的人岗匹配决策问题,构建基于改进ORESTE (organísation, rangement et Synthèse dedonnées relarionnelles, in French)排序法和匹配意愿的双边匹配模型。提出概率语言广义兰氏距离公式,利用概率语言幂平均算子确定属性客观权重,并基于博弈论的思想对主、客观权重进行组合优化,从而克服了极端值对决策结果的影响,并使得属性权重兼顾了专家经验判断的主观分析和信息结构的客观分析两方面因素,更具科学性。接下来,改进ORESTE排序法,在ORESTE排序法的弱排序与强排序相结合的基础之上,通过引入概率语言广义兰氏距离公式和Borda函数,同时考虑最优化组合的主、客观权重,从而使排序结果更加真实符合实际。为了最大化地满足主体意愿,根据心理行为“首因效应”,提出具有稳定性的新匹配意愿系数,以此构建合理有效的多目标双边匹配模型。某智慧养老服务平台的养老服务人岗匹配算例的结果表明,该双边匹配模型具有有效性,且决策者可以根据自身风险偏好调节参数 以最大程度地满足主体意愿。相比ORESTE、TOPSIS等决策方法,所提的改进ORESTE匹配模型能够更加合理有效地计算排序值来获得最优匹配对。
  • 汤静雯, 赖惠成, 王同官
    录用日期: 2024-04-11
    智慧社区场景下的行人检测需要精准识别行人以应对各类情况的发生,然而面对遮挡和远距离行人的情景,现有检测器会出现漏检、误检,以及模型过大不易部署的问题。针对以上问题,提出了基于YOLOv8的行人检测算法ME-YOLO(Multiscale Efficient-YOLO)。设计一种高效特征提取模块EM,使得网络更好学习行人特征和捕捉行人特点,减少了网络参数量的同时提高了检测精度。提出一个重构的检测头模块,重新整合后的检测层增强了网络对小目标的识别能力,有效检测小目标行人。引入双向特征金字塔网络来设计新的颈部网络BDR-FPN,利用扩张残差模块和附权注意力机制来扩展感受野和有所侧重地学习行人特征,缓解网络对遮挡行人不敏感问题。所提算法在CityPersons数据集上进行训练和验证,相比较原算法YOLOv8,ME- YOLO算法的AP50提高了 5.6个百分点,模型参数量减少了41%,模型大小压缩了40%。在数据集TinyPerson上验证算法的有效性和泛化性,AP50提高了4.1个百分点,AP50:95提高了1.7个百分点。该算法在大幅度减少模型参数和大小的同时有效提高了检测精度,在智慧社区场景中有较好的应用价值。
  • 江惠珍, 孙艳春, 黄罡
    录用日期: 2024-04-11
    GitHub是世界上最大最流行的在线代码托管平台,为软件开发学习者提供了丰富的学习资源。然而,面对丰富而繁杂的GitHub内容,软件开发初学者使用GitHub的搜索功能搜索所需的学习资源时,由于需求不明确或缺乏相关知识和经验,常会遇到难以构建合适的搜索文本以有效地进行搜索的问题。针对该问题,利用GitHub主题潜在的层次结构,结合Wikipedia软件开发领域知识,设计了GitHub软件开发领域知识图谱,在此基础上提出了一种基于知识图谱的GitHub层次化学习和检索服务。随后,通过对比实验和调查问卷的方式验证了提出的层次化学习和检索服务的可行性和有效性。
  • 卞玉星, 黄荣, 周树波, 刘浩
    录用日期: 2024-04-11
    图像隐写是指将秘密图像隐藏到载体图像中,生成含密图像并在公共信道中传输,通常包括秘密图像的嵌入和提取两个过程。现有多载体图像隐写方法将秘密图像的嵌入过程拆分为编码和叠加两步,将秘密图像编码为含密扰动,通过空域操作将含密扰动与多张载体图像叠加,实现了在多张载体图像中嵌入秘密图像。这种方法的嵌入和提取两个互逆过程分别由两个相互独立的网络实现,无法共享参数,这导致计算资源消耗大、训练参数多。为解决这个问题,提出了一种基于可逆神经网络的多载体图像隐写模型,它将嵌入和提取过程分别与可逆神经网络的正向和逆向映射相关联,实现了参数共享,有效减少了网络参数量。此外,现有的模型缺乏对秘密图像重要内容级区域的重要性度量方法。针对此问题,在可逆神经网络输入端引入了空域注意力模块,以提高编码质量,关注秘密图像中的关键区域,从而提升隐写效果。同时,为多用户配给基于密钥的身份信息矩阵,建立了身份核验机制,防止攻击者非法获取秘密图像。实验表明,该方法实现了较好的隐写效果,含密图像和提取出的秘密图像的峰值信噪比优于基线模型8.5dB~9.4dB,结构相似度优于基线模型0.012~0.019、学习感知图像块相似度优于基线模型0.0029~0.0047,参数量仅为基线模型的17.6%
  • 黄开基, 杨 华
    录用日期: 2024-04-11
    图像匹配的目标是从两个或多个图像中找到相似结构之间对应关系的算法,是计算机视觉领域中的基础且重要的问题,在机器人、遥感、自动驾驶等领域具有广泛应用。近年来随着深度学习的发展,基于深度学习的二维匹配算法在特征提取、特征描述以及特征匹配三方面不断进行改进,其性能在匹配精度、鲁棒性等方面远超传统算法,取得了丰硕的成果。尽管目前已存在大量关于二维图像匹配算法的综述,但是仍缺少对最新图像匹配算法发展的归纳。因此,对计算机视觉领域的二维图像匹配任务近八年基于深度学习特征的二维匹配方法进行总结,从基于局部特征的检测和描述的双阶段匹配方法、基于联合特征检测和描述的匹配方法和无特征检测的匹配方法三方面详细介绍了二维图像匹配算法的发展过程、分类方法、性能评价指标,并对各类方法的优点及局限性进行归纳。然后,对二维图像匹配算法的应用场景进行介绍,阐述了二维图像匹配的进展对其应用领域的影响。最后,对二维图像匹配算法的发展趋势进行总结和展望。
  • 魏星, 孙浩, 曹健, 祝晓斌
    录用日期: 2024-04-11
    作为协助用户从海量数据中找到匹配兴趣和需求内容的关键,会话推荐系统的目标是基于匿名会话预测用户的下一个行为。目前常见的推荐算法对于用户整体兴趣表示不足,而且很少考虑物品间的位置关系。本文提出一种基于增强记忆网络的会话推荐模型SR-MAN,旨在分析全局用户兴趣表征和物品顺序问题。首先,在物品嵌入向量生成时引入位置编码,突显不同位置对序列的影响,再借助神经图灵机存储近期会话信息,并设计了注意力网络学习长期偏好,结合用户末次点击作为当前兴趣偏好。最后,通过整合长期与当前偏好进行预测,推荐用户感兴趣的项目。在算法训练的过程中,使用了贝叶斯个性化排名来估计模型参数,并在三个数据集上的实验验证了本方法的有效性。
  • 史昕, 曹凤腾, 纪艺, 马峻岩
    录用日期: 2024-04-11
    通流预测在规划交通系统、优化道路资源和缓解交通拥堵等方面具有重要意义。本文针对交通流预测中时间周期性特征提取不充分导致预测精度提升受限的问题,提出了一种基于多尺度时空特征和软注意力机制的交通流预测方法(MSTFSA)。该方法首先利用图交谈注意力网络(GTHAT)提取空间数据的非欧几里得结构特征,通过分配动态权重表征不同时间相邻道路交通流的影响程度;其次利用双向增强注意力门控循环单元结构(Bi-EAGRU)提取时间数据的连续性关联特征,增强每个时刻的时间特征与上下时刻的联系;然后基于软注意力机制融合周周期、日周期和近邻时间三个尺度下的相似交通流趋势,实现对时间周期性特征的充分提取,最后结合高速公路数据集PeMS04和PeMS08验证MSTFSA的预测精度。实验结果表明,MSTFSA的交通流预测精度表现出良好效果,与基线模型STSGCN和ASTGCN相比,其预测均方根误差(RMSE)分别降低7.15%和3.8%,平均绝对误差(MAE)分别降低7.79%和3.99%。由此可见,MSTFSA能较好的提取并融合交通数据的多时间尺度时空特征,在交通流预测精度提升方面表现出一定的优势。
  • 易 鹏, 杨 晔, 严仕嘉
    录用日期: 2024-04-11
    为解决个体间差异性的问题并提高手势识别技术的普适性,本文提出了一种基于多并行卷积网络(Multi Parallel Conventional Neural Network, MPCNN)的迁移学习策略。该策略旨在实现基于表面肌电信号的高效手势识别。MPCNN通过并行架构和优化的迁移学习机制,对比以往的CNN迁移框架能够更有效地处理不同个体间的生理差异,从而提高了模型对新用户的适应性和识别准确率。此外,MPCNN通过减少模型训练时间和提高泛化能力,显著增强了系统的实用性。通过多组实验,包括倍数交叉验证、消融实验和健壮性测试,本研究证实了所提策略在多个方面的有效性。实验结果显示,与传统CNN模型相比,MPCNN在手势识别准确率方面提升显著,本文提出的MPCNN迁移学习策略在Ninapro DB7识别率达到了94.95%对比以往的CNN迁移学习框架有4.38%的提升,同时训练时间减少了超过50%。这些实验验证了MPCNN迁移模型在减轻训练负担、增强泛化能力和提高抗干扰性方面的优点。基于实验模型对人机交互能力进行了验证,验证了其在肌电控制应用前景。
  • 张新波, 张雪英, 黄丽霞, 陈桂军
    录用日期: 2024-04-11
    在工业分类预测中,有标签数据稀缺且标记成本高,导致模型预测不准确,同时大多数无标签数据中的特征未得到合理利用,模型的泛化能力不足。为了解决这个问题,该研究将有标签数据和无标签数据通过有监督学习和无监督学习相结合,提升模型预测准确率。该模型首先在深度自编码通道上,分别添加高斯噪声和稀疏性约束,提取与分类相关更具代表性的特征表示;其次在编码器与解码器之间引入横向连接,过滤与分类任务不相关的信息,使得网络能够更好地学习关键变量的特征表示,并在网络顶层添加有监督学习路径来实现分类识别;然后添加原始编码器,与解码器中对应隐含层的输出一起训练,从而实现无监督学习路径,有效利用无标签数据中信息;最后通过有监督损失与无监督损失函数构造总损失函数,实现对工业生产中关键变量进行分类预测。实验结果表明,与常用的有监督学习模型和传统的半监督学习模型相比,该算法的分类预测准确率得到了有效提高,并且精确度、召回度和F1分数均表现出改进。
  • 王晓路, 汶建荣
    录用日期: 2024-04-11
    针对动作视频中存在冗余信息及动作信息的特征通道分布稀疏问题,提出了一种基于运动-时间感知的3D残差网络。运动感知模块(Action- Perception Module,AM)计算特征级别的时间差来激励运动敏感通道以此获取运动特征;时间注意力模块(Temporal-Attention Module,TM)沿着时间维度计算注意力权重矩阵获取局部时间特征。将AM模块和TM模块计算结果相加,得到动作信息的融合特征,再加入到3D残差网络中,以此构造基于运动-时间感知模块(Action-Time-Perception Module,ATM)的3D残差网络。实验结果表明,在公共数据集UCF101和HMDB51上,基于ATM模块的3DResNeXt-101网络相对于3DResNeXt-101网络的动作识别的准确率分别提升了1.6 %和2.8 %,说明本文所提出的方法是可行、有效的。
  • 张文博, 黄 浩, 吴 迪, 唐敏杰
    录用日期: 2024-04-10
    标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。近年来,随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型在提取长序列输入的局部信息方面存在局限性,不利于最终标点符号的预测。此外,以往的研究将标点标签视为要预测的符号,忽略了不同标点的场景属性和标点间的关系。为了解决这些问题,该文引入了移动平均门控注意力(Moving average Equipped Gated Attention ,MEGA)网络作为辅助模块,以增强模型对局部信息的提取能力。同时,该文还构建了分层预测模块,充分利用不同标点符号的场景属性和标点间的关系进行最终的分类。该文使用多种基于Transformer结构的预训练模型在不同语言的数据集上进行实验,在英文标点数据集IWSLT的实验结果表明,多数预训练模型上应用MEGA模块和分层预测模块都能获得性能增益,值得注意的是使用DeBERTaV3 xlarge在IWSLT的REF测试集取得了85.5%的F1分数,相比于基线提升了1.2%,这是目前在REF测试集中的最佳结果。此外,该文的模型在中文标点数据集的实验中也取得了目前为止最高的精度。
  • 王彬, 张娇 , 李薇, 王晓帆, 金海燕
    录用日期: 2024-04-10
    协同进化框架是解决大规模全局优化问题的有效方法,设计合理的决策变量分组方法是提高协同进化算法的关键,而利用精英决策变量动态构建精英子组件可以有效提高进化效率,针对大规模优化时,其可能将无关系的变量分配到同一子组件,造成无法充分利用分组提高进化协同进化效率的问题,提出一种精英贡献两阶段动态分组算法(Elite Contribution Two-stage Dynamic Grouping,EC-TSDG):首先,分组前阶段对变量进行随机分组,然后评估变量的贡献程度,从众多变量贡献中寻找精英贡献变量;其次,分组后阶段利用变量的相关关系,寻找与精英决策变量存在相互作用的剩余变量,并将其合并形成精英子组件,使得精英子组件内部的变量两两相关,以此提高变量分组的准确性以及算法的收敛速度,避免子组件之间的相关干扰。最后采用具有外部存档的自适应差分进化算法作为优化器进化各个子组件。在CEC2013测试函数集上与其它先进算法进行比较,提出的算法收敛速度快于对比算法,Friedman检验的平均排序为1.43,高于对比算法36.78%。
  • 喻勇涛, 孙奥, 李昂, 朱琳琳
    录用日期: 2024-04-10
    工业表面质检场景中,深度分类神经网络常用于对产品图像进行分类,实现对产品的合格判别或品质分级,搭载深度分类神经网络的表面质检设备需进行量具的检验重复性与再现性评估(Attribute Reproducibility and Repeatability,AR&R),但由于产品载具存在装配公差以及设备振动等因素,设备拍摄的产品图像会出现位置、角度、亮度、模糊度的相关扰动,分类神经网络对扰动图像将无法输出一致的分类结果和分类概率,导致表面质检设备无法通过AR&R评估,将此问题总结为网络输出重复性问题,并针对这类问题提出了一种基于孪生网络的分类神经网络训练方法,孪生主网络使用原始样本进行监督学习训练,学习输出正确的分类类别,孪生次网络通过指数平滑拷贝主网络权重,输出与原始对应的扰动样本的特征嵌入,用于对主网络进行对比学习训练,使主网络对原始样本与扰动样本输入均输出一致的分类概率,推理时,仅保留主网络用于产品缺陷分类。为充分验证算法性能,设计了基准实验、网络架构消融实验与类似方法对比实验,并在电感产品图像上进行了验证,验证结果中分类准确率达到99.3462%,分类概率方差为0.001016,所述方法可有效缓解使用深度分类神经网络对工业产品图像分类的输出重复性问题,在显著降低了分类概率方差的同时,分类准确率也有一定提升。