作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

最新录用


说明:以下列出经编委会审查通过,被本刊录用的文章。这些文章尚未确定具体刊出日期, 其个别内容、版式可能与最后的发表版本稍有差异, 请以最后发表为准。本刊已经为这些文章分配了文章唯一和持久的doi,您可以使用doi直接引用本文。

Please wait a minute...
  • 全选
    |
  • 林芷薇, 杨祖元, 王斯秋, 杨超
    录用日期: 2023-12-05
    比赛过程中运动员快速移动且频繁遮挡使得对视频中运动员检测容易出现漏检、多检、检测精度下降等问题。现有 的主流方法对于移动和遮挡情况下的运动员检测表现不佳。运动员受到遮挡后,检测目标框的尺度变化增大。本文引入 cutout 作为数据增强的方法,模拟遮挡情况,构建了一类基于多尺度线性全局注意力 EfficientViT 的运动员检测算法。具体的,使用 线性全局注意力模块以减少计算量,并辅以卷积模块来增强其局部的特征提取能力,通过轻量级小卷积来聚合不同注意力头 部的 token,获得多尺度信息,增强其全局特征提取能力。针对损失函数部分,选择了 EIoU 作为边界框损失,加入检测框与 目标框的宽高距离,使得检测框和真实目标框尺度上更为贴近。最后,在 SportsMOT 数据集中 4 个公开的篮球比赛视频数据 集上,对比不同主干网络以及使用不同改进方法的实验结果,本文所提算法取得了 98.0%准确率、98.2%的均值平均精度,相 较于 YOLOv5 算法其精度提升了 4%,高置信度的均值平均精度提升了 8.7%。
  • 李华昱, 张智康, 闫阳, 岳阳
    录用日期: 2023-12-05
    针对特定领域中文命名实体识别存在句子简短或歧义等问题,提出了一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像,提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTM的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,使用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留此节点领域为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。模型使用多层感知机将文本、图像和子图三种特征映射到同一空间,并通过独特的门结构实现文本和图像的细粒度跨模态特征融合。最后通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行了比较,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,表明利用领域知识图谱能提升实体识别效果。
  • 肖慈 , 徐杨 , 张永丹 , 冯明文 , 黄易仟
    录用日期: 2023-12-05
    随着深度学习和计算能力的提升,对白天拍摄的自然场景图像进行语义分割的性能有了显著的提高。然而,在夜间图像语义分割任务中,由于曝光不平衡和缺乏标记数据等挑战,由白天数据训练的模型往往无法取得良好的表现。为了解决这些问题,本文提出了一种新的无监督夜间图像语义分割网络AI-USeg。首先,使用一个轻量级的照明网络SCI对夜间图像进行增强,以减少光照变化对后续语义分割网络的影响。其次,引入了领域自适应方法,将模型从包含大量有标签的Cityscapes数据自适应到Dark Zurich-D,解决缺乏标记数据的问题。此外,AI-USeg在基于FCN实现的判别器中引入SENet,通过在输出空间进行对抗学习来适应夜间低光照环境下的图像特征,以提升夜间图像语义分割任务的性能。为了验证AI-USeg的效果,实验使用Cityscapes和Dark Zurich-train中的2416个昼夜图像对进行无监督训练,在Dark Zurich-test和Nighttime Driving-test上的mIoU分别达到了47.88和51.49,相较于MGCDA分别提高了5.38和2.09,对夜间图像的特征适应性更强,具有更高的鲁棒性,为夜间场景的图像分割任务提供了一种有效的解决方案。
  • 陈佳玉 , 王元龙 , 张虎
    录用日期: 2023-12-05
    基于知识图谱的问题生成旨在给定图谱三元组和答案生成一个相关的自然语言问题。预训练语言 模型在大规模训练数据和超大规模算力的基础上,能够从非结构化的文本数据中学到大量的知识。针对三 元组包含信息有限的问题,提出了利用预训练语言模型丰富知识的问题生成方法。首先利用预训练语言模 型中丰富的知识增强三元组信息,设计了文本知识生成器,它可以将三元组中的信息转化为子图描述,丰 富三元组的语义;然后使用问题类型预测器预测疑问词,疑问词对于问题生成非常重要,它可以帮助准确 定位答案所在的领域从而生成语义正确的问题,更好地控制问题生成的效果;最后设计了一种受控生成框 架对关键实体和疑问词进行约束,保证关键实体和疑问词同时出现在问题中,从而使生成的问题更加准确。 在公开数据集 WebQuestion 和 PathQuestion 中验证所提模型的效果。与现有模型 LFKQG 相比,在 WebQuestion 数据集 BLUE-4 指标、METEOR 指标、ROUGE-L 指标分别提升了 0.28%、0.16%、0.22%,在 PathQuestions 数据集上 BLUE-4 指标、METEOR 指标、ROUGE-L 指标则分别提升了 0.8%、0.39%、0.46%。
  • 傅明建 , 郭福强
    录用日期: 2023-12-05
    无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(Deep Reinforcement Learning,DRL)算法在自动驾驶决策领域具有广阔前景。但是,深度强化学习在自动驾驶场景下存在样本效率低以及奖励函数设计困难等问题。因此提出一种基于专家先验的深度强化学习算法CBAM-BC-SAC来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识。然后,使用通道-空间注意力机制(Convolutional Block Attention Module,CBAM)改进行为克隆(Behavior Cloning,BC),在专家先验知识的基础上预训练模仿专家策略。最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,并且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC-SAC算法与传统DRL算法SAC、基于传统行为克隆的DRL算法BC-SAC相比,分别提高了14.2%、2.2%的通行成功率。
  • 丁伟杰 , 顾斌杰 , 潘 丰
    录用日期: 2023-12-05
    现有密度加权孪生支持向量回归机(DWTSVR)是一种能够反映数据内在分布的回归算法,具有预测精度高和鲁棒性等优点,然而其并不适用于训练样本是以增量形式提供的场景。针对该问题,提出一种增量式稀疏密度加权孪生支持向量回归机(ISDWTSVR)。首先,辨别新增数据是否为异常样本,并赋予有效样本适当的权重,降低异常样本对模型泛化性能的影响。接着,结合矩阵降维与主成分分析的思想,筛选出原始核矩阵中的一组特征列向量基代替原特征,实现核矩阵列稀疏化以获得稀疏解。其次,借助牛顿迭代法和增量学习策略,对上一时刻的模型信息进行调整,实现模型的增量更新。此外,引入矩阵求逆引理避免增量更新过程中直接求解逆矩阵,进一步加快训练速度。最后,在UCI基准数据集上进行仿真实验,并与现有代表性算法进行比较。结果表明,ISDWTSVR继承了DWTSVR的泛化性能,在大规模数据集Bike-Sharing上,新增一个样本模型更新所需的平均时间为5.13秒,较DWTSVR缩短了97.94%,有效地解决了模型从头开始重新进行训练的问题,适用于大规模数据集的在线学习。
  • 张池 , 王忠 , 姜添豪 , 谢康民
    录用日期: 2023-12-05
    语音增强算法的鲁棒性对比人耳依旧有差距。人耳接收语音信息时可利用语音的全局相关性对信息进行采集,依旧 可从受干扰的语音中恢复出语音所传递的信息。语音的频域特征比时域更加丰富,易于提取。针对此问题,提出一种基于并 行多注意力机制(PMAN)的编解码结构语音增强网络对受干扰语音进行频域增强。网络输入经过短时傅里叶变换的语音频 域特征,包含振幅谱和复数谱。编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的 局部以及全局信息,并融合局部注意力机制(LPA)捕捉语音频域二维结构,实现干净语音与干扰因素的二维层面的分离。 解码器部分将学习到的信息进行整合,分别生成振幅掩模和复数频谱,通过加权求和生成最终的语音复数频谱。通过使用时 域与频域联合损失函数实现相位信息的融入。与未使用注意力机制的算法相比,提出的算法增强效果有所提升。在 VB-DEMAND 语音数据集上进行实验结果表明:增强后的语音感知质量、短时可懂度和分段信噪比,相比于 TSTNN 网络分 别提升 10.8%,11.8%,1.05%。
  • 杨小东 , 李沐紫 , 马国祖 , 李松谕 , 王彩芬
    录用日期: 2023-12-05
    车联网环境中,车辆通过互联网连接到公共网络,车辆信息在传输过程中很容易遭受到攻击者的各种恶意攻击,从 而导致车辆隐私信息泄露甚至威胁用户生命安全。2022 年,为了保障车辆间公开通信中消息传输的安全性和隐私性,刘雪艳 等提出了一种车联网环境下的无证书匿名认证方案,并证明该方案在随机预言机模型下满足签名的不可伪造性。然而,通过 安全性分析发现,该方案无法抵抗公钥替换攻击以及车辆之间的合谋攻击。针对上述安全缺陷,提出了一个改进的车联网无 证书匿名认证方案。新方案在随机预言模型下基于椭圆曲线离散对数问题存在不可伪造性,同时也能够抵抗车辆之间联合发 起的合谋攻击。此外,该方案支持非法签名的快速查询,能在聚合签名验证失败后,通过建立非法签名与聚合签名验证等式 的关联性节省对右子节点中非法签名的查找次数,从而迅速定位到非法签名的位置。与同类方案相比,改进方案在聚合签名 验证阶段的计算开销减少了至少 25%,并能满足更多的安全属性。
  • 于洋, 孙芳芳, 吕华, 李扬, 王晓民
    录用日期: 2023-12-05
    微表情可以揭示人们试图隐藏的真实情绪,为刑事侦查、心理辅导等提供潜在的信息。现有微表情检测方法主要在获取空间特征的基础上提取时间特性构建时空特征,相应处理容易导致时间特征失真,同时在空间处理过程中会破坏原有时序关系,降低微表情时空特征的判别性。针对这一问题,提出基于多尺度时空注意力网络的微表情检测方法。利用包含时间和空间关系的三维卷积神经网络对微表情序列进行处理,获取兼顾时间域和空间域的鲁棒性特征。该网络构建多尺度时间输入序列从不同时间长度的图像序列中提取多维时间特征;采用轻量级三维卷积神经网络提取多尺度时空特征;利用全局时空注意力模块对时空特征进行全局性时空关联加强,其中时空重组模块加强不同时刻图像帧之间的连通性,全局信息关注模块构建单帧图像上的空间关联信息,最后对不同时刻特征赋予权重突出关键时间信息,有效地完成微表情检测工作。实验结果表明,该方法可以准确检测出微表情序列片段,在CASME、CASME II和SAMM三个公开数据集上的准确率分别达到92.32%、95.04%和89.56%。相比目前最优的深度学习方法,在CASME II和SAMM数据集上准确率分别提高了3.84%和4.96%。
  • 耿丽丽 , 牛保宁
    录用日期: 2023-11-29
    卷积神经网络(CNN)中包含大量滤波器,参数训练以及存储占用大量内存资源。裁剪滤波器是减小网络规模、释放内存、提高计算速度的有效方法。现有滤波器裁剪方法的主要问题是将滤波器权值作为孤立的数值计算,裁剪小权值滤波器,保留权值大的滤波器,忽视了部分小权值滤波器在特征提取过程中的重要性。通过分析滤波器通道之间的相似性,提出一种基于通道相似度的滤波器熵值计算方法(FEC,Filter Entropy Calculation Based on Channel Similarity)。针对滤波器结构特征,对权值张量进行均值压缩,并证明其合理性。首先计算滤波器通道距离判断通道之间的相似性,再根据通道相似度计算滤波器熵,由熵值大小进行滤波器排序,删除一定比例的较小熵值滤波器。实验设计针对不同卷积层采用不同的裁剪比例,在CIFAR10以及ImageNet标准数据集上对VGG-16和RESNET-34网络进行裁剪,在基本保持原始准确度的情况下,分别减少了大约94%以及70%的参数数量。在目标检测网络SSD上参数数量降低了55.72%,mAP提高了1.04个百分点。
  • 杨郅树 , 梁佳楠 , 曹永军 , 钟震宇 , 何永伦
    录用日期: 2023-11-29
    目前基于深度学习的超分辨率重建网络存在卷积运算冗余、图像重建信息不完整、模型参数庞大,限制了对边缘设 备的适用性等问题。针对上述问题,提出一种轻量级的局部分离与多尺度融合图像超分辨率重建网络,该网络利用局部卷积 对图像进行特征提取,通过分离部分图像通道,在减少网络冗余计算的同时保持图像重建的质量。同时设计一种多尺度特征 融合模块,在空间维度学习长依赖特征,并采用一个通道注意力增强组在空间维度捕获空间特征,减少图像重建信息的丢失, 有效恢复图像的细节纹理。最后,由于多尺度特征融合模块更多的是从全局角度进行特征提取融合,因此构建一种高效反残 差模块补充网络的局部上下文信息提取能力。在 Set5、Set14、B100、Urban100、Manga109 五个基准数据集上进行测试。尺 度因子为×2、×3、×4 时,网络的参数量分别为 373K、382K、394K,浮点运算分别为 84.0G、38.1G、22.1G。定量和定性 实验结果表明,与 VDSR、IMDN、RFDN、RLFN 等网络相比,在较少网络参数的情况下,保证了图像重建效果。
  • 李子杰, 周菊香, 韩晓瑜, 甘健侯, 鹿泽光, 王俊
    录用日期: 2023-11-29
    知识追踪是人工智能技术与教育相结合的新兴领域,旨在通过学生过去完成习题的交互序列对学生的知识状态进行评估,是实现大规模个性化学习服务的关键核心技术。随着深度学习在计算机视觉、自然语言处理、推荐系统等领域的广泛应用,知识追踪领域也出现了大量基于神经网络的方法,简称深度知识追踪模型。针对目前已有的深度知识追踪模型在可解释性和准确性方面的不足,本文提出了一种序列特征与学习过程融合的知识追踪模型SLKT,模型包括知识状态模块、序列特征模块、预测模块,知识状态模块用以模拟学生学习过程,序列特征模块捕捉学习者近期学习状况。通过序列特征和学习过程的融合,SLKT模型有效解决了基于知识状态建模的方法无法考虑学习者近期学习状况的问题,同时提出了一种带约束的动态Q矩阵表示练习和知识点之间的关系,从而更好地进行学习者学习过程建模,在确保较好的可解释性的同时有效提升模型的准确性。本文在三个知识追踪领域公共数据集上通过与DKT、DKVMN、SAKT、CKT等深度追踪模型进行的多组实验对比,验证了本文模型在AUC、ACC指标评估中的优越表现。
  • 李云航, 潘晴, 田妮莉
    录用日期: 2023-11-29
    现有的多模态医学图像融合方法存在结构信息和相位特征保存不完整问题,为此提出了一种基于混合多尺度分解和结构相似度优化的医学图像融合方法。首先,针对单一滤波器在保留图像的结构和细节方面的局限性,提出了一种多尺度分解潜在低秩表示(MDLatLRR)和非下采样轮廓波变换(NSCT)结合的混合多尺度分解方法,先利用MDLatLRR分解源图像获取低秩层和显著层,再使用NSCT对低秩层做进一步的分解;其次,在基础层上使用了基于局部拉普拉斯能量和的融合规则,使融合图像具有更好的视觉效果;对于细节层,则是通过脉冲耦合神经网络(PCNN)计算全局耦合获得融合权重,从而融合细节层;最后,考虑到空间一致性,由初始融合图像获取线性调整图像,利用加权局部结构相似度进行测量从而得到修正系数,并对初始融合图像进行修正,从而提高融合图像中信息的准确性。实验证明,相比于MSMG、EMFusion和CFL等9种方法,本文提出的方法在归一化互信息和空间频率误差比等10个客观评价指标上评估性能更高。特别在相位一致性、余弦特征互信息以及差异相关和指标上分别比第二平均提升了13.89%、19.62%和35.8%,融合图像具有更丰富、准确的细节信息和良好的视觉效果。
  • 周小华, 周园春, 孟珍, 王学志
    录用日期: 2023-11-28
    遥感数据规模庞大且增长迅速,目前可公开访问的遥感影像数据已接近EB级别,然而类型多样、结构复杂、存储文件大等特点给大规模开放遥感数据的发现、共享与使用带来诸多不便。在线地图可使用户无需下载便可对海量云端遥感数据执行可视化分析,是一种更高效的数据服务方式。针对传统地图技术方案存在的瓦片渲染效率低、遥感数据适配性差等问题,从遥感数据时空属性特征及用户访问行为特征出发,依托遥感数据云平台gscloud,设计并实现面向海量遥感数据的高效地图服务平台TiMap。TiMap由分布式地图瓦片渲染引擎TiRender与分布式地图瓦片缓存TiCache构成。TiRender通过将地图瓦片渲染操作转换为分布式环境下的同步实时渲染任务与异步批量预渲染任务,充分利用多节点并行计算的优势,快速响应客户端的地图瓦片请求,TiCache负责缓存TiRender产生的地图瓦片以提升后续重复地图瓦片请求的响应速度,TiCache中的地图瓦片缓存分配算法基于疏远度实现,可以保证多节点的负载均衡。实验表明,TiRender与TiCache均比同类技术方案的性能更好,二者协同工作可使TiMap在100ms内快速响应大规模地图瓦片请求。
  • 刘建敏, 林晖, 汪晓丁
    录用日期: 2023-11-28
    随着5G、大数据和深度学习技术的发展,智慧交通领域的轨迹预测再次成为研究焦点。大量的真实轨迹数据集为准确的轨迹预测提供了数据基础。然而现有的轨迹预测工作大量依赖于高精地图,但高精地图的采集耗时长、成本高、处理复杂,难以快速适应智能交通的大面积普及。为解决无地图场景下车辆轨迹预测问题,提出了一种基于多模态数据时空特征的轨迹预测方法。构建了多个历史轨迹时空交互图,交叉使用时间和空间注意力并进行深度融合,以建模道路上车辆之间的时空关联性。最后,利用残差网络进行多目标多模态轨迹生成。在真实数据集Argoverse 2上进行了模型的训练和测试,实验结果表明,相较于其他先进的方法,该模型在单模态预测方面的各项指标提升了3.86%、3.89%、0.48%,在多模态预测方面的各项指标提升了0.78%、0.96%、0.42%。该方法能够有效地捕捉车辆移动轨迹的时间和空间特征,并可在自动驾驶等相关领域得到有效应用。
  • 熊世强, 何道敬, 王振东, 杜润萌
    录用日期: 2023-11-28
    联邦学习是一种新兴的分布式机器学习技术,其无需对数据进行收集,只需将数据留在本地就能通过各方协作来训练一个共有模型,解决了传统机器学习中数据难以采集和数据隐私安全问题,随着该技术的应用和发展,研究发现联邦学习中仍可能受到各类攻击,为确保联邦学习的足够安全,研究联邦学习中的攻击方式和相应的隐私保护技术显得尤为重要。首先对联邦学习的相关背景知识进行了介绍,随后对联邦学习的定义进行了简要介绍,总结概述了联邦学习的发展历程及其分类,接着介绍了联邦学习安全三要素,从基于来源和基于安全三要素两个角度分类概述了联邦学习中的安全问题,并综述了其研究进展,而后对隐私保护技术进行了分类,结合相关研究应用具体综述了联邦学习中安全多方计算、同态加密、差分隐私和可信执行环境四种常用隐私保护技术,最后对联邦学习的未来研究方向进行了展望。
  • 卢晓天, 朴春慧, 杨兴雨, 白英杰
    录用日期: 2023-11-14
    在实现隐私保护的同时提高数据可用性是高维结构化数据发布研究中的一个挑战性问题,经典算法PrivBayes针对该问题提供了一种解决方案。为进一步减少计算开销、提高数据可用性,提出了基于贝叶斯网络的差分隐私数据发布算法ELPrivBayes。分析贝叶斯网络结构学习阶段的理论计算开销,构建存储属性之间互信息的相关矩阵,避免结构学习算法迭代过程中互信息的冗余计算,降低了时间复杂度。基于平均互信息优化了节点进入贝叶斯网络的顺序,提高结构学习迭代过程中指数机制贡献的互信息期望值,进而提高生成数据集与原始数据集的统计近似度,并实证分析了网络结构质量对首节点选择的低敏感性。在四个典型数据集上的实验结果表明:与经典算法PrivBayes及其改进方案相比较,结构学习阶段的计算开销降低了97%-99%,基于指数机制捕获的互信息提高了14%-67%,生成数据集与原始数据集的平均变差距离降低了32%-40%,构建的SVM分类器准确率提高了4%-5%,并且当ε≤0.8时,采用ELPrivBayes算法生成数据的可用性提升更为显著。
  • 张洋, 刘畅, 李少青
    录用日期: 2023-11-14
    随着全球化的不断深入,第三方知识产权(IP)核应用越来越广泛;而随着硬件木马攻击技术的逐步成熟,使得在芯片设计阶段植入硬件木马成为可能,因此,芯片设计过程中面临IP核被植入木马的严重威胁。现有研究中所提出的硬件木马检测方法具有以下缺陷:依赖黄金参考电路,需要完备的测试向量,需要大量的样本进行学习等。本文面向IP核的硬件木马检测需求,提出了一种基于可控制性度量的图神经网络检测方法。该方法以门级网表作为输入,首先以可控制性值为指导,得到可疑的门节点,用于缩小搜索范围;然后利用可疑门节点生成对应的子图,利用图卷积神经网络从子图中提取特征,实现对子图的分类和检测,最终识别硬件木马的存在。本文的方法无需测试激励和黄金模型,通过利用硬件木马的隐蔽特性与结构特征相结合的方法提升了硬件木马的检测准确率。该方法平均真阳率为100%,假阳率为0.75%,结果表明本文提出的方法在保证较高真阳率的同时,可有效降低假阳率,达到较好的检测效果。
  • 吴翠翠 , 王维东
    录用日期: 2023-11-14
    非视域成像NLOS(non-line-of-sight imaging)是一门综合成像和计算重构的技术,指在不直接拍摄场景的情况下,通过获取介质上隐藏场景的散射或反射信息来对其进行重建。目前的被动非视域成像还处于早期发展阶段,场景模型、目标信息重建等尚无系统的研究方法,缺乏对无遮挡且非自发光的场景的研究。为此,提出了一种针对该场景的非视域成像解决方案,方案分为两步,首先是基于光辐射理论,分析了此场景下漫反射面的成像与隐藏物体的形状的关系,确定了非视域成像模型与重建目标;其次是重构阶段,指出了现有的基于深度学习的重建方法在数据集制作方面没有遵循物理模型,导致无法对非学习库中的场景重建的问题,使用渲染软件结合MPEG7数据集生成符合实际物理意义的漫反射被动非视域全影数据集(Diffuse-Shadow-NLOS data,DS-NLOS)。提出了一种被动非视域重建网络框架Re-NLOS(restore non-line-of-sight network),该网络框架采用了视觉Transformer(Vision Transformer,ViT)结构结合生成对抗网络(Conditional Adversarial Nets,GANs) ,提取采集的漫反射面图像的全局特征,从而恢复隐藏物体形状。在仿真图像上的重建结果表明,该方法能够从漫反射面恢复隐藏物体的形状信息,在测试集20个类别的物体上,平均峰值信噪比提高了5.85dB,平均SSIM提高了0.04,模型对真实室内场景也有一定的恢复能力。
  • 郭伟, 王欣哲, 王江达, 王春艳
    录用日期: 2023-11-14
    针对光线在水中散射和吸收效应造成水下图像纹理和结构不清晰的问题,提出了一种基于卷积调制与空间协作的水 下图像增强算法。该算法以编码器-解码器作为基础网络,通过使用 RepVGG 的浅层网络和深层网络分别提取水下图像的纹理 和结构特征。首先,特征主导网络将 RepVGG 中提取到的水下图像特征转化成具有不同尺度的纹理和结构特征,使其与解码 器中的特征图进行拼接融合。其次在编码器中使用卷积调制模块,采用深度可分离卷积模拟自注意力机制的方式减少图像细 节信息的丢失,提高编码器特征提取的能力。最后在解码器中使用空间协作卷积,在空间维度上处理水下特征保留更多的位 置信息,以提高解码器对融合后特征的增强能力。实验结果表明,本文在视觉感知与性能指标上优于对比算法,其中峰值信 噪比和结构相似指数最高达到了 23.4465 和 0.8946,水下彩色图像质量评价和水下图像质量测量最高达到了 0.5826 和 3.0689, 进一步证明本文算法能够有效增强水下图像的纹理和结构特征,具有较好的视觉感知效果。
  • 刘娟, 段友祥, 陆誉翕, 张鲁
    录用日期: 2023-11-14
    知识图谱是人工智能发展的核心驱动力之一,知识图谱的质量是影响其深度应用的主要因素。知识图谱补全是提高知识图谱质量的重要手段,主要分为基于结构和基于描述的方法。基于结构的补全方法对图谱中常见的长尾实体推理性能表现不佳,基于描述的补全方法在描述信息利用和负样本信息学习方面存在不足。为解决这些问题,设计了一种特定模板,将三元组及其描述信息通过人工定义的模板转换为连贯的自然语言描述语句输入预训练语言模型,增强语言模型对三元组结构知识与描述知识的理解能力。此外,提出一种对比学习框架来提高链接预测任务的效率与准确率,通过建立记忆库存储实体嵌入向量,从中选择正负样本并结合InfoNCE损失进行训练。实验结果表明,相比于其他方法,在链接预测任务中,本文方法在WN18RR数据集的MRR、Hits@1、Hits@3、Hits@10指标分别提升5.5%、2.8%、0.7%、4.2%,三元组分类任务准确率达到94.1%,获得了更高的预测准确率与泛化能力,尤其对于长尾实体,能够有效提升图谱补全的效果与效率。
  • 刘 怡, 张 磊
    录用日期: 2023-11-14
    在如今大数据和机器学习不断扩大的背景下,分布式计算系统成为处理庞大数据的必要工具。对于有一定规模的计算集群,其性能会不可避免的受到“系统噪声”的影响,故而考虑在分布式计算系统中借助编码技术来增强系统的鲁棒性。大多数现有应用于分布式矩阵计算的编码方案均为固定速率码,因而无法适应节点数量动态变化的实际情况。同时,由于部分任务有截止期限制,故而应在保证任务顺利完成的前提下尽可能的减少平均开销从而降低时延。针对该问题,提出将LT码应用于雾计算场景下的分布式矩阵计算。依托其无速率特性,可以自适应信道状态变化。通过合适的度分布函数设计以及双向切割、因子化度数的方法以达到降低时延、增强分布式计算系统鲁棒性的预期效果。实验结果表明,在k1值固定的前置条件下,与FLT码及BDC-LT算法相比,Remo2算法的 值相对于前者可以稳定降低33.3%,相对于后者减少了7.7%的冗余。此外,当k1k2大小的码长固定时,k1、k2的离散化程度越低,即 会带来更小的平均开销 。
  • 陈姣, 沈艳
    录用日期: 2023-11-14
    在移动边缘计算(MEC)背景下,用户需求快速增长,但是由于移动设备的计算和存储资源受限,时延和能耗问题日益显著。此外,由于任务的重复卸载和处理,进一步加剧了时延和移动设备的高能耗问题。因此,针对上述问题,提出了一种带有缓存机制的任务卸载策略来减少任务卸载过程中的时延和能耗。首先,基于任务的流行度、新鲜度和数据大小等因素建立了一个缓存内容选择模型。并根据该模型的结果设计了一种缓存更新策略。其次,针对任务卸载和缓存问题,提出了一个联合优化模型,这个模型以最小化系统总成本为目标,考虑了任务卸载和缓存对移动设备时延和能耗的影响。为解决这一复杂的优化模型,通过添加惩罚函数的形式将约束条件加入到目标函数中,并采用粒子群优化 (PSO)算法获得任务卸载和缓存的最优决策。通过大量仿真实验,验证了本文所提出方案的有效性。与传统的本地计算、卸载计算、随机缓存以及基于流行度的缓存等方案相比,本文所提方案在总时延上降低了37%以上,缓存命中率提高了9.1%以上,同时还优化了缓存资源利用率,取得了较好的效果。
  • 倪雪莉, 马卓, 王群
    录用日期: 2023-11-14
    区块链网络是构建在TCP/IP体系之上的一类覆盖网络,在不依赖可信中心服务节点和可信信道的前提下,为分布式环境中互不信任的节点之间就账本数据达成一致性提供通信保障。伴随着区块链挖矿技术的发展,尤其是基于ASIC、GPU等硬件的PoW共识挖矿技术在比特币(BTC)、以太坊(ETH)、莱特币(LTC)等主流加密货币中的应用,支撑矿池挖矿方式的矿池网络引起研究者的关注。然而,目前专门针对矿池网络及其安全的研究成果较少,为此,归纳整理并提练综合该领域的研究成果,对追踪区块链技术研究进展和拓展区块链应用研究视野具有重要价值。首先结合传统P2P网络的组网模式,分别针对比特币、以太坊和超级账本等典型应用场景,梳理了区块链P2P网络的运行机制和特点;其次介绍了矿池、矿场以及矿池网络的概念,详细分析了矿池网络的组成要素以及GetWork、GetBlockTemplate和Stratum典型矿池网络协议的工作原理;接着重点讨论了针对矿池网络的自私挖矿攻击、跳池攻击、扣块攻击和空块攻击等典型攻击方式的实现过程,并提出了相应的防范方法;最后,对矿池网络的未来发展进行了必要的展望。
  • 张锡英, 孙守东, 于海浩, 边继龙
    录用日期: 2023-11-14
    [1] GALLIANI S, LASINGER K, SCHINDLERK. Massi- vely parallel multi view stereopsis by surface normal diffusion[C]//Proceedings of the IEEE International C -onference on Computer Vision. Boston, USA: IEEE P -ress, 2015: 873-881.
    [2] XU Q, KONG W, TAO W, et al. Multi-Scale Geom- etric Consistency Guided and Planar Prior Assisted Multi View Stereo[J]. IEEE Transactions on Patt- ern Analysis and Machine Intelligence, 2022, 16(3):3 6-45.
    [3] 尹晨阳,职恒辉,李慧斌. 基于深度学习的双目立体匹 配方法综述[J]. 计算机工程,2022,48(10):1-12.YIN C Y,ZHI H H,LI H B. Survey of binocular s-tereo- matching methods based on deep learning[J]. C-ompu ter Engineering,2022,48(10):1-12. (in Chine-se)
    [4] YAO Y, LUO Z, LI S, et al. Mvsnet: Depth infere- nce for unstructured multi-view stereo[C]//Proceedin- gs ofthe European conference on computer vision (E- CCV). Salt Lake City, USA: IEEE Press, 2018: 767- 783.
    [5] GU X, FAN Z, ZHU S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matc- hing[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Washington D.C. , USA: IEEE Press, 2020: 2495-2504.
    [6] 刘会杰,柏正尧,程威,李俊杰,许祝. 融合注意力机 制和多层 U-Net 的多视图立体重建[J]. 中国图象图形 学报,2022,27(02):0475-0485.LIU H J,BAI Z Y, CHENG W,et al. Fusion atte-ntion mechanism and multilayer U-Net for multiviewstereo. Journal of Ima ge and Graphics,2022,27(02):0475-0485. (in Chin ese)
    [7] YANG J, MAO W, ALVAREZ J M, et al. Cost volu -me pyramid based depth inference for multi-view ste -reo[C]//Proceedings of the IEEE/CVF Conferenceon C -omputer Vision and Pattern Recognition. Washington D.C.,USA: IEEE Press, 2020: 4877-4886.
    [8] GAO S, LI Z, WANG Z. Cost Volume Pyramid Net- work with Multi-strategies Range Searching for Multi -view Stereo[J].Springer, 2022, 10(2): 157-169.
    [9] CHENG S, XU Z, ZHU S, et al. Deep stereo using adaptive thin volume representation with uncertainty a- wareness[C]//Proceedings of the IEEE/CVF Conferenc- e on Computer Vision and Pattern Recognition. Was- hington D.C. , USA: IEEE Press, 2020: 2524-2534.
    [10] 李剑,陈宇航. 一种多视角高精度图片的深度估计方法 [J]. 北京邮电大学学报(自科版),2021,44(5):101-10 6.LI J,CHEN Y H.A depth estimation method for m u-lti view and high precision images[J]. Journal of B ei-jing University of Posts and Telecommunications,2 021, 44(5):101-106. (in Chinese)
    [11] CAO C, REN X, FU Y. MVSFormer: Multi-View St- ereo with Pre-trained Vision Transformers and Tempe- rature-based Depth[EB/OL]. [2022-12-16]. https://arxiv. org/abs/2208. 02541.
    [12] LUO X., XIE, Y. FFP-MVSNet: Feature Fusion Base -d Patchmatch for Multi-view Stereo[C]//Communicati- ons Signal Processing and Systems. Berlin, Germany: Springer, 2022: 167-173
    [13] YU Z, GAO S. Fast-mvsnet: Sparse-to-dense multi-vi- ew stereo with learned propagation and gauss-newton refinement[C]//Proceedings of the IEEE/CVF Confere- nceon Computer Vision and Pattern Recognition. Wa-shington D.C. , USA: IEEE Press, 2020: 1949-1958.
    [14] PENG R, WANG R, WANG Z, et al. Rethinking De -pth Estimation for Multi-View Stereo: A Unified Re p-resentation. Proceedings of the IEEE/CVF Conferen c-e on Computer Vision and Pattern Recogni-tion. Ne wOrleans, USA: IEEE Press, 2022: 8635-8644.
    [15] YAO Y, LUO Z, LI S, et al. Recurrent mvsnet for h -igh-resolution multi-view stereo depth inference[C]//P -roceedings of the IEEE/CVF conference on compute rvision and pattern recognition. Long Beach, USA: I E-EE Press, 2019: 5525-5534.
    [16] YANG J, ALVAREZ J M, LIU M. Non-parametric D- epth Distribution Modelling based Depth Inference for Multi-view Stereo[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recogni- tion. New Orleans, USA: IEEE Press, 2022: 8626-86 34.
    [17] 刘万军,王俊恺,曲海成. 多尺度代价体信息共享的多 视角立体重建网络[J]. 中国图象图形学报,2022,27(1 1):3331-3342. LIU W J,WANG J K,QU H C. Multi-scale cost v -olumes information sharing based multi-view stereo re -constructed model. Journal of Image and Graphics, 2 022,27(11):3331-3342. (in Chinese)
    [18] BLEYER M, RHEMANN C, ROTHER C. Patchmatc- h stereo-stereo matching with slanted support windo- ws[C]//Proceedings of the British Machine Vision C- onference. Britain, UK: IEEE Press, 2011: 1-11.
    [19] LI C, ZHOU A, YAO A. Omni-dimensional dynam- ic convolution[J]. Acta Optica Sinica, 2022, 1(2): 169 -181.
    [20] CHENG X, WANG P, YANG R. Depth estimation v- ia affinity learned with convolutional spatial propagat- ion network[C]//Proceedings of the European Confere- nce on Computer Vision (ECCV). Munich, Germany: Springer Press, 2018: 103-119.
    [21] AANAES H, JENSEN R R, VOGIATZIS G, et al. L- arge-scale data for multiple-view stereopsis[J]. Intern- ational Journal of Computer Vision, 2016, 120(5): 15 3-168.
    [22] KNAPITSCH A, PARK J, ZHOU Q Y, et al. Tanks and temples: Benchmarking large-scale scene reconstr- uction[J]. ACM Transactions on Graphics (ToG) 2017, 36(4): 1-13.
    [23] YAO Y, LUO Z, LI S, et al. Blendedmvs: A large-s- cale dataset for generalized multi-view stereo netwo- rks[C]//Proceedings of the IEEE/CVF Conference on C- omputer Vision and Pattern Recognition. Washington D.C. , USA: IEEE Press, 2020: 1790-1799.
    [24] PASZKE A, GROSS S, CHINTALA S, et al. Autom- atic differentiation in pytorch[J]. Automatic different- iation in PyTorch, 2017, 8(2): 458-465.
    [25] FURUKAWA Y, PONCE J. Accurate Dense and Ro- bust Multi-view Stereopsis[J]. Pattern Analysis and M- achine Intelligence, 2010, 32(8): 1362-1376.
    [26] SCHONBERGER J L, FRAHM J M. Structure-from- motion revisited[C]//Proceedings of the IEEE confere- nce on computer vision and pattern recognition. Las Vegas, USA: IEEE Press, 2016: 4104-4113.
    [27] YU A, GUO W, LIU B, et al. Attention aware cost volume pyramid based multi-view stereo network for 3d reconstruction[J]. ISPRS Journal of Photogrammet- ryand Remote Sensing, 2021, 175(6): 448-460.
    [28] WANG F, GALLIANI S, VOGEL C, et al. Patch- matchnet: Learned multi-view patchmatch stereo[C]//P- roceedings of the IEEE/CVF Conference on Compute- r Vision and Pattern Recognition. Nashville, USA: I- EEE Press, 2021: 14194-14203.
    [29] XU Q, OSWALD M R, TAO W, et al. Non-local re- current regularization networks for multi-view stereo [J]. IEEE Access, 2021, 6(8): 132586-132597.
    [30] WEILHARTER R, FRAUNDORFER F. ATLAS-MVS Net: Attention Layers for Feature Extraction and Cost Volume Regularization in Multi-View Stereo[C]//2022 26th International Conference on Pattern Recognition (ICPR).New Orleans, USA: IEEE Press, 2022: 3557-3 563.
    [31] MA X, GONG Y, WANG Q, et al. EPP-MVSNet: E- pipolar-assembling based depth prediction for multi-v- iewstereo[C]//Proceedings of the IEEE/CVF Internati- onal Conference on Computer Vision. Nashville, USA: IEEE Press, 2021: 5732-5740.
    [32] WANG L, GONG Y, MA X, et al. IS-MVSNet: Imp- ortance Sampling-Based MVSNet[C]//Computer Vision ECCV 2022: 17th European Conference. Cham, Swit- zerland: Springer Press, 2022: 668-683.
    [33] WANG F, GALLIANI S, VOGEL C, et al. IterMVS: iterative probability estimation for efficient multi-vie-wstereo[C]//Proceedings of the IEEE/CVF Conferen- ceon Computer Vision and Pattern Recognition. New Orleans, USA: IEEE Press, 2022: 8606-8615.
    [34] XI J, SHI Y, WANG Y, et al. Raymvsnet:Learning ray-based 1d implicit fields for accurate multi-view s- tereo[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orle- ans, USA: IEEE Press, 2022: 8595-8605.
    [35] ZHANG X D, YANG F Z, CHANG M, et al. MG- MVSNet: Multiple granularities feature fusion network for multi-view stereo[J]. Neurocomputing, 2023, 528 (1): 35-47
    [36] LUO K, GUAN T, JU L, et al. P-mvsnet: Learning patch-wise matching confidence aggregation for multi- view stereo[C]//Proceedings of the IEEE/CVF Interna- tional Conference on Computer Vision. Long Beach, USA: IEEE Press, 2019: 10452-10461.
    [37] CHEN R, HAN S, XU J, et al. Visibility-aware poi- nt-based multi-view stereo network[J]. IEEE transact- ionson pattern analysis and machine intelligence, 202 0, 43(10): 3695-3708.
  • 张诗婧, 莫绪涛, 赵行, 董杨林
    录用日期: 2023-11-14
    螺母因紧固零件的作用被广泛应用于机械制造环节,其内壁螺纹质量对于机械联接至关重要。为了实现螺母内螺纹的非接触缺陷检测,首先提出了一种基于球面折反射全景成像原理的图像采集装置,其次利用该装置采集图像数据集并提出了一种基于改进YOLOv7的缺陷检测算法。该成像装置具备一次性成像、无需伸入内壁、采集到的内螺纹图像细节完整等优势,有效地改进了传统视觉检测方案存在的成像分辨率低、相机视场占比小的问题。YOLOv7算法改进结合螺母内螺纹的缺陷特征,使用k-means++算法聚类锚框,使得模型训练更容易收敛。通过在特征融合网络中加入CA(Coordinate attention)注意力机制,提高网络的特征表达能力,使用SIoU(Scylla intersection over union)损失函数替换原YOLOv7模型中的CIoU(Complete intersection over union)损失函数,更好地估算模型的表现能力并获得较低的误差。实验表明,改进后的YOLOv7算法针对内螺纹缺口、漏攻牙、刮痕、碎屑四种缺陷类型,平均精度(AP)分别达96.89%、100%、98.07%、99.98%,平均精度均值(mAP)达到 98.74%,检测速度(FPS)达39.64,与其他常见的模型相比,算法精度最高,满足工业现场实时检测需求。
  • 魏琢艺 , 罗迈 , 李文兵 , 曾远松 , 余伟江 , 杨跃东
    录用日期: 2023-11-14
    单细胞 ribonucleic acid (RNA) 测序技术被成功用于产生人体组织和器官的高分辨率细胞图谱,这加深了研究者们 对人类疾病组织中细胞异质性的理解。细胞注释是单细胞 RNA 测序数据分析中非常关键的一步,许多典型的方法利用一个有 标签的单细胞参考数据集去注释目标数据集,但目标数据集中部分细胞类型可能不在参考数据集中。整合多个参考数据可以 更好的覆盖目标数据集中的细胞类型,然而多个参考数据集和目标数据集之间存在因测序技术差异等原因而造成的批次效应。 为此,这篇文章提出了一种基于多源域适应的单细胞分类模型,它利用多个已标注细胞类型的参考数据集分别和未标注细胞 类型的目标数据集进行对抗训练,实现了批次消除。此外,作者采用虚拟对抗训练,进一步提升模型预测结果对数据点周围 局部微小扰动或噪声的鲁棒性,防止过拟合。通过在多个单细胞数据集上比较,这篇文章提出的方法比目前最先进方法的细 胞识别精度提升了至少 5%。这为新测序的单细胞身份鉴定提供了新的选择和借鉴。
  • 张正康 , 杨丹 , 聂铁铮 , 寇月
    录用日期: 2023-11-14
    近年来,图自监督学习方法被应用于疾病诊断任务中以缓解医疗标签信息缺乏和人工标注问题。然而,图自监督学习的性能主要依赖于高质量的正样本和负样本,这限制了疾病诊断的灵活性和泛用性。此外,在构建医疗异构属性图时没有充分利用病人的多模态数据,这影响了疾病诊断的性能。因此,提出一个基于医疗异构属性图结构聚类的自监督学习疾病诊断框架SC4DD(self-supervised learning based on structural clustering of medical attributed heterogeneous graph for disease diagnosis)。该框架利用病人的结构化数据和非结构化临床文本摘要构建医疗异构属性图,通过图上的结构聚类算法生成节点的伪标签。考虑到不同元路径对学习病人嵌入表示的重要性不同和不同模态医疗数据对诊病诊断结果的影响程度不同,引入注意力机制的异构图神经网络作为编码器,伪标签作为自监督信号辅助编码器学习注意力系数和病人嵌入表示。在MIMIC-III数据集上的实验结果表明,SC4DD优于其它基线方法,能够有效提高疾病诊断的性能。其中,相较于性能最优的基线方法HeCo,SC4DD在不同标记节点所占百分比下的Macro-F1分别提高了1.46%、0.97%、0.94%,Micro-F1分别提高了0.91%,0.84%,0.52%。
  • 张慧妍, 梁勇, 兰景宏, 赵强
    录用日期: 2023-11-14
    为了解决现有的网络入侵检测方法在异常样本有限时存在精确度低和容易产生过拟合的问题,提出一种基于记忆模块和过滤式生成对抗网络(MemFGAN)的入侵检测方法。在生成对抗网络中,生成器采用编码器-解码器结构并引入一个记忆模块学习正常样本的特征向量进行记忆增强,生成器用于对给定的输入进行编码并将其用作查询请求在记忆模块中查询最相关的项进行重构,生成器的重构误差作为异常分数用于入侵检测,在判别器之前增加过滤器过滤异常样本,利用判别器损失提高生成器对正常样本的生成能力以降低其异常分数。此外,分别为生成器和判别器设计了新的训练目标,实现利用已知异常对生成器进行监督,降低生成器对异常样本的重构能力以扩大其异常分数,从而提高模型的入侵检测精确度并缓解过拟合问题。在MAWILab、ISCX2012、IDS2017、IDS2018四个入侵检测数据集上的实验结果表明,相较于基线方法,MemFGAN的F1-score平均提高了0.147,在入侵检测方面具有较好的准确性和泛化性,并可以在异常样本有限时保持良好的检测能力。
  • 韩美慧, 王鹏, 李瑞旭, 刘仲尧
    录用日期: 2023-11-14
    约束多目标优化问题的求解旨在将有限的搜索资源合理的配置到约束条件的满足与目标函数的优化两方面。但问题约束的日趋复杂给求解算法带来了巨大挑战。针对上述挑战,提出了一种基于协同演化的自适应约束多目标进化算法,该算法同时进化两个功能互补的种群(主种群和存档种群),使算法在求解复杂约束问题时能够实现约束处理与目标优化之间的良好平衡。首先,主种群进行双重繁殖,首次繁殖过程通过动态适应度分配函数自适应地利用不可行解所携带的有价值信息,使种群在进化前期强调对目标函数的优化,后期强调可行性,二次繁殖则与存档种群进行合作以提高种群收敛性并维护多样性。然后,提出一种基于角度的选择方案更新存档种群,在保证种群良好多样性的同时保持种群向Pareto前沿的搜索压力。最后,与五种先进的约束多目标进化算法在33个基准问题上进行对比实验,结果表明,所提出的算法在解决各类约束多目标优化问题时与对比算法相比更具优势,其平均效率提高了约67%。
  • 刘少杰, 文斌, 王泽旭
    录用日期: 2023-11-14
    数据保护的约束使得数据被限制在不同企业和组织之间,形成了众多“数据孤岛”,难以发挥其蕴含的重要价值。联邦学习的出现使得数据在组织之间共享成为可能,但利益分配方案不明确、通信成本高、中心化等问题使其难以满足数据交易场景的多方位需求。针对这些问题,提出了一种基于联邦学习的多技术融合数据交易方法(MTFDT)。该方法中通过结合可信执行环境与沙普利值进行了激励机制设计,并对交易过程中模型数据同步机制进行了优化,提出了一种基于树型拓扑结构的模型同步方案,使得同步时间复杂度由线性级降低至对数级。同时,设计了基于区块链的利益分配数据和模型数据存储方案,使得交易过程信息不可篡改并能够通过溯源的方式进行追责。最后,基于公开数据集进行了仿真对比,实验结果表明,MTFDT能够实现模型训练效果的精确评估,提高利益分配的公平性。相比已有方案,模型同步时间消耗最多减少了34%且对带宽要求更低,进一步验证了所提出方案在数据交易场景中应用的有效性。
  • 杨露露, 马萍, 王聪, 李新凯, 孟月, 张宏立
    录用日期: 2023-10-30
    针对当前智能巡检背景下,基于深度学习的绝缘子缺陷检测模型存在泛化性能低、对复杂背景下绝缘子难以识别的问题。从特征提取和融合角度考虑,提出了一种结合特征重用与特征重建的轻量化YOLO-RR网络进行绝缘子缺陷检测。首先,在特征提取阶段,以DenseNet为基础构建了dense35网络作为主干网络,依赖特征的重用,增加对细节的感知能力,提升了模型在低饱和度和低对比度成像情况下检测精度的同时也缩减了网络参数量;其次,在特征融合阶段,提出H-BiFPN结构进行不同尺度特征间双向融合,在特征提取的过程中将特征进行重用和重建,丰富了不同尺度的特征信息,解决了连续卷积下小目标信息丢失的问题,提升了对小目标的检测精度,较原来单向支路的特征融合更加高效。最后,使用WIoU_Loss来优化模型,通过对普通充分锚框的关注,使预测框更加精准。在扩充后的CPLID数据集上进行实验,改进后算法识别率达到93.6%,网络参数量压缩到5M,优于经典模型。能够满足绝缘子缺陷定位的准确性和实时性要求,同时在背景干扰较大、受光照影响的成像上也有很好的检测效果。
  • 杨 硕, 王一丁
    录用日期: 2023-10-30
    面部动画在电影、游戏和虚拟现实等领域起关键作用,对于实现逼真、生动的人脸动画和情感传达至关重要。当面临面部形状、姿态、表情等多个变化因素时,虽然通过薄板样条非线性变换可以获得较好的运动估计结果,但在处理面部复杂纹理和嘴部运动时存在运动估计不精细,需要更强大的图像修复能力。因此,本文提出一种基于改进薄板样条运动模型的人脸动画算法。该算法在薄板样条运动模型的基础上,首先引入了一种Farneback光流金字塔算法,通过与薄板样条变换和背景仿射变换相结合,使得人脸局部运动估计更精准。其次,为了更真实地恢复缺失区域的细节纹理信息,提出了一种多尺度细节感知网络。该网络在编码器中通过嵌入通道注意力ECA模块减少了源图像因多层下采样而导致的人脸细节信息丢失;在解码器中利用坐标注意力CA模块有效地捕获运动估计特征图中不同位置的重要特征,提高了人脸图像的生成质量。最后,相比FOMM、MRAA和TPSMM等主流运动模型算法,本文算法在MUG、UvA-Nemo和Oulu-CASIA数据集上L1、AKD、AED的数值均达到最优值,分别平均是0.0129、0.923、0.00099。
  • 徐权, 冷珏琳, 刘田田, 郑澎
    计算机工程. https://doi.org/67448
    录用日期: 2023-10-30
    针对实际工程应用中的大规模数值模拟需求,面向复杂几何装配体模型,提出了一种适配高性能计算机分布式共享存储体系的两级并行曲面网格生成方法。该方法首先提取几何模型的关键特征,基于关键特征构建网格尺寸场并预估出每个几何实体内的网格规模大小;然后基于模型几何实体的相邻关系和预估的网格规模建立模型实体间的邻接关系图,通过图剖分算法将几何模型分解为不同的子模型,将子模型分配到不同的进程内;最后各进程内按照“点-线-面”的顺序依次并行生成点网格、线网格和面网格。在曲面网格并行生成中采取了进程和线程混合的并行方式,不同子模型之间采用MPI并行,同一个子模型的不同几何曲面之间采用OpenMP并行。最后通过实际工程算例三峡大坝模型对本方法进行了验证,通过对算法的并行效率、通信最小化和负载平衡进行分析,该方法可以在数千处理器核上获得40%的并行效率,不同进程间的通信量较少且可以获得良好的负载平衡。
  • 旋逸昭, 赵红武, 金瑜
    录用日期: 2023-10-30
    共识机制是区块链系统的核心技术,目前,针对“非币”区块链系统提出了一种新的,基于贡献值与工作量证明的共识机制(PoC+PoW),但存在三个缺点: 即1) 共识效率较低; 2)可靠性和安全性低; 3)算力消耗大。针对这些问题,提出了一种新的基于双链的共识机制(Con_DC_PBFT)。在本文的共识机制中,设计了一种业务链-系统链双链结构,将贡献值等系统数据和主要业务数据分离到双链中各自完成共识处理,双链的共识表现为半独立的形式,业务链共识消息流受系统链监督协调,并且系统链根据贡献值随机指定业务链的记账节点,双链的分工与协同实现了并行化和流水化,改善了共识的效率;另外,贡献值数据不能被轻易获取,通过拜占庭通信机制和节点随机选择算法,使得节点遭受攻击和系统停滞的风险进一步降低;还有,在本文提出的共识方案里,不再需要消耗计算资源进行PoW挖矿。通过在实验中综合分析了出块选择概率、单点故障率、节点数、区块传输速率、CPU使用率对共识机制的性能影响,本文提出的共识机制对比PoC+PoW在内存、存储资源占用节省了50%以上,在综合共识时延上有30%以上的提升。
  • 更藏措毛, 黄鹤鸣, 杨毅杰
    录用日期: 2023-10-30
    在语音增强中,常用自编码器结构自动提取特征,但这样得到的特征单一或者冗余且不能较好地捕获语音信号的上下文依赖关系。因此,提出了一种融合多尺度特征和上下文信息的语音增强方法MSF-CI。首先,利用多尺度卷积块提取语音信号的多尺度特征,解决特征单一问题;其次,应用注意力机制关注所提取特征的空间与通道关键信息,解决特征冗余问题;最后,使用门控卷积循环神经网络学习语音信号中跨度较长的上下文依赖关系,并通过门控线性单元提高该网络的非线性学习能力从而提高模型的泛化性。实验结果表明,本文方法MSF-CI在低信噪比和不同噪声环境下增强语音信号的语音感知质量、短时客观可懂度等多个指标上均优于GRN、DPT-FSNET、U-Net等同类的单通道语音增强模型。在信噪比为0dB时,该方法的平均语音感知质量和平均语音客观可懂度达到1.49和0.761。在构建的安多藏语语料库上验证模型的泛化性,平均语音感知质量和平均语音客观可懂度相对于噪声提高了20.7%和11.3%,因此,模型不但可以提升语音的质量与可理解度,而且具有较好的泛化性。
  • 赵云涛, 肖俊杰, 李维刚, 熊雅婷
    录用日期: 2023-10-30
    信息码识别技术推动着社会的进步,使人们的生活更便捷。由于所处拍照环境影响,信息码识别效果有待提高,而且信息码角度倾斜也会影响解码正确率,本文以基于信息码的电力互感器误差试验接线判断为背景,在AI边缘计算设备上进行改进PPYOLOE-R的信息码矫正研究。首先以PPYOLOE-R检测算法为基础,融合轻量级网络ESNet,在提升精度同时降低模型参数量;其次,引入动态卷积进一步加强特征提取,减少模型因下采样中的信息丢失,加强模型通道特征提取能力;最后为满足AI边缘设备上实时性要求,采用模型融合技术将推理模型进行融合,保证模型精度不变的情况下,提升模型检测速度。为丰富数据集,采用两步旋转数据增强和Mosaic + Mixup数据增强方法,充分利用数据集中已有信息,提高模型学习能力。实验表明,改进后算法精度达到89.46%,较原模型提升了1.95%,检测照片速度从154ms每张提升至50ms每张。相较其他算法,所改进的算法有着体积小和速度快优势,通过算法矫正后的信息码,可显著提高解码效率和正确率。
  • 武 星, 殷浩宇, 姚骏峰, 李卫民, 钱 权
    录用日期: 2023-10-30
    多模态情感分析旨在从文本、图像和音频数据中提取和整合语义信息,从而识别在线视频中说话者的情感状态。尽管多模态融合方案在此研究领域的应用已取得一定成果,但先前的研究在处理模态间分布差异和关系知识的融合上仍有所欠缺。本文提出一种创新的多模态提示门模块,其能够将非语言信息转换为融合文本上下文的提示,利用文本信息对非语言信号的噪声进行过滤,得到包含丰富语义信息的提示,以增强模态间的信息整合。此外,本文提出了一种实例到标签的对比学习框架,在语义层面上区分隐空间里的不同标签以便进一步优化模型输出。通过在三个大规模情感分析数据集上的实验结果表明,本文的方法在中英文数据集以及不同的评估指标上都达到了最先进的性能。本文方法的二分类精度提高了约0.7%,三分类精度提高了超过2.5%,达到67.1%。本文的工作有助于将多模态情感分析引入到许多不同领域,如用户画像、视频理解、AI面试等。未来,这项工作还可以促进社交媒体用户情感的研究,为继续挖掘社交用户情感提供宝贵的经验。
  • 李雪, 王雅文, 张前进
    录用日期: 2023-10-30
    源代码方法自动命名是指为给定代码的方法体预测一个反映代码功能的有意义的名称,可以使得代码易读易懂,提高软件开发效率。传统的命名方法仅使用代码的词法或者语法等单一信息,基于深度学习的命名方法通常忽略了语料库中的相似代码,影响方法命名的准确率。针对上述问题,提出一种基于信息检索的源代码方法自动命名的方法。首先,利用预训练模型和BERT-whitening方法提取输入代码和语料库中代码的有效特征,使用欧式距离方法计算两者之间的语义相似度。其次,在语料库代码中选择与输入代码语义相似度排名较高的代码作为候选库,利用Jaacard index和最长公共子序列方法分别计算输入代码与候选库代码的词法和语法相似度。最后,使用加权和来匹配候选库中与输入代码最相似的代码片段,复用该代码片段的方法名称作为输入代码的方法名称。实验结果表明,在公开的Java-small数据集上,相比传统方法VSM和深度学习模型Code2vec模型,该方法的F1值分别提升6.93%和1.22%,具有较优的预测性能。
  • 吴凡, 徐朝农, 邹英豪
    录用日期: 2023-10-30
    危险区域人员监控具有摄像节点密度高,传输实时性和图像质量要求高的特点。功率域非正交多址接入(Power Domain Non-Orthogonal Multiple Access,PD-NOMA)技术可以支持多路并行传输,有利于在密集传输场景下提升传输实时性,而多摄像节点协同有利于提高图像质量。该文研究在面向危险区域人员监控的PD-NOMA摄像网络中如何通过多图融合实现高质量监控。首先,定义了图像的“单人信息量”这一关键术语,它反映了图像中单个人员被准确识别的概率。其次,基于摄像节点之间的位置关系定义了多摄像节点拍摄到的单个人员的融合图像信息量。最后,在满足传输实时性要求以及图像中所有人员均可识别的前提下,以最大化融合图像信息量为目标,计算以摄像节点的图像分辨率和无线发射功率为控制变量的实时传输调度方案。实验评估表明,当实时传输上限为0.4秒时,基于PD-NOMA的传输调度方案传输信息量比传统传输方案提高了46.4%,使得图像中人员识别概率从0.8549提升至0.8919。随着实时传输上限值的放松,识别概率增长率随之快速下降。
  • 李致金, 汤佳辉, 闫金凤
    录用日期: 2023-10-30
    新零售”模式的出现,对传统零售业的转型以及提供更好的消费体验具有重要意义。然而,目前市场上现有的无人水果秤还存在一些问题,比如识别率低、模型结构复杂、部署困难、模型推理实时性差等。为了解决这些问题,本文提出了一种基于边缘计算的轻量化识别方法。首先,选用MobileNext作为主干网络。其次,引入轻量型的注意力模块CBAM以改进MobileNext中的SandGlass模块。随后,利用Ghost模块替换掉SandGlass模块中的标准1*1卷积,以压缩模型的参数量和运算量。最后,使用迁移学习的策略搭配NAdam优化器训练改进后的MobileNext模型,进一步提高了模型的识别精度。实验结果表明,在Fruit Recognition数据集上,本研究提出的识别方法在处理水果识别任务上达到了98.95%的识别准确率,优于原MobileNext模型、MobileNetV2和EfficientNet-B0等轻量级模型。相比于与原MobileNext模型,改进后的MobileNext模型识别准确率提高了1.17%,参数量仅为1.775M,且推理时间仅为16.5ms。在实际的零售场景下,该方法只需很小的参数量和运算量就能实现较好的识别效果,并成功的部署在了边缘设备上。
  • 高家豪, 胡创业, 丁男, 刘战东
    录用日期: 2023-10-30
    在智能网联汽车(ICV)中,提高驾驶数据的有效性是提升车辆安全性的基石。只有准确的、可靠的驾驶数据才能为车辆的安全性提供可靠的依据和支持。与传统的异常分析相比,ICV数据有效性分析面临着数据异常的多样性(传感器异常、驾驶行为、恶意篡改等)。如何将车辆自身数据特征、驾驶风格和交通流特征相结合,提供有效的数据异常检测方法,已成为智能网联汽车中新的问题。针对ICV系统,采用结合驾驶风格和交通流理论的方法,设计基于粒子群优化的TE-PSO-SVM数据有效性检算法,实现驾驶数据的有效检测。首先,定义驾驶风格识别系数Rad,设计驾驶风格量化模型;其次,建立交通流模型,由车辆状态数据融合驾驶风格和交通流理论通过LSTM网络对车辆速度预测;最后通过TE-PSO-SVM算法进行数据有效性检测。由于ICV数据的多样性,单一模型对多类型异常混合并存的场景中检测精度仍有局限问题,利用多个模型的优势构建模型池,并提出基于强化学习的模型选择算法(RLBMS)。通过对真实数据集highD的实验证明在不同噪声环境下TE-PSO-SVM算法模型的F1度量值相比于传统SVM模型平均提升约8.1个百分点;RLBMS算法模型在不同噪声环境下的F1度量值相比于模型池中检测率最高算法平均提高约1.7个百分点,进一步提高了数据有效性检测的准确率。
  • 刘寅昊, 蒋文保, 孙林昆, 王勇攀
    录用日期: 2023-10-30
    Hashgraph是一种数据采用DAG结构的区块链共识算法,Hashgraph引入了虚拟投票的概念,允许节点在无额外通信开销的情况下并发出块,实现异步的场景下的拜占庭容错,然而Hashgraph提出的虚拟投票算法存在算法时间复杂度较高、共识运行逻辑过于复杂等问题,针对Hashgraph中存在的不足,本文提出一种基于路径存储表的Hashgraph优化方案。首先,提出一种基于顶点可达表的见证人判定方法,通过存储路径的方式,实时记录生成事件与历史事件的可达关系,在轮次划分阶段,通过查询顶点事件的可达信息取代回溯算法,降低见证人判断算法的时间复杂度,其次,针对顶点可达表无法跨轮次判断事件关系的问题,提出一种基于历史可达表的知名见证人判定方法,历史可达表将存储见证人与历史事件之间的可达关系,通过查询历史可达表解决知名见证人判定阶段需要反复回溯视图的问题,最后,根据顶点可达表和历史可达表改进Hashgraph之中复杂的共识计算,提升算法效率,加快事件确认速度。根据实验表明,本文优化方案与Hashgraph原共识算法相比,算法运行效率提升65.76%,在吞吐量方面提升平均41.27%。
  • 陈琳, 范元凯, 何震瀛, 刘晓清, 杨阳, 汤路民
    录用日期: 2023-10-30
    数据库的结构化查询语言(简称SQL)到自然语言的翻译(简称SQL-to-text)能提高关系数据库的易用性。近年来此领域主要使用机器学习的方法进行研究并已取得一定进展,然而,现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模型在实际应用中提升翻译效果的必要能力,并且目前缺少对此类模型组合泛化能力的研究,因此,提出了一个SQL-to-text模型的组合泛化能力评估方法。此方法基于现有的SQL-to-text数据集生成了大量SQL和对应的自然语言翻译(简称SQL-自然语言对),并按SQL-自然语言对所含SQL子句的个数将其划分进训练数据与测试数据,使测试数据中的SQL子句皆以不同的组合方式在训练数据中出现,从而得到可评估模型组合泛化能力的新数据集。新数据集上的评估结果表明,现有模型的组合泛化能力仍需进一步提升,其中,专为SQL-to-text任务设计的关系感知图转换器模型组合泛化能力最弱,表明原有的SQL-to-text数据集对组合泛化能力的考察存在欠缺。
  • 王以良, 周鹏, 叶卫, 戚伟强
    录用日期: 2023-10-30
    智能电网融合了信息系统,能够为能源供应提供更有效的解决方案。智能电表是智能电网的关键部分,对智能电表数据的深入研究有助于为智能电网的管理和决策提供有效支持。非侵入式负荷辨识(NILM)技术为需求侧管理提供了技术支撑,但现有方式需要用户和NILM服务端进行数据交互,在这个过程中泄露了隐私信息。针对上述问题,设计了基于2D-CNN金字塔网络的NILM,并采用同态加密和安全多方计算技术进行隐私保护,针对金字塔网络的卷积、全连接、批标准化、平均池化、ReLU和上采样等算子设计隐私保护协议,然后组合隐私保护算子构建隐私保护的2D-CNN金字塔网络。整个过程没有还原数据和中间结果的原始信息,从而保护了双方隐私。在UKDALE数据集上的实验结果表明,基于2D-CNN的金字塔网络能够表现出良好的效果,准确率达到95.8%,并且隐私保护的2D-CNN金字塔网络能够在保护客户端数据和服务端模型参数隐私性的情况下保持2D-CNN金字塔网络的推理效果,精确率、召回率和准确率等保持一致。同时,隐私保护的2D-CNN金字塔网络在广域网中计算时间不到5秒,在局域网中不到半秒,并且通信量仅需4.79 MB,能够适用于NILM任务的现实场景。
  • 哈里旦木•阿布都克里木, 侯钰涛, 姚登峰, 阿布都克力木•阿布力孜, 陈吉尚
    录用日期: 2023-10-27
    维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语机器翻译发展的不同阶段,研究者们针对其特点在算法和模型上不断优化与创新,取得了一定的研究成果,但缺乏系统性的综述。文中全面回顾了维吾尔语机器翻译的相关研究,并根据方法的不同将其分为基于规则和实例的维吾尔语机器翻译、基于统计的维吾尔语机器翻译以及基于神经网络的维吾尔语机器翻译三种类型。同时,对相关学术活动和语料库资源进行了汇总。为进一步探索维吾尔语机器翻译的潜力,文中还采用了ChatGPT模型对维吾尔语-汉语机器翻译任务进行了初步尝试,实验表明,在Few-shot情景下,随着示例数的增加,翻译性能先升后降,10-shot时表现最佳;此外,思维链方法在维吾尔语机器翻译任务中并未展示出更优的翻译能力。最后,对维吾尔语机器翻译未来的研究方向进行了展望。
  • 董良振, 田建艳, 杨胜强, 陈海滨
    计算机工程. https://doi.org/67684
    录用日期: 2023-10-27
    针对在低照度条件下采集的机械加工零件表面图像质量低,影响后续与粗糙度相关特征提取的问题,提出了一种基于光照校正和图像融合的低照度图像增强算法。首先对引导滤波算法进行改进,使其能根据图像的纹理情况自适应地调整滤波参数,平滑纹理的同时保持整体结构,得到更优质的照度图;对原始图像进行反相增强来抑制图像中的高亮条纹与光斑,并进行图像融合来综合原图和正、反相增强图像的优质像素;用CLAHE算法进一步提高融合图像的对比度;最后将增强图像用于两种不同的零件表面粗糙度检测模型。在钛、钢、镁三种材质的零件表面低照度图像数据集上进行实验,结果表明该方法有效增强了低照度零件表面图像的质量,增强图像的标准差、平均梯度和信息熵均高于目前几种流行算法处理后的结果。与图像增强前相比,基于GLCM-SVR和基于CNN的粗糙度检测模型的均方根误差分别降低了0.140μm和0.142μm,平均绝对误差分别降低了0.116μm和0.202μm,有效提升了低照度条件下基于视觉检测粗糙度方法的检测精度。
  • 王栋, 王合建, 玄佳兴, 郑尚卓, 陈炳聪
    录用日期: 2023-10-12
    在区块链上对电力调度指令进行可信存证是解决异议调度追责困难的有效手段。电力调度包含指令发起者、接收者、调度指令等高度敏感内容,调度指令存证需在保证敏感内容隐私性的同时验证接受者身份及调度指令的合规性,并在异议调度发生时追踪发起者身份。现有的区块链隐私存证方案大多采用中心化管理方式,这与区块链分布式设置相违背。针对电力调度指令存证的特定需求,设计了一个支持调度发起者身份隐私且可追踪、接收者身份以及调度指令隐私且合规的区块链存证方案。将接收者身份及调度指令进行编码,经承诺加密并提供相应的零知识证明保证承诺密文合规性后存储至区块链上。采用秘密共享方案对传统的群签名算法进行改进,在不影响签名与验证效率的前提下,将群管理员数量由单方拓展至多方。当异议调度发生时,多名群管理员共同追踪异议调度发起者身份,揭示接收者身份及调度指令信息。理论分析表明方案具有更高的安全性,实验结果显示方案执行效率满足实施需求。
  • 周春良, 刘仰光, 孟祥佩
    录用日期: 2023-10-12
    为了防止社交网络中的负面信息快速传播,就需要通过评价社交网络中用户的影响力,来找出影响力大的社交网络节点。针对传统算法在社交网络领域中交叉特性缺失的问题,该文结合高斯贝叶斯衍生分类器提出了一种网络用户影响力评价模型。该模型首先结合用户活跃度、用户联系度、用户覆盖度等维度,建立了社交网络用户影响力刻画指标,同时考虑了社交网络用户之间的关系特征和用户自身的行为特征,降低僵尸粉和垃圾社交网络对网络评价结果的影响,通过建立连续属性朴素贝叶斯分类器的方法,提出了基于一种高斯贝叶斯衍生分类器的模型求解方法。使用新浪微博中152059423条媒体报纸用户评论作为实验数据,深入分析了影响该评价模型的关键因素,利用仿真软件完成了和HRank等传统模型对比实验,验证了模型的可行性。实验结果表明,该模型体现了社交网络用户的交叉特性,提升了模型的实用性。相比于其他传统算法,该模型在算法分类误差更趋于稳定,分类结果的误差率更低,适应性更好。
  • 徐芳芯, 樊嵘, 马小陆
    录用日期: 2023-10-12
    拥挤行人检测一直是行人检测领域的研究热点。针对拥挤行人检测场景下检测算法易产生漏检与误检的问题,提出了一种改进的YOLOv7目标检测算法。针对拥挤行人检测场景中被遮挡行人目标特征缺失的问题,在骨干网络中融入Bi-Former视觉变换器模块以及改进的RC-ELAN模块,通过引入自注意力机制与注意力模块使骨干网络更多聚焦于被遮挡行人重要特征,有效缓解特征缺失对检测造成的影响。针对拥挤行人检测场景中小目标行人易被漏检的问题,采用融入BIFPN思想的改进颈部网络,通过引入转置卷积以及改进的Rep-ELAN-W模块使模型可以高效利用中低维特征图中的小目标特征信息,有效提升模型的小目标行人检测性能。针对原损失函数训练效率较低的问题,引入Efficient-CIoU损失函数,使模型可以进一步收敛至更高的精度。最后在含有大量小目标遮挡行人的WiderPerson拥挤行人检测数据集上进行实验表明,改进后的YOLOv7算法在拥挤行人检测场景下领先YOLOv7算法0.025AP50以及0.028AP50:95精度,领先YOLOv5算法0.099AP50以及0.071AP50:95精度,领先YOLOX算法0.123AP50以及0.107AP50:95精度。所提算法可以较好地应用于拥挤行人检测场景。