作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2023年, 第49卷, 第10期 刊出日期:2023-10-15
  

  • 全选
    |
    封面和目录
  • 计算机工程. 2023, 49(10): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 热点与综述
  • 曹健, 陈怡梅, 李海生, 蔡强
    计算机工程. 2023, 49(10): 1-12. https://doi.org/10.19678/j.issn.1000-3428.0065984
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    复杂道路场景下的小目标检测能够提高车辆对于周边环境的感知能力,是计算机视觉和智慧交通领域的重要研究方向。随着深度学习技术的发展,将深度学习方法与道路小目标检测相结合能够有效提高检测精度,使车辆快速对周边环境做出反应。从经典及最新的道路小目标检测的研究成果出发,给出小目标的两种定义方式,分析造成道路小目标检测困难的原因,阐述数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等5类基于深度学习的提高道路小目标检测精度的优化方法,总结归纳各类方法的核心思想及目前国内外最新的研究进展。介绍常用于道路小目标检测的大型和公共数据集,提供相应的用于评估小目标检测性能的指标,对比分析各类方法在不同数据集上的性能检测结果,指出道路小目标检测研究目前仍存在的问题,并结合这些问题从多个角度对其未来研究方向进行展望。

  • 杨彬, 王轶彤
    计算机工程. 2023, 49(10): 13-21. https://doi.org/10.19678/j.issn.1000-3428.0065807
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    异质信息网络往往包含不同类型的节点和关系,丰富的语义信息和复杂的关系对目前异质信息网络的表征学习提出了巨大的挑战。现有多数方法通常使用预定义的元路径来捕获异质的语义信息和结构信息,但成本高、覆盖率低,且不能准确有效地捕获和学习有影响力的高阶邻居节点。提出HIN-HG模型来解决以上问题。HIN-HG通过生成异质信息网络的超邻接图来准确有效地捕获对目标节点有影响力的邻居节点,并使用带有多通道机制的卷积神经网络聚合在不同关系下的不同类型的邻居节点。HIN-HG可以自动地学习不同邻居节点和元路径的权重而无须进行手动指定,同时可以捕获全图范围内和目标节点相似的节点作为高阶邻居,并通过信息传播有效地更新目标节点的表征。在DBLP、ACM和IMDB真实数据集上的实验结果表明,在节点分类任务中,HIN-HG较HAN、GTN、HGSL等前沿的异质信息网络表征学习方法性能更优,Macro-F1和Micro-F1多分类评估指标平均提高5.6和5.7个百分点,提高了节点分类的准确性和有效性。

  • 朱兴帅, 叶彬, 姚康, 丁上上, 徐道亮, 付威威
    计算机工程. 2023, 49(10): 22-30. https://doi.org/10.19678/j.issn.1000-3428.0066469
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    虚拟现实技术应用领域广泛,但现有交互方式不能满足使用者精细化操作的需求。通过交互笔可实现三维空间的精确输入,提升生产力效率。设计基于单目RGB图片的两阶段交互笔关键点估计模型PKPD-Net。通过CBAM-SHN网络得到二维关键点信息,利用笔的二维姿态特征进一步回归出关键点三维位置信息。该模型使用CBAM模块改进融合方式、基于Offset的关键点亚像素定位、辅助手部关键点预测等方法,实现高精度的笔上关键点三维估计,为通过交互笔进行精细化操作提供准确的位置信息。在大规模数据集上进行实验和验证,结果表明,相较于Minimal-hand与HOPE-Net模型,该模型预测关键点的mean_EPE分别降低0.882和0.710 mm,PSF@4分别提升31.38和32.31个百分点。最后,为探索产业级应用,结合PKPD-Net进行应用开发,通过时序关联实现操作轨迹的复原。

  • 梁嘉诚, 余江, 王洪波, 刘渊, 王晓锋
    计算机工程. 2023, 49(10): 31-40. https://doi.org/10.19678/j.issn.1000-3428.0065782
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    高性能数据采集技术是提高数据分析效率的重要前提。为解决当前数据采集技术中安全性低、传输时延高、CPU开销大的问题,设计一种基于远程直接内存访问的高性能单向数据采集(ODAR)架构,提高数据采集过程中的安全性和传输性能。针对传输时数据正确性问题,基于可靠性的数据封装策略,设计动态内存优化策略解决内存分配时存在的时延问题,并提出基于优先级的数据传输调度算法解决高吞吐量数据传输中存在的带宽利用率低的问题。实验结果表明,相对于基于UDP协议实现的单向数据采集技术,ODAR架构的吞吐量平均提高了57.01%,传输时延与CPU开销平均降低了61.27%与68.01%,并且大幅提高了数据传输的准确率,内存分配时的时延平均降低了80.15%,网卡带宽利用率平均提高了33.03%。

  • 王静怡, 刘百祥, 方宁, 彭凌祺
    计算机工程. 2023, 49(10): 41-52. https://doi.org/10.19678/j.issn.1000-3428.0065202
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    信息安全和隐私保护是大数据时代的重要需求。基于身份的公钥密码体制解决了传统公钥基础设施体制的密钥管理问题,但会泄漏签名者的身份信息。传统基于属性的访问控制方案实现了主体的动态扩展和对客体的细粒度访问,但存在中心化的授权机构。为了解决上述问题,提出一种基于区块链与去中心化属性密码体制的匿名数据共享访问控制方案。利用属性签名的匿名性,在存储数据前无须已知用户身份信息即可验证数据来源的可靠性,通过属性加密实现细粒度的访问控制。采用分布式属性密码体制,使用户合作构建属性授权机构,当且仅当超过指定阈值的机构用户同意时才可进行机构创建和密钥分发。实验结果表明,该方案能抵抗合谋和重放攻击,在并发请求数为1 000~5 000和属性数为10~30的条件下,系统总响应时间不超过120 ms,最大吞吐量可达62 T/s,满足实际应用需求。

  • 人工智能与模式识别
  • 孔博, 韩虎, 陈景景, 白雪, 邓飞
    计算机工程. 2023, 49(10): 53-63. https://doi.org/10.19678/j.issn.1000-3428.0065982
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    借助句法依赖信息和外部知识的图神经网络近年来成为方面级情感分析领域的一个研究热点,但是现有研究存在语法信息提取不充分和利用不合理等问题,同时未考虑增强文本方面词与意见词等关键节点的背景知识。此外,基于注意力机制的方法没有建立方面词与上下文词的语法信息交互,导致方面词错误地关注到与其语法无关的上下文词信息。提出一种基于虚拟依存关系与双知识增强的多交互图卷积网络模型。对方面词内每个单词构建依赖树,依据虚拟依存关系进行加权构造虚拟依存图,依据外部情感知识构造情感依存图,使用双通道图卷积神经网络处理虚拟依存图与情感依存图并进行融合,对融合后特定方面的特征表示进行语义和语法双交互。利用概念知识增强特定方面后的特征表示与上下文表示并进行知识注意力交互,对多种不同的增强表示进行融合从而实现不同表示间的共享与互补。实验结果表明,相较于经典的图卷积网络模型ASGCN,该模型在Rest15和Rest16数据集上的F1值分别提升4.71和8.57个百分点,具有较好的情感分类性能。

  • 袁志祥, 王雅卿, 黄俊
    计算机工程. 2023, 49(10): 64-71. https://doi.org/10.19678/j.issn.1000-3428.0065806
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目前已有大量方案解决零样本图像分类问题,但对多标记零样本图像分类问题的研究很少,在现有的解决方案中,模型在训练时除了利用已标注的数据集和给定的先验知识外,只利用图像区域信息或只利用标签语义信息。基于深度互学习技术,提出一种能同时利用图像区域和标签语义两种信息的解决方法。设计两个子网络,将子网络1用于增强图像视觉特征,通过多头自注意机制关联图像中不同区域的特征信息,得到基于区域的视觉特征表示,再将该特征表示映射到语义空间中,并输出预测概率分布;使子网络2用于融合标签语义信息与图像视觉特征,通过计算标签和图像区域特征的相关性,得到基于语义的视觉特征表示,将特征表示映射到语义空间中输出概率分布。最后引入深度互学习技术,利用两个子网络得到的概率分布为对方提供训练经验以进行互相学习,该过程中子网络在训练自身分类性能的同时也学习对方的训练经验,有效提升多标记零样本图像分类的性能。实验结果表明,所提方法在MS COCO数据集上的F1值相比Deep0Tag方法提升了5.2个百分点。

  • 张文豪, 廖列法, 王茹霞
    计算机工程. 2023, 49(10): 72-79. https://doi.org/10.19678/j.issn.1000-3428.0066266
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    近年来的方面级情感分析基本都是单一地进行语义信息或语法信息的挖掘,未建立语义信息和语法信息之间的关联,且已有模型大多都是单一地将词的相对距离或语法距离嵌入模型中,忽略了相对距离和语法距离对方面词的联合影响, 同时未充分考虑单词在依存句法树中的位置关系。建立一种融合句法树多信息学习的方面级情感分析模型MILFST,有针对性地利用不同神经网络的优点进行模型构建,以获得更为丰富的信息。通过双向长短时记忆网络捕捉文本序列的信息,根据依存句法树的树形结构更新序列信息,将相对距离和语法距离位置信息嵌入文本序列中,分别通过卷积神经网络和图卷积网络学习语义信息和语法信息。通过注意力机制实现语义信息和语法信息的优化融合,并将融合后的信息输入Softmax分类器中进行情感极性分类。实验结果表明,在Twitter、Lap14、Res14、Res15、Res16数据集上,MILFST模型的准确率和F1值分别为74.27%和73.14%、77.74%和74.27%、82.50%和74.54%、81.73%和66.15%、89.61%和71.57%,模型中的树形结构有助于对信息的捕获,同时兼顾语法信息与语义信息的学习有利于方面词情感极性判断。

  • 高玮军, 刘健, 毛文静
    计算机工程. 2023, 49(10): 80-88. https://doi.org/10.19678/j.issn.1000-3428.0066219
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着对话系统和文本摘要生成技术的发展,生成式对话摘要引起了广泛的关注。由于会话中的信息流至少在2个对话者之间交换,关键信息往往分散在各说话者的不同话语中,因此传统文本摘要模型生成的对话摘要包含冗余或者不正确的内容。针对传统文本摘要模型在生成对话摘要时对会话的上下文理解不充分且难以将说话人与其正确的行动相联系的问题,提出一种基于T-HDGN模型的对话摘要生成方法。利用抽取的行动三元组对会话结构进行显式建模,将话语和行动三元组作为2种不同类型的数据来构建异质对话图,并通过1个异质图网络对这2种信息进行建模。同时,还增加说话人作为异质节点以促进信息流的传播。此外,在解码阶段使用主题词特征辅助摘要的生成。在SAMSum数据集上的实验结果表明,所提方法在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别达到42.05%、18.09%、39.48%,相比Longest-3、PGN、Fast Abs RL等基线模型,能有效地融合信息并且准确地将说话人与其对应动作相关联。

  • 张会云, 黄鹤鸣
    计算机工程. 2023, 49(10): 89-96, 104. https://doi.org/10.19678/j.issn.1000-3428.0065977
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    检测与识别网络中语音的情感状态有助于把控舆情信息,若能同时辨别说话人及其性别,则对掌握舆情的真实意图更有帮助。基于数据集EMODB,提出用于情感分类、说话人辨别和性别识别的多任务学习策略时间卷积网络(DTCN)。针对多任务学习中数据集较小的问题,设计数据增强技术,在不同信噪比下采用加噪的方式对数据集EMODB进行扩充,构建单信噪比含噪数据集EMODB-10、EMODB-5、EMODB0、EMODB5、EMODB10以及多信噪比含噪数据集EMODBM。同时,通过研究单一噪声和混合噪声,验证不同噪声对DTCN模型性能的影响。为了更好地表征数据特性,提出适用于多任务学习的声学特征集。实验结果表明,在具有正信噪比和多信噪比含噪数据集上进行测试时,DTCN模型在多任务学习场景下的表现均优于基线,较容易辨别说话人性别,且随着噪声种类增多,对多任务学习的性能不断提高,在混合噪声下鲁棒性和泛化性更好。

  • 刘栋, 杨辉, 姬少培, 曹扬
    计算机工程. 2023, 49(10): 97-104. https://doi.org/10.19678/j.issn.1000-3428.0066057
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对传统文本相似度计算模型存在的未考虑语义及结构信息、容易忽略文本特征细节信息等问题, 建立一种基于多模型加权组合的文本相似度计算模型。在考虑次序、主题、语义等内容的基础上,对句子的每个单词进行嵌入表示,利用最大池化操作和Bi-GRU神经网络作为编码器生成关于句子的嵌入表示,通过多层次的比较来学习句子嵌入之间的相似性关系。对文本转换进行结构化表示,提取基于短语的浅层语法树结构化特征作为Tree-GRU的输入进行文本相似度计算。将上述2个计算结果进行加权处理,获取文本相似度的最终计算结果。实验结果表明:当权重参数C1C2分别取值0.6和0.4时该模型具有最优的相似度计算结果;在STSB数据集上模型的精确率、召回率和F1值分别达到90.32%、90.89%和90.52%;在SICK数据集上精确率、召回率和F1值分别达到85.41%、85.95%和85.61%;在MRPC数据集上精确率、召回率和F1值分别达到90.32%、90.89%和90.52%。该模型可以充分利用文本的多层次内容信息及结构化信息,适用于处理复杂的长文本,相对于DT-TEAM、ECNU等模型能取得更好的文本相似度计算结果。

  • 赵德春, 舒洋, 李玲, 陈欢, 张子豪
    计算机工程. 2023, 49(10): 105-111, 119. https://doi.org/10.19678/j.issn.1000-3428.0065685
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制。为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB。以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度。采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销。引入Intermediate CTC结构提高模型训练时对编码器的约束能力,减小DRB判断冗余帧的误差,降低DRB方法对模型识别精度造成的损失。在开源数据集AISHELL-1与LibriSpeech上进行实验,结果表明,使用DRB的两阶段重打分非自回归解码方法在2个数据集上均能对解码速度取得58%左右的加速效果,且识别精度几乎没有损失,实现了解码效率的显著提升。

  • 赵晓杰, 牛雪莹, 张继福
    计算机工程. 2023, 49(10): 112-119. https://doi.org/10.19678/j.issn.1000-3428.0066233
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    多视图方法可使问题分析的角度更加全面,并且能有效利用各个视图间的相关信息和互补信息,因而多视图聚类分析已成为机器学习与模式识别等领域的研究热点之一。但在多视图集成聚类分析中,基聚类簇作为基聚类中的一个类簇,包含若干相似数据对象,其疏密程度仅能体现数据自身分布特性,并不能体现基聚类簇质量。利用联合熵来评估基聚类簇的不确定性及质量,提出一种多视图集成聚类分析方法。利用联合熵评估基聚类簇的质量,通过基聚类簇不确定性指数体现基聚类簇的重要程度与质量优劣。利用基聚类簇不确定性指数构造一种加权共协矩阵,提出一种多视图集成聚类算法(MVECJE),改善多视图集成聚类分析的性能。通过实验验证聚类簇权重在多视图集成聚类分析中的重要程度,表明其能改善集成聚类性能。在MSRC-v1、Caltech101-7、Handwritten numerals(HW)图像数据集和Reuters文本数据集上,采用CoregSC、AWGL、MMSC、DIMSC、COMVSC、MVKKM和CW$ {\mathrm{K}}^{2} $M作为对比算法进行实验,结果表明,在NMI、ACC、ARI评价指标上,MVECJE算法具有明显的优势,其中在HW数据集上3个评价指标均高于0.93。

  • 段仁翀, 段湘煜
    计算机工程. 2023, 49(10): 120-126, 135. https://doi.org/10.19678/j.issn.1000-3428.0066109
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在机器翻译领域中,提升翻译质量的一个重要方法是提高短语的翻译准确率。统计机器翻译模型通过对短语而非单词进行建模,大幅提升了短语翻译准确率。然而,对于神经机器翻译模型,传统的训练目标最小化每个词的损失,而无显式的约束记忆短语存在短语的翻译准确率较低的缺陷,另外基于自回归解码的神经机器翻译模型导致误译的短语会影响后续短语的准确翻译。为了解决上述问题,提出短语感知适应性训练和短语丢弃机制的方法。短语感知适应性训练将句子分割为多个短语片段,借助适应性训练目标为每个词分配合适的权重,以鼓励模型记忆短语,提高模型对短语的翻译准确率,短语丢弃机制通过在训练中随机丢弃目标端短语来增强模型对误译短语的鲁棒性,避免对后续短语的翻译造成影响。在WMT2014英德和NIST中英两个翻译任务上的实验结果表明,与Transformer基线模型相比,提出方法可以使译文的BLEU值分别提高1.64和0.96分。此外还证明了短语知识作为一种通用的知识,可以从教师模型迁移到学生模型,进一步提升翻译质量。

  • 欧阳凌丛, 杨凯军, 张志雄
    计算机工程. 2023, 49(10): 127-135. https://doi.org/10.19678/j.issn.1000-3428.0066603
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    多智能体系统编队控制过程中存在固定拓扑下智能体之间通信信号易丢失和控制器故障频发的问题。对此,提出一种具有随机切换通信拓扑的二阶非线性多智能体系统领导-跟随编队容错控制协议。为解决二阶非线性多智能体系统编队中控制信号丢失的问题,利用马尔可夫(Markov)随机过程描述切换通信拓扑编队模型,提出一种基于Markov随机切换通信拓扑的多智能体编队控制律,通过建立领导者和追随者之间的状态误差模型,构建具有二重积分的Lyapunov-Krasovskii函数证明多智能体系统在均方意义下的指数收敛稳定。为解决多智能体系统编队控制器故障问题,建立具有随机通信拓扑切换的多智能体编队容错控制模型,设计一种具有Markov随机切换通信拓扑的多智能体编队容错控制算法,利用李雅普诺夫稳定性理论分析所提出算法的稳定性和收敛性。仿真结果体现了多智能体系统随机切换通信拓扑编队控制器超调量小、响应时间快、调整时间短的特点,同时对比实验结果验证了系统在发生故障和无故障情况下的稳定性与有效性。

  • 李婉桦, 孙英娟, 刘艺璇, 刘乾
    计算机工程. 2023, 49(10): 136-144, 153. https://doi.org/10.19678/j.issn.1000-3428.0065499
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有基于图神经网络的会话推荐模型通过捕获项目复杂转换模式挖掘项目之间的潜在信息,但极少考虑跨会话信息及当前会话中的高层次信息,因此无法捕捉会话中复杂的依赖关系。针对该问题,建立基于全局图和多粒度意图单元的会话推荐模型。构造跨会话图,利用图注意力网络得到跨会话表示。在连续意图单元上,构建多粒度意图单元异构会话图,得到全局和局部表示。将跨会话、全局和局部表示进行融合,捕捉会话中项目之间的复杂依赖关系。在意图融合排序模块中,分析会话重复点击和探索行为,并聚合所有级别的意图单元进一步提高模型推荐性能。在Diginetica和Tmall数据集上的实验结果表明,所提模型在平均倒数排名和精确度指标上相比于最优基线模型提高了2.12%和1.27%,具有较好的推荐性能。

  • 刘子健, 王勇, 刘媛妮, 周由胜
    计算机工程. 2023, 49(10): 145-153. https://doi.org/10.19678/j.issn.1000-3428.0065972
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有基于相似度的短文本流聚类算法多数需要手动设置相似度阈值,且难以处理文本稀疏性问题。针对短文本流的特点和传统流聚类算法的局限性,提出基于情节记忆的短文本流聚类算法。将情节记忆思想融入流聚类算法,通过稀疏经验重放增强聚类的特征表示,并使用反向索引提高聚类效率。在线阶段通过新的相似度计算公式以及动态计算相似度阈值,将当前文本分配到现有集群或新集群,并且不断更新聚类特征。离线阶段通过聚类增强、语义再分配以及删除过时聚类,提高整体算法性能。基于公开和合成数据集的实验结果表明,相较于基准流聚类算法,所提算法在各项评价指标上均取得了较好的实验结果,并且对于文本数量较大的数据集,运行时间能减少1~3个数量级。

  • 图形图像处理
  • 褚张晴晴, 钟志强, 颜子夜, 战荫伟
    计算机工程. 2023, 49(10): 154-161. https://doi.org/10.19678/j.issn.1000-3428.0066311
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    脑肿瘤核磁共振成像(MRI)的准确分割对手术方案的制定和放疗计划具有重要意义。U-Net作为脑肿瘤分割领域应用最广泛的网络,具有较优的性能,但是存在跳跃连接中语义差距较大、MRI图像中跨通道信息利用不足的问题。为对脑肿瘤各区域进行准确分割,提出一种基于特征融合与注意力机制的改进U-Net模型FFCA-U-Net。在跳跃连接中设计特征融合模块代替U-Net中的直接拼接操作,以有效融合不同层次、不同尺度的特征信息,减小语义差距并调整感受野,增强网络对肿瘤特征的学习能力。在编码器中引入改进的三维坐标注意力机制,沿MRI图像的3个方向捕获跨通道信息,增强网络对脑肿瘤边界信息的感知能力,获得肿瘤子区域更精确的位置。此外,为快速获得肿瘤的相对位置、减少网络学习冗余,增加的掩码图像与MRI图像一起作为网络输入。在MSD数据集上的实验结果表明,FFCA-U-Net在增强肿瘤区域、非增强肿瘤区域和水肿区域的Dice系数分别为0.803 4、0.628 6和0.799 3,平均Dice为0.743 8,优于TransBTS、UNETR等其他先进网络。

  • 徐蓬泉, 梁宇翔, 李英
    计算机工程. 2023, 49(10): 162-170. https://doi.org/10.19678/j.issn.1000-3428.0065985
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在实际应用中U-Net由于使用单一卷积核以及跳跃连接运算时编解码器间存在语义差距,导致分割不同类型的医学图像时泛化性能降低。鉴于此,基于U-Net结构构建一种轻量灵活的医学图像分割模型(LFUNet)。在编码器和解码器上,构建多尺度语义(MS)模块,每个MS模块使用不同的小卷积核序列等价代替较大的卷积核进行卷积运算,获得不同的感受野,从而捕获不同层次的语义特征。建立集成剩余瓶颈结构和注意力机制的剩余瓶颈注意力(RBA)模块,跳跃连接嵌入RBA模块后能缩小编码器和解码器的语义差距,且使模型更关注目标区域。MS模块的小卷积核序列和RBA模块的逆残差结构具有较少的参数量,从而使LFUNet的总参数量仅为U-Net的1/3,大幅降低了模型复杂度并提高了网络运行效率。在4个公共生物医学图像数据集上的对比实验结果表明,LFUNet的Jaccard系数均值相比于U-Net分别提高了3.184 6、11.936 6、4.243 8、0.114 4个百分点,具有更高的分割精度及泛化性能。

  • 卢利琼, 陈长江, 吴东, 熊建芳
    计算机工程. 2023, 49(10): 171-177. https://doi.org/10.19678/j.issn.1000-3428.0065874
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    盲文检测是利用人工智能技术自动检测出图像中的盲文位置,是盲文书籍电子化、盲文自动阅卷以及加强正常人与盲人无障碍交流的关键技术。然而现有盲文检测研究领域缺乏自然场景盲文图像数据集和盲文段检测方法。为此,利用手机拍摄、网络下载等手段构建包含554幅图像的自然场景盲文图像数据集,并对数据集中每一幅图像的盲文段位置进行手动标记。从亮度、对比度和柔和度变化的角度设计图像增强策略来扩充自然场景盲文图像数据集,以辅助卷积神经网络(CNN)训练。在此基础上,分析自然场景盲文段在书写形式和结构上的特点,基于Faster R-CNN算法的思想,提出一种自然场景盲文段检测方法。以ResNet50作为主干网络,通过设计多尺寸CNN特征融合策略挖掘不同尺寸盲文段的特征,设计从32到512的多种锚框参数,以适应自然场景图像中盲文段高度变化小而宽度变化大以及存在较多小尺寸盲文段的特点。实验结果表明,与经典目标检测算法Faster R-CNN和SSD相比,该方法Hmean值分别从0.793 5和0.800 1提升至0.887 9,检测性能提升明显。

  • 张欢, 黄涛, 许俊杰, 徐川, 杨威
    计算机工程. 2023, 49(10): 178-185. https://doi.org/10.19678/j.issn.1000-3428.0065949
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    精细三维模型是智慧城市建设的关键空间基础信息,而视角变化、遮挡等因素导致基于航空影像生成的三维模型容易出现边缘不准确、孔洞以及建筑物立面纹理模糊等问题。地面影像可以很好地解决倾斜摄影建模底部缺失与区域遮挡的问题,因此,提出一种轻量化多层渐进式特征对齐网络优化的空地影像匹配方法,以实现空地影像的稳健匹配,为城市建模提供一定的技术支撑。设计多层渐进式匹配网络优化策略,利用EfficientNet-B3预训练模型的高层特征图进行双向匹配,取双向匹配的交集作为初始匹配点集。根据初始匹配点对,采用RANSAC策略计算初始单应矩阵,运用该矩阵对地面影像进行图像变换,得到近似空中视角的影像,从而完成特征匹配与粗差剔除。针对空中影像和近空视角影像,在前面多层特征图上进行匹配和优化。在每一层特征图上都计算该层特征图的匹配和对上层匹配点对的位置校正,最终得到精确的匹配点集。以无人机DJI-MAVIC2拍摄的航空影像及手持设备拍摄的地面影像等8组典型数据作为对象进行实验,结果表明,与SIFT、D2-net、DFM等方法相比,该方法具有良好的匹配性能,平均同名点匹配数量较次优方法提升了1.3倍。

  • 谢云旭, 吴锡, 彭静
    计算机工程. 2023, 49(10): 186-193. https://doi.org/10.19678/j.issn.1000-3428.0065438
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在计算机视觉任务中深度神经网络模型易受对抗样本的干扰,泛化性能高的对抗样本会影响更多的模型。为了研究深度神经网络模型的脆弱性进而改善该现状,提出一种基于类梯度的全局对抗样本生成方法。以图像中的目标类为单位快速进行类梯度收集,通过一次性融合同一类别内所有目标的梯度来体现类内相似性与类间差异性。在此基础上,结合数据集中一定比例的图像及对应的图片尺度扰动生成全局扰动。通过上述过程突破模型候选框及图片数量的制约,生成的全局扰动可以对大量数据形成有效的影响。实验结果表明,该方法在Pascal VOC和MS-COCO-keypoints数据集的2种计算机视觉任务中性能均优于PGD、FPE等算法,其攻击成功率比DAG算法高1个百分点,比FPE算法高34个百分点,同时推断扰动速度较快。全局扰动的存在揭示了深度神经网络模型在高维决策边界之间存在一定的几何相关性,利用所提方法有助于深度神经网络抵抗泛化性能更高的全局对抗样本。

  • 杨本臣, 贾宇航, 金海波
    计算机工程. 2023, 49(10): 194-201. https://doi.org/10.19678/j.issn.1000-3428.0066125
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    用于生物图像和体积分割的过完备卷积结构很好地解决了传统编解码器方法不能精确分割边界区域的问题,但仍存在卷积运算不能较好学习全局和远程语义信息交互的缺点。对此,提出一种新的图像分割网络KTU-Net用于肝脏肿瘤的医学图像分割任务。该网络结构包括3个分支:1)学习捕捉输入细节和精确边缘的过完备卷积网络Kite-Net;2)学习高层特征的U-Net;3)学习输入体的序列表示并有效捕获全局多尺度信息的Transformer。设计包含早期融合和晚期融合2种融合方式的KTU-Net,采用一个混合损失函数来指导网络训练,使网络训练更加稳定。在LiTS肝脏肿瘤分割数据集上的实验结果表明,与先进的三维医学图像分割方法KiU-Net、TransBTS和UNETR相比,KTU-Net实现了更高或类似的分割精度。通过融合3个分支特征,肝脏肿瘤的平均Dice得分分别提高0.7%和2.1%,能够有效改善网络学习特征的质量,使肝脏肿瘤的分割结果更加准确,为医生判定准确的肝脏肿瘤细胞评估和治疗方案提供了可靠依据。

  • 李惠森, 侯进, 党辉, 周宇航
    计算机工程. 2023, 49(10): 202-211, 221. https://doi.org/10.19678/j.issn.1000-3428.0065821
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    基于对抗训练的域适应目标检测的研究旨在不对新数据集进行额外标注的情况下, 将检测模型应用于不同的数据集。但现有算法存在目标检测和域对齐任务难以平衡的问题, 且一般的单判别器结构容易局限于数据的单个模式, 导致域对齐的质量下降。提出一种基于渐进式训练的多判别器域适应目标检测算法, 针对传统的单判别器结构对复杂结构数据进行域对齐时的局限性, 在实例级的域适应头中引入多判别器结构, 使其在学习域不变信息时考虑数据的多模结构, 实现质量更高、更全面的域对齐。同时, 为降低引入多判别器结构而增加的模型复杂度, 设计基于Dropout技术的多判别器结构, 对单个判别器参数进行重复利用, 并创新性地引入渐进式训练策略, 即随着训练的推进逐步增大域对齐任务的比重和难度, 动态平衡目标检测和域对齐任务的权重。实验结果表明, 所提算法在Cityscapes到Foggy Cityscapes的域适应场景下的平均检测精度为42.9%, 相比近几年该领域的新算法提高了至少0.5个百分点。

  • 王效灵, 胡志杰, 徐帅帅, 黄浩如
    计算机工程. 2023, 49(10): 212-221. https://doi.org/10.19678/j.issn.1000-3428.0065908
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对图像去雾领域的暗通道先验算法存在光晕效应、颜色失真及对天空区域处理不佳等问题,提出一种改进暗通道先验和策略性融合的图像去雾算法。依据暗通道先验原理得到多尺寸最小值滤波窗口下的透射率和对应大气光值,设计基于结构相似性指标的调节和侧重因子用于多窗口透射率拟合。利用非线性规划模型和偏度理论计算全局大气光值,引入并调整置信度对天空区域的透射率进行快速补偿,结合大气散射模型恢复去雾图。将去雾图转换成HSV模型并对亮度V空间进行增强,同时对增强前后的图像进行策略性融合。实验结果表明,相比于现有的暗通道先验去雾算法,该算法的可见边增率、信息熵和平均梯度分别提升了79%~131%、3%~9%、39%~81%,具有较好的去雾效果,避免了光晕效应和颜色失真现象,适用于处理包含不同尺寸天空区域的雾图。

  • 王卓, 瞿绍军
    计算机工程. 2023, 49(10): 222-229, 238. https://doi.org/10.19678/j.issn.1000-3428.0065885
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有语义分割算法在精确度方面表现良好,但在速度上难以满足实时性要求。为提升网络分割速度同时确保高精确度,提出一种新型实时语义分割网络。设计融合通道注意力模块,先通过最大池化和平均池化捕捉全局特征,对池化后的特征图进行级联、卷积和变形以得到各通道权重,再将原特征图与各通道权重进行矩阵乘法操作,得到融合通道权重。将融合通道权重与原特征图进行元素级乘法操作,保证各通道权重与原特征图有效融合。提出一种轻量化金字塔场景解析模块,使用多尺度池化操作充分捕捉多尺度目标特征,在原金字塔场景解析模块的基础上减少池化后的特征图通道数,从而降低计算量。池化后特征图以级联方式连接,利用输入特征图引导连接后的特征图,以有效融合高层和低层特征图。在公共图像数据集Cityscapes上进行实验,结果表明,该网络在验证集、测试集上的准确率分别达到74.6%、73.8%,分割速度达到60.6帧/s,分割性能优于ICNet、DFANet-A等网络。

  • 王飞宇, 张帆, 杜加玉, 类红乐, 祁晓峰
    计算机工程. 2023, 49(10): 230-238. https://doi.org/10.19678/j.issn.1000-3428.0065638
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    深度学习在计算机视觉领域的许多成果已广泛应用于现实生活。然而,对抗样本能够让深度学习模型以高置信度产生误判,进而造成严重的安全后果,同时对抗样本检测方法普遍存在计算成本高或依赖样本统计特性等问题。为此,提出一种基于预测不一致的对抗样本检测方法。若将对抗扰动视作不必要的特征,通过图像降噪或压缩技术来压缩样本的特征空间,从而减少对抗扰动。通常压缩特征空间前后的正常样本在深度学习模型中的分类结果差别较小,而相同处理前后对抗样本的分类结果差别较大。通过测量深度学习模型对原输入的预测结果与压缩特征空间后输入预测结果之间的距离来检测对抗攻击,若其大于阈值,则该输入具有对抗性。该检测方法的训练集选取与对抗样本无关,而且无须对原深度学习模型进行调整。实验结果表明,该方法在保证较低假阳性率的同时,能够对快速梯度符号法(FGSM)、JSMA和C&W等经典攻击进行有效检测,在MNIST和CIFAR-10数据集上的平均检测率高达99.77%和87.90%。

  • 李建威, 吕晓琪, 谷宇
    计算机工程. 2023, 49(10): 239-246, 254. https://doi.org/10.19678/j.issn.1000-3428.0066050
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    皮肤癌是最致命的癌症之一,对皮肤镜图像进行精确分类尤为关键,然而现有的皮肤镜图像存在形态复杂、样本数量较少的问题,导致现有的自动分类方法难以提取图像特征信息,误判率较高。提出一种改进ConvNeXt的方法,并构建SE-SimAM-ConvNeXt模型。以ConvNeXt为基础网络,加入SimAM无参注意力模块,提升网络的特征提取能力,并在基础网络中引入通道注意力机制,增强ConvNeXt对潜在关键特征的挖掘能力。在训练初始时加入预热机制Cosine Warmup,在该过程中使用余弦函数值进行学习率的衰减,进一步加速ConvNeXt的收敛,提高ConvNeXt模型的分类能力。在HAM10000皮肤数据集上的实验结果表明,该模型的分类准确率、精确度、召回率、特异性分别为92.9%、85.3%、78.0%、97.5%,具有较好的皮肤镜图像分类能力,对皮肤癌病变的辅助诊断有一定程度的应用价值,可帮助皮肤科医生对皮肤癌做进一步的诊断。

  • 刘洋, 陈俊, 胡诗佳, 赖佳华
    计算机工程. 2023, 49(10): 247-254. https://doi.org/10.19678/j.issn.1000-3428.0065825
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    对于同步定位与建图(SLAM)中主流的特征点法,特征匹配是估计相机运动的关键,然而在特征匹配过程中存在图像特征的局部特性、误匹配等问题,成为视觉SLAM的瓶颈。此外,特征点法生成的稀疏地图只能用于定位,无法满足更高层次的需求。针对ORB-SLAM3中ORB特征点匹配效率低且未能生成稠密地图的问题,提出一种改进的ORB-GMS匹配策略并在ORB-SLAM3系统中加入稠密点云构建线程来实现稠密建图。将运动平滑性约束作为特征点运动统计的方法,通过比较特征点邻域内的匹配数量和阈值快速判断当前匹配是否正确,将图片网格化并快速计算网格内特征点的匹配数量,进行相机的位姿估计。根据关键帧与相应位姿构建稠密点云地图,采用外点去除滤波和体素网格滤波减小点云规模。在TUM的RGB-D数据集上的实验结果表明,与ORB-SLAM3相比,该算法可以减少约50%的匹配耗时,同时在匹配数量上平均提升60%,定位平均误差降低32%。此外,与稀疏地图相比,该方法生成易于2次加工的稠密点云地图,扩大算法的应用场景。

  • 开发研究与工程应用
  • 郎俊豪, 李伟, 陈韬, 南龙梅
    计算机工程. 2023, 49(10): 255-263. https://doi.org/10.19678/j.issn.1000-3428.0066383
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对多核密码处理器高能效负载调度问题,基于可分负载理论提出多轮与单轮混合负载调度机制,在不增加功耗前提下缩短密码任务完成时间,提升处理器能效。利用可分负载理论分析方法重点划分计算、负载传输时间,建立单轮调度、多轮与单轮混合调度方式,得到数学解析解以指导负载调度高能效设计,同时考虑计算通信占比、结果输出等因素以精确模型。分析模型并设计负载调度机制,在多核密码处理器芯片上实现并验证。MATLAB仿真结果表明,混合调度方式具有更好的性能表现,密码任务传输与计算时间比越大,负载完成时间的下限值越大,当处理器核数、调度轮数取中间值时,达到最优的负载完成时间和能效值,当结果输出时间小于任务传输时间时,影响较小。芯片实测结果表明,对于不同密码算法,提出的多轮与单轮混合调度方式能缩短10.1%~48.2%的负载任务完成时间,相应的多核密码处理器能效值提升9.8%~48.1%。

  • 刘宽, 奚小冰, 周明东
    计算机工程. 2023, 49(10): 264-271. https://doi.org/10.19678/j.issn.1000-3428.0065882
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    将人体骨架建模为时空拓扑图的图卷积网络在基于人体骨架数据的动作识别任务中得到了广泛应用。但现有图卷积网络存在预定义骨架拓扑图拓扑结构固定、单支路时间图卷积算子提取时空特征粒度单一的问题,极大限制了模型的泛化能力和表达能力。提出基于自适应多尺度图卷积网络的人体骨架动作识别模型,自适应空间图卷积层将骨架的拓扑结构作为参数进行端到端的自适应学习,根据动作生成数据驱动的骨架拓扑图。多尺度时间图卷积层对时间图卷积算子进行多支路扩展,动态融合骨架序列不同时间粒度的时空特征。综合骨架关节点、骨架长度、骨架关节点运动、骨架长度运动4路信息输入模型。实验结果表明,所提模型在NTU RGB+D 60动作识别数据集下的人物划分(CS)模式和视角划分模式实验中分别取得90.5%和96.8%的识别准确率,在NTU RGB+D 120动作识别数据集的CS模式和设置划分模式的实验中分别取得86.0%和88.7%的识别准确率,能有效提取骨架动作的时空特征,提升了人体骨架动作识别的分类性能。

  • 张子珺, 陈劲松, 钱夕元
    计算机工程. 2023, 49(10): 272-279. https://doi.org/10.19678/j.issn.1000-3428.0066030
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    书法字骨架保留书法字的结构、形态以及笔画细节,对于评价书法字笔画结构极为重要。为解决现有的骨架提取算法无法获取离线书法图像的动态信息,提出改进条件生成对抗网络的书法字骨架提取算法。为获取长距离上下文信息,将残差结构与分层空洞卷积模块引入条件生成对抗网络,并融合交叉注意力模块,以保证生成骨架的平滑性。使用谱归一化和Leaky ReLU激活函数稳定模型训练,提升书法字骨架提取的完整性,并基于在线手写字数据集,构建伪书法字图像数据集。实验结果表明,该算法在测试数据集中的F1值、联合交并比(IoU)和最小平均距离(AMD)分别为0.678 2、0.515 8和1.450 0,相较于现有骨架提取算法的最优结果,F1值、IoU分别提高了8.2%和8.8%, AMD降低了约0.42,可有效捕获到书法离线图像的动态信息,使骨架特征更具有代表性,在书法字帖图片上表现出较优的泛化能力。同时,消融实验结果验证了分层空洞卷积模块和交叉注意力模块的有效性,可以获得更完整、光滑的字符骨架。

  • 詹健浩, 甘利鹏, 毕永辉, 曾鹏, 李晓潮
    计算机工程. 2023, 49(10): 280-288, 297. https://doi.org/10.19678/j.issn.1000-3428.0065152
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    有效利用多模态数据的不同特征能够提高行为识别性能, 其核心问题在于多模态融合, 主要包括在数据层面、特征层面和预测分数层面融合不同模态数据的特征信息。研究在特征和预测分数2个层面通过多教师知识蒸馏的多模态融合方法, 将多模态数据的互补特征迁移到RGB网络, 以及采用不同知识蒸馏损失函数和模态组合的行为识别效果。提出一种基于知识蒸馏的多模态行为识别方法, 通过在特征上采用MSE损失函数、在预测分数上采用KL散度进行知识蒸馏, 并采用原始的骨骼模态和光流模态的教师网络的组合进行多模态融合, 使RGB学生网络同时学习到光流和骨骼教师网络的特征语义信息和预测分布信息, 从而提高识别准确率。实验结果表明, 该方法在常用的多模态数据集NTU RGB+D 60、UTD-MHAD和N-UCLA以及单模态数据集HMDB51上分别达到90.09%、95.12%、97.82%和81.26%的准确率, 在UTD-MHAD数据集上的识别准确率相比于单模态RGB数据分别提升3.49、2.54、3.21和7.34个百分点。

  • 张驰, 顾益军
    计算机工程. 2023, 49(10): 289-297. https://doi.org/10.19678/j.issn.1000-3428.0065573
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    现有出行方式识别模型通常依赖在数据采集设备中插入额外传感器元件或提高设备采样率的方法提升识别准确率,但现实工作环境中提高设备采样率或传感器数量的做法会增加采样设备的能耗,并且设备采样率难以统一也影响了出行方式识别模型的准确率。针对上述问题,提出基于多尺度相位聚合-深层神经决策森林的出行方式识别模型。提取轨迹数据中的多尺度局部和全局特征令牌,采用卷积神经网络层提取令牌间的时空相关性。使用相位检测令牌混合层,动态调整神经网络中令牌与固定权重的关系,捕捉令牌间的相位关系,得到多尺度相位聚合的轨迹表示。利用深层神经决策森林算法,得到出行方式的分类结果。实验结果表明,与基于随机森林的出行方式识别模型相比,所提模型在3种低频重采样数据上的平均识别准确率提升了2.726个百分点,能够更有效地识别出行方式。

  • 周静, 钟原, 李平, 杨毅, 马立泰, 张涛
    计算机工程. 2023, 49(10): 298-304. https://doi.org/10.19678/j.issn.1000-3428.0065772
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    近年来,基于深度学习的医学图像辅助诊断逐渐成为主流,但常见的医疗锥体分割模型缺乏对颈椎细节信息的提取,导致锥体分割不完整或边缘相对模糊。为了提高颈椎MRI图像的分割精度,基于ResNet构建一种多尺度特征融合注意力(MSFFA)网络模型。利用多尺度注意力模块融合不同感受野进行注意力特征增强,同时为了降低特征信息融合的损耗,采用跨尺度特征融合模块进行相似域和边缘域特征增强,最终将原始样本的特征信息整合到分割结果中进行细节增强,进一步优化模型分割性能。实验结果表明,MSFFA模型相比于U-Net、AttUNet等模型分割得到的颈椎结构更完整、边缘更平滑,同时在腰椎分割中也能取得更精确的分割结果,并且相比于最优对照模型DeepLabv3+,Dice相似系数的均值提升了1.05个百分点。

  • 陈梦萱, 陈艳平, 扈应, 黄瑞章, 秦永彬
    计算机工程. 2023, 49(10): 305-312. https://doi.org/10.19678/j.issn.1000-3428.0065880
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    生物医学命名实体识别(BioNER)是生物医学文本挖掘的核心任务之一,能够为下游任务提供有力支撑。与通用领域相比,生物医学数据中存在更多的未登录词,现有BioNER方法通常将未登录词拆分为语素进行表示学习,这种方法缓解了未登录词表示信息不足的问题,但是破坏了单词的内部信息,对语素进行标签预测时容易出现标签不一致和跨实体标签问题。此外,将单词分割为语素导致句子长度变长,加重了训练中存在的梯度消失问题。提出一种通过BiLSTM-Biaffine结构进行词义增强的BioNER方法。通过BioBERT预训练模型获取语素表示信息,使用BiLSTM-Biaffine进行词义增强,在单词层面利用BiLSTM分别获取语素的前向和后向序列信息,采用Biaffine注意力机制增强其关联信息并重新融合为单词表示,最后通过BiLSTM-CRF模型获取输入句子的标签序列。实验结果表明,在数据集BC2GM、NCBI-Disease、BC5CDR-chem和JNLPBA上,该方法的F1值分别达到84.94%、89.07%、92.14%和74.57%, 与主流序列标注模型MTM-CW、MT-BioNER等相比平均分别提高了2.99、1.84、3.09和1.03个百分点,验证了所提方法在BioNER任务中的有效性。

  • 李亚国, 李冠良, 张凯, 晋涛
    计算机工程. 2023, 49(10): 313-320. https://doi.org/10.19678/j.issn.1000-3428.0065868
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    随着物联网和人工智能(AI)的技术发展及产品在各业务领域的推广,将边缘计算与AI模型集成融合,实现物联网智能化与计算前置化能满足更多的应用场景,但边缘代理设备通常受到硬件资源能力、性能及安全隐私等问题限制,将AI和边缘计算有效融合集成存在较大挑战。在物联网系统中,基于AI对边缘架构进行优化调整,构建具备边缘计算及AI能力的物联网新型智能框架,有效实现将边缘计算和AI集成到物联网系统中。在边端侧AI模型引导阶段,设计私有数据和公共数据的存储策略,有效提高数据安全性;在模型部署阶段,设计可配置压缩比的云端压缩、边端解压缩的部署模式,减少模型大小和传输所需数据流量,实现模型在边端侧的轻量级部署;在模型学习阶段,设计迁移学习和增量学习互补的学习方式,增加边端侧的模型训练及实用能力,提高云-边协作水平。实验结果表明,集成在边端的AI模型在资源占用率不足云模型50%情况下,准确率达到88%,同时训练时间比云模型快5倍以上。