作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2024年, 第50卷, 第4期 刊出日期:2024-04-15
  

  • 全选
    |
    封面和目录
  • 计算机工程. 2024, 50(4): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 智慧交通
  • 葛非, 闵珊, 邱含, 代振阳, 杨智敏
    计算机工程. 2024, 50(4): 1-10. https://doi.org/10.19678/j.issn.1000-3428.0068790
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    蚁群优化(ACO)算法是一种模拟自然界蚂蚁寻找食物路径的优化算法,能够在动态变化的环境中无需任何外部指导或控制解决几何分布的非确定性多项式(NP)-Hard组合问题。针对ACO算法在求解NP-Hard问题时容易陷入局部最优、搜索的深度与广度之间难以平衡等问题,提出一种绿色智能进化蚁群优化(G-IEACO)算法。引入4种邻域操作算子,改进ACO算法的状态转移规则和信息素更新方式,以增强寻优性能并防止过早收敛,同时采用规避拥堵策略,平衡时间成本和环境成本。应用Solomon标准测试集中不同规模的算例进行仿真实验,数值分析结果表明,G-IEACO算法在处理车辆总行驶时间(TT)和车辆碳排放量(TCO2)方面优于遗传算法(GA),在客户规模为100的R2类和RC2类算例中平均降低了13.32%的TT和13.64%的TCO2,有效地促进了绿色低碳目标的实现。
  • 陈伟, 王晓龙, 张晏玮, 安国成, 江波
    计算机工程. 2024, 50(4): 11-19. https://doi.org/10.19678/j.issn.1000-3428.0068901
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    在高速公路服务区违停检测过程中光照、天气变化等复杂环境会使车辆检测精度急剧下降, 同时摄像机拍摄角度、车体高度等因素会增加车辆违停检测的误报率和漏报率。为此, 提出一种基于改进YOLOv8的高速公路服务区违停检测算法。在YOLOv8网络模型的特征金字塔池化层中, 构建膨胀空间金字塔池化(DSPP)模块和基于分支注意力机制的膨胀空间金字塔池化(DSPPA)模块, 减少特征提取网络中深层语义信息的丢失, 同时利用DSPPA中的分支注意力(BA)机制为不同感受野分支特征赋予不同的权重, 使模型更关注与目标尺寸相适应的特征。设计基于全局匹配的停车位分配策略, 有效降低了视角倾斜、车辆重叠遮挡等情况下违规占用停车位的误报率与漏报率。实验结果表明, 改进算法的违停检测误报率从15%下降至8%, 违停检测漏报率从7.5%下降至6.1%, 具有较好的车辆违停检测效果。

  • 陈伟, 王晓龙, 张晏玮, 安国成, 江波
    计算机工程. 2024, 50(4): 11-19. https://doi.org/10.19678/j.issn.1000-3428.0068901
    摘要 ( ) PDF全文 ( )   可视化   收藏
    在高速公路服务区违停检测过程中光照、天气变化等复杂环境会使车辆检测精度急剧下降,同时摄像机拍摄角度、车体高度等因素会增加车辆违停检测的误报率和漏报率。为此,提出一种基于改进YOLOv8的高速公路服务区违停检测算法。在YOLOv8网络模型的特征金字塔池化层中,构建膨胀空间金字塔池化(DSPP)模块和基于分支注意力机制的膨胀空间金字塔池化(DSPPA)模块,减少特征提取网络中深层语义信息的丢失,同时利用DSPPA中的分支注意力(BA)机制为不同感受野分支特征赋予不同的权重,使模型更关注与目标尺寸相适应的特征。设计基于全局匹配的停车位分配策略,有效降低了视角倾斜、车辆重叠遮挡等情况下违规占用停车位的误报率与漏报率。实验结果表明,改进算法的违停检测误报率从15%下降至8%,违停检测漏报率从7.5%下降至6.1%,具有较好的车辆违停检测效果。
  • 黄君泽, 吴文渊, 李轶, 石明全, 王正江
    计算机工程. 2024, 50(4): 20-30. https://doi.org/10.19678/j.issn.1000-3428.0068931
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    随着智慧城市、智慧交通的发展,移动互联网和公交智能基础设施以及相关数据的不断完善,通过用户手机预约公交服务的新型公交运营方式——动态公交,已经成为许多城市公交发展的重要探索方向。但目前,对动态公交问题的建模、算法研究不足。基于这一研究现状,提出动态公交问题模型和面向动态公交的离散分层记忆粒子群优化(PSO)算法。首先给出动态公交问题的目标函数和约束条件,给出动态公交问题的解的形式,并定义解的编辑距离;其次提出使用数据驱动的预计算路径集生成PSO算法的优质初始解的方法,给出基于解的编辑距离的PSO算法中粒子的变异概率和自适应收敛系数的计算方式;最后提出将粒子群分层求解的方法,其中低层粒子群可复用、可继承,从而减少单时间片内、时间片间复制和重初始化带来的性能损耗。基于重庆市北碚区蔡家岗街道的真实场景和亿级历史数据建立仿真环境进行实验,实验结果表明:相对于不分层PSO算法,分层PSO算法通过复用和继承能缩短超80%计算用时;自适应参数和变异机制能帮助算法更稳定地收敛到更优解;相对于传统公交系统,动态公交能在同等运力限制下,提高22%的乘客接单率,节省39.1%的乘客出行时间,所提算法能满足公交运营商在片区内进行动态公交调度的需求;相对于对比算法,所提算法平均缩短了85.3%的计算用时,并且在仅耗用80%里程的情况下提高了至少12%的接单率。
  • 张雷, 沈国琛, 欧冬秀
    计算机工程. 2024, 50(4): 31-40. https://doi.org/10.19678/j.issn.1000-3428.0069176
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    红外热成像数据可以有效辅助可见光图像数据, 弥补其在天气和光照条件上的不足。现有的研究往往借助域适应将基于可见光图像数据训练得到的卷积神经网络用于处理热成像数据, 以弥补热成像数据缺少大量标注训练集的不足, 但是这类方法仍无法避免一定程度的训练。而一些研究者发现, 图像在频域上呈现域不变成分和随域改变成分的分离现象。受这一现象的启发, 提出一种基于离散余弦变换和卡方独立性分数的卷积神经网络特征图筛选方法。利用频域分离域不变成分和随域改变成分, 借鉴卡方独立性检验的思想提出基于频段分量的独立性分数, 用于度量特征图的差异度, 使用聚类将特征图分类, 保留主要包含域不变成分的特征图分支, 得到适用于热成像数据的网络。实验结果表明, 该方法可以充分利用预训练卷积神经网络的潜在预测能力, 且不需要重新训练模型。预训练网络无法预测热成像数据, 而筛选后的网络前5位预测结果与目标相关的比例最高可达90%。

  • 张雷, 沈国琛, 欧冬秀
    计算机工程. 2024, 50(4): 31-40. https://doi.org/10.19678/j.issn.1000-3428.0069176
    摘要 ( ) PDF全文 ( )   可视化   收藏
    红外热成像数据可以有效辅助可见光图像数据,弥补其在天气和光照条件上的不足。现有的研究往往借助域适应将基于可见光图像数据训练得到的卷积神经网络用于处理热成像数据,以弥补热成像数据缺少大量标注训练集的不足,但是这类方法仍无法避免一定程度的训练。而一些研究者发现,图像在频域上呈现域不变成分和随域改变成分的分离现象。受这一现象的启发,提出一种基于离散余弦变换和卡方独立性分数的卷积神经网络特征图筛选方法。利用频域分离域不变成分和随域改变成分,借鉴卡方独立性检验的思想提出基于频段分量的独立性分数,用于度量特征图的差异度,使用聚类将特征图分类,保留主要包含域不变成分的特征图分支,得到适用于热成像数据的网络。实验结果表明,该方法可以充分利用预训练卷积神经网络的潜在预测能力,且不需要重新训练模型。预训练网络无法预测热成像数据,而筛选后的网络前5位预测结果与目标相关的比例最高可达90%。
  • 司明悦, 齐斌, 张文胜, 张雷
    计算机工程. 2024, 50(4): 41-49. https://doi.org/10.19678/j.issn.1000-3428.0069223
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    针对智慧交通场景中样本较少且难以获取的问题,提出一种张量计算与小样本学习相结合的综合模型,从而应对目标域样本不足导致训练效果差的情况。构建基于张量计算的多维计算模型,处理智慧交通场景中的多维异构数据,基于数据的时空相关性获得融合数据张量,将融合数据作为输入数据,经由小样本学习模型进行训练,最终根据消融实验结果比较分析基于不同张量计算方案和小样本学习方法的张量小样本学习模型性能。仿真结果表明,相较于2种基于度量的小样本学习模型:原型网络和匹配网络,基于元学习的小样本学习模型和张量计算模型相结合后的可信度更高,并且基于不同的张量融合方案,元学习模型的准确率和F1值得到了不同程度的提升,其中基于逆分解张量融合方案的模型准确率可达0.95,性能优于平行因子分解(CPD)融合方案。
  • 黄亮, 邹鹏, 曹菁菁, 胡健, 颜泽锌, 黄小蝶
    计算机工程. 2024, 50(4): 50-59. https://doi.org/10.19678/j.issn.1000-3428.0069225
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    针对交通基础设施点位监测数据来源多样、结构各异、协议不一的特点, 分析具体接入需求, 提出一种基于Netty架构的交通基础设施监测点位数据接入虚拟网关。阐述网关接入监测点位的配置方法及集群分配策略, 定义超文本传输协议(HTTP)、传输控制协议(TCP)、用户数据报协议(UDP)下的数据传输格式, 设计一种数据传输消息的编码和校验机制。在真实监测数据样本增强的基础上, 利用分布式消息模拟工具对虚拟网关性能进行测试, 结果表明, 该虚拟网关实现了多点位多协议的交通基础设施监测数据统一接入, 每亿条数据接入时间、存储时间分别达到8.14 s和9.75 s, 平均数据溯源时间为2.96 s, 具有亿级规模点位监测数据的接入能力, 可为交通基础设施数字化监测的研究和应用提供理论支撑。

  • 黄亮, 邹鹏, 曹菁菁, 胡健, 颜泽锌, 黄小蝶
    计算机工程. 2024, 50(4): 50-59. https://doi.org/10.19678/j.issn.1000-3428.0069225
    摘要 ( ) PDF全文 ( )   可视化   收藏
    针对交通基础设施点位监测数据来源多样、结构各异、协议不一的特点,分析具体接入需求,提出一种基于Netty架构的交通基础设施监测点位数据接入虚拟网关。阐述网关接入监测点位的配置方法及集群分配策略,定义超文本传输协议(HTTP)、传输控制协议(TCP)、用户数据报协议(UDP)下的数据传输格式,设计一种数据传输消息的编码和校验机制。在真实监测数据样本增强的基础上,利用分布式消息模拟工具对虚拟网关性能进行测试,结果表明,该虚拟网关实现了多点位多协议的交通基础设施监测数据统一接入,每亿条数据接入时间、存储时间分别达到8.14 s和9.75 s,平均数据溯源时间为2.96 s,具有亿级规模点位监测数据的接入能力,可为交通基础设施数字化监测的研究和应用提供理论支撑。
  • 杜田田, 王晓龙, 何劲
    计算机工程. 2024, 50(4): 60-67. https://doi.org/10.19678/j.issn.1000-3428.0069244
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    实时准确的河流表面流速数据是现代化水运调度和防洪的重要依据,但传统的仪器测速法大多需要人工实地参与,危险系数高且无法满足大规模系统部署的要求。相比之下,图像测速法不需要直接接触河流,可以依据摄相机获取的连续帧得到近乎实时的速度信息。然而,光流估计作为当前主流的图像测速法,是针对刚体运动提出的,没有考虑流体本身的性质,在河流表面等相似度高的场景中泛化能力较弱。为提高基于光流估计循环全对场变换(RAFT)模型的水流流速算法估算精度,提出一种改进的光流估计测速方法。在特征提取部分增加卷积块注意力模块(CBAM),增强其对河流表面波纹和示踪粒子运动的识别能力。通过优化光流迭代更新部分的损失函数,引入能体现流体运动特征的角误差损失和旋度散度平滑损失,并且为损失函数匹配随迭代次数呈指数增长的权重因子,突出高次迭代结果对于整体结果的显著影响。为验证改进方法的有效性,使用不同场景河流数据集对其进行性能评估,结果表明,该方法在复杂光学噪声场景下的平均相对误差为11.37%,具有较好的鲁棒性,能够生成更精准的表面速度空间分布图。
  • 人工智能与模式识别
  • 张池, 王忠, 姜添豪, 谢康民
    计算机工程. 2024, 50(4): 68-77. https://doi.org/10.19678/j.issn.1000-3428.0068019
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    针对受干扰语音的频域增强问题,提出一种基于并行多注意力机制和编解码结构的语音增强网络(PMAN)。网络输入经过短时傅里叶变换(STFT)的语音频域特征,包含振幅谱和复数谱,编码器使用密集卷积模块对输入数据信息进行整合,中间层的并行多注意力模块学习频域的局部和全局信息,并融合局部块注意力(LPA)机制捕捉语音频域二维(2D)结构,实现干净语音与干扰因素的2D层面分离。解码器将学习到的信息进行整合,分别生成振幅掩模和复数频谱,根据加权求和生成最终的语音复数频谱,使用时域与频域联合损失函数实现相位信息的融合。在VoiceBank+DEMAND语音数据集上的实验结果表明,与基于两阶段变换器的时域语音增强神经网络(TSTNN)相比,经过PMAN增强后语音的客观语音质量评价(PESQ)、短时客观可懂度(STOI)、分段信噪比(SSNR)指标值分别提升10.8%、1.1%、11.8%,具有较好的语音增强效果。
  • 郝志峰, 丁凯培, 蔡瑞初, 陈薇
    计算机工程. 2024, 50(4): 78-86. https://doi.org/10.19678/j.issn.1000-3428.0066901
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    因果发现旨在通过观测数据挖掘变量间的因果关系。现有的因果发现方法大多假定数据的产生过程是平稳的,然而在实际环境下往往不满足稳态假设,导致结果不可靠。研究发现,在一些场景中的非稳态扰动与时序信息高度相关。因此,在加性噪声模型基础上将非稳态扰动刻画为一项关于时序信息的函数,设计非稳态加性噪声模型,并给出非稳态加性噪声模型的识别条件,提出一种两阶段的因果关系学习算法。第1阶段利用回归计算得到变量残差,再检验残差与回归特征集的独立性从而选出叶子节点,迭代得到观测变量集的因果次序;第2阶段再次进行回归计算和独立性检验,消除第1阶段中冗余的因果关系,从而得到观测变量集的因果结构。实验结果表明,与基于约束的异构/非平稳因果发现、LPCMCI和TiMINo算法相比,该算法在仿真数据集上取得了最优的效果,平均F1值达到0.85;而在真实因果结构数据集中,该算法的F1值平均提升41.12%,能够从非稳态数据集中恢复出更多因果结构的信息。
  • 李敬灿, 肖萃林, 覃晓婷, 谢夏
    计算机工程. 2024, 50(4): 87-94. https://doi.org/10.19678/j.issn.1000-3428.0068501
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    关系抽取是一项基础且重要的任务,旨在从非结构化文本中提取出实体之间的关系。最近研究证明,大型语言模型(LLM)和基础模型相结合可以改进许多自然语言处理(NLP)任务的性能。这些模型利用深度学习和预训练模型的语言表示能力,能够自动学习关系的语义特征。有效利用大模型来解决实体重叠和信息交互差等问题仍是一个挑战。针对以上问题,提出基于大语言模型的关系抽取算法。对大型语言模型 Meta AI(LLaMA)进行微调训练,使其更加适应关系抽取的任务,在提取关系的基础上,使用自注意力机制增强实体对之间关联程度,增强关系和实体之间的信息共享,接着使用平均池化泛化到整个句子中。针对实体对设计一个过滤矩阵,并引入词性信息进行语义增强,根据过滤矩阵中实体对的相关性过滤掉无效的三元组。实验结果表明,该算法在纽约时报(NYT)和 WebNLG 公开数据集上的F1值结果分别为93.1%、90.4%。在微调之后的LLaMA模型作为编码器的情况下,所提算法在准确率和F1值指标上均优于基线模型,验证了算法的有效性。
  • 吴正洋, 张广涛, 黄立, 汤庸
    计算机工程. 2024, 50(4): 95-103. https://doi.org/10.19678/j.issn.1000-3428.0067554
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    大规模在线教育平台所形成的网络具有数据量大、实体类型丰富、关系复杂等特性。一方面,在线教育正在被大力普及,而另一方面,在线课程却面临低使用率、低完成度及高辍学率的问题。个性化的课程推荐有利于提高学习者的学习积极性,其中,课程能否顺利合格完成是学习者在选课时所考虑的重要因素。鉴于此,提出一种基于学习完成度预测的个性化课程推荐模型。对学生的课程学习会话图进行建模,根据学生的课程学习顺序以及课程的完成情况,生成学生的学习状态表征;同时考虑在线学习环境因素对课程的影响,构建在线课程学习异质图,采用图神经网络生成异质图中课程节点的嵌入;然后通过交互机制融合学习状态表征和课程嵌入,预测学生下一门将学课程的完成度,根据完成度排序从而实现课程推荐。在CNPC、HMXPC和Scholat 3个大规模在线课程学习数据集上的实验结果表明,该模型能有效提升推荐的准确度,在归一化折损累计增益(NDCG)和平均倒数排名(MRR) 2个指标上相较于基线模型最优结果均有显著提升,评估指标K值取5时,其NDCG@5指标在3个数据集上分别提升21.08%、17.73%和5.41%,MRR@5指标在3个数据集上分别提升25.66%、31.59%和26.96%。
  • 许智磊, 黄睿
    计算机工程. 2024, 50(4): 104-112. https://doi.org/10.19678/j.issn.1000-3428.0067602
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    在多标签学习中,有效利用标签相关性可以提高分类性能。然而,由于人工标注标签的主观性和实际应用中标签语义的相似性,通常只能观察到不完备的标签空间,导致标签相关性的估计不准确,使得算法性能下降。针对该问题,提出一种结合双流形映射的不完备多标签学习(ML-DMM)算法。构造两种流形映射,一种是保留实例数据空间局部结构信息的特征流形映射,另一种是基于迭代学习得到的标签相关性的标签流形映射。首先通过拉普拉斯映射构造数据的低维流形,然后通过回归系数矩阵和标签相关性矩阵将初始特征空间和初始标签空间分别映射到该低维流形上,形成一种双流形映射结构来提升算法性能,最后利用迭代学习得到的回归系数矩阵进行多标签分类。在8个多标签数据集及3种标签缺失率情况下的对比实验结果表明,ML-DMM算法性能优于其他针对缺失标签的多标签分类算法。
  • 赵继达, 甄国涌, 储成群
    计算机工程. 2024, 50(4): 113-120. https://doi.org/10.19678/j.issn.1000-3428.0068268
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    在无人机(UAV)目标检测任务中,存在因检测目标尺度小、检测图像背景复杂等原因导致的漏检、误检问题。针对上述问题,提出改进YOLOv8s的无人机图像目标检测算法。首先,针对无人机拍摄目标普遍为小目标的应用场景,减少算法骨干网络(Backbone)层数,增大待检测特征图尺寸,使得网络模型更专注于微小目标;其次,针对数据集普遍存在一定数量低质量示例影响训练效果的问题,引入Wise-IoU损失函数,增强数据集训练效果;再次,通过引入上下文增强模块,获得小目标在不同感受野下的特征信息,改善算法在复杂环境下对小目标的定位和分类效果;最后,设计空间-通道滤波模块,增强卷积过程中目标的特征信息,滤除无用的干扰信息,改善卷积过程中部分微小目标特征信息被淹没、丢失的现象。在VisDrone2019数据集上的实验结果表明,该算法的平均检测精度(mAP@0.5)达到45.4%,相较于原始YOLOv8s算法提高7.3个百分点,参数量减少26.13%。在相同实验条件下,相比其他常见小目标检测算法,检测精度和检测速度也有一定提升。
  • 王明虎, 石智奎, 苏佳, 张新生
    计算机工程. 2024, 50(4): 121-131. https://doi.org/10.19678/j.issn.1000-3428.0068307
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于RoBERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的RoBERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与DeepFM、ConvMF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。
  • 王华珍, 许泽, 孙悦, 丘斌, 陈坚, 邱强斌
    计算机工程. 2024, 50(4): 132-140. https://doi.org/10.19678/j.issn.1000-3428.0067498
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    多标记事件预测是指预测多个相关联的事件是否会在未来发生,相比传统单标记事件预测,需要同时预测多个目标事件。现有的事件预测研究忽略各领域存在的多标记事件情境,且对多标记事件预测研究较少。提出一种基于事件演化图的多标记事件预测模型(MLEP),以实现基于事件演化图(EEG)的多标记事件预测研究模式。首先基于事件链构建事件演化图;然后对多标记事件预测问题进行问题转换,将多标记问题转化为单标记问题,利用事件表示学习方法获取所有事件的向量表示,对多标记事件进行编码;最后采用门控图神经网络(GGNN)框架构建多标记事件预测模型,根据相似度匹配出最优的后续事件,实现多标记事件的预测。在真实数据集上的实验结果表明,MLEP模型可以有效地预测出多标记事件,预测准确率达到了65.58%,性能优于大多现有的基准模型,提升幅度达到了4.94%以上。通过消融实验也证明了更好的事件表示学习方法对事件具有较好的表示效果,提升多标记事件预测的性能。
  • 杨春霞, 吴亚雷, 闫晗, 黄昱锟
    计算机工程. 2024, 50(4): 141-149. https://doi.org/10.19678/j.issn.1000-3428.0067557
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    方面级情感分析旨在确定句子中给定方面的情感极性。现有的基于图神经网络的方面级情感分析存在以下2个方面的不足:忽略了不同类型的句法依存关系和语料库中的词共现信息,以及不能准确地控制情感信息流向给定方面。针对以上问题,提出融合双图卷积与门控线性单元(GLU)的方面级情感分析模型。该模型首先采用全局词汇图来编码语料库中的词共现信息,在词汇图和句法图上利用分类概括结构来区分各种词共现频率和不同类型的句法依存关系。然后分别在2个图上进行双层卷积,继而使用BiAffine变换模块作为桥梁,在2个图卷积网络模块之间有效地交换相关特征,从而有效地融合句法信息和词汇信息。最后利用GLU控制情感信息流向给定方面,使模型可以更专注地分析与该方面相关的情感信息,避免不相关的情感信息影响对给定方面的情感分析结果,从而提高分析的准确性。实验结果表明,在Twitter、Laptop14、Restaurant15和Restaurant16数据集上,该模型的准确率分别达到74.82%、77.61%、82.29%和89.81%,F1值分别达到72.97%、73.52%、67.72%和73.37%,方面级情感分类效果明显优于其他基线模型。
  • 莫少聪, 陈庆锋, 谢泽, 刘春雨, 邱俊铼
    计算机工程. 2024, 50(4): 150-159. https://doi.org/10.19678/j.issn.1000-3428.0067814
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    实体对齐是多源数据库融合的有效方法,旨在找出多源知识图谱中的共指实体。近年来,图卷积网络(GCN)已成为实体对齐表示学习的新范式,然而,不同组织构建知识图谱的目标及规则存在巨大差异,要求实体对齐模型能够准确发掘知识图谱之间的长尾实体特征,并且现有的GCN实体对齐模型过于注重关系三元组的结构表示学习,忽略了属性三元组丰富的语义信息。为此,提出一种实体对齐模型,引入动态图注意力网络聚合属性结构三元组表示,降低无关属性结构对实体表示的影响。同时,为缓解知识图谱的关系异构问题,引入多维标签传播对实体邻接矩阵的不同维度进行压缩,将实体特征根据压缩后的知识图谱邻接关系进行传播以获得关系结构表示,最后通过线性规划算法对实体表示相似度矩阵进行迭代以得到最终的对齐结果。在公开数据集EN-FR-15K、EN-ZH-15K以及中文医学数据集MED-BBK-9K上进行实验,结果表明,该模型的Hits@1分别为0.942、0.926、0.427,Hits@10分别为0.963、0.952、0.604,MRR分别为0.949、0.939、0.551,消融实验结果也验证了模型中各模块的有效性。
  • 吴海鹏, 钱育蓉, 冷洪勇
    计算机工程. 2024, 50(4): 160-167. https://doi.org/10.19678/j.issn.1000-3428.0067700
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    传统关系抽取方法从纯文本中识别实体对之间的关系,多模态关系抽取方法通过利用多种模态信息辅助关系抽取任务。针对现有多模态关系抽取模型在处理图像数据时存在容易受到冗余信息干扰的问题,提出一种基于双向注意力机制的多模态关系抽取模型。首先,采用来自Transformer的双向编码器表示(BERT)与场景图生成模型分别提取文本语义特征与图像语义特征。然后,利用双向注意力机制建立图像到文本与文本到图像的双向对齐机制,通过这种双向对齐机制实现图像与文本之间的双向信息交互,赋予图像中冗余信息较低的权重以削弱其对文本语义表示的干扰,从而减轻图像中冗余信息对关系抽取结果造成的负面影响。最后,将对齐后的文本特征表示与视觉特征表示相连接形成文本与图像的融合特征,通过多层感知机(MLP)计算所有关系分类的概率分数并输出预测关系。在用于神经关系提取的多模式数据集(MNRE)上的实验结果表明,该模型的精确率、召回率、F1值分别达到65.53%、69.21%与67.32%,相比于基准模型均有明显提升,具有较好的关系抽取效果。
  • 张洪程, 李林育, 杨莉, 伞晨峻, 尹春林, 颜冰, 于虹, 张璇
    计算机工程. 2024, 50(4): 168-176. https://doi.org/10.19678/j.issn.1000-3428.0067543
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    知识图谱是由各种知识或数据单元经过抽取等处理而组成的一种结构化知识库,用于描述和表示实体、概念、事实和关系等信息。自然语言处理技术的限制和各种知识或信息单元文本本身的噪声都会使信息抽取的准确性受到一定程度的影响。现有的知识图谱补全方法通常只考虑单一结构信息或者文本语义信息,忽略了整个知识图谱中同时存在的结构信息与文本语义信息。针对此问题,提出一种基于语言模型增强嵌入与对比学习的知识图谱补全(KGC)模型。将输入的实体和关系通过预训练语言模型获取实体和关系的文本语义信息,利用翻译模型的距离打分函数捕获知识图谱中的结构信息,使用2种用于对比学习的负采样方法融合对比学习来训练模型以提高模型对正负样本的表征能力。实验结果表明,与基于来自Transformer的双向编码器表示的知识图谱补全(KG-BERT)模型相比,在WN18RR和FB15K-237数据集上该模型链接预测的排名小于等于10的三元组的平均占比(Hits@10)分别提升了31%和23%,明显优于对比模型。
  • 图形图像处理
  • 马明旭, 马宏, 宋华伟
    计算机工程. 2024, 50(4): 177-186. https://doi.org/10.19678/j.issn.1000-3428.0067733
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有的姿态估计算法在城市街景中对小目标行人的检测效果不佳。针对该问题,提出一种基于YOLO-Pose的小目标行人姿态估计算法YOLO-Pose-CBAM。通过引入CBAM注意力机制模块,在不增加过多计算量的前提下,增强网络聚焦小目标行人区域的能力,提升算法对小目标行人的敏感度,同时在主干网络中使用4个不同尺寸的检测头,丰富算法对图片中不同大小行人的检测手段;在骨干网络和颈部之间架设2条跨层级联通道,提升浅层网络与深层网络之间的特征融合能力,进一步增强信息交流,降低小目标行人漏检率;引入SIoU重新定义边界框回归的定位损失函数,加快训练的收敛速度,提高检测精度;采用k-means++算法代替k-means算法对数据集中标注的锚框进行聚类,避免聚类中心初始化时导致的局部最优解问题,从而选择出更适合检测小目标行人的锚框。对比实验结果表明,在小目标行人WiderKeypoints数据集上,所提算法相较于YOLO-Pose和YOLOv7-Pose在平均精度上分别提升了4.6和6.5个百分比。
  • 安玉, 葛海波, 何文昊, 马赛, 程梦洋
    计算机工程. 2024, 50(4): 187-196. https://doi.org/10.19678/j.issn.1000-3428.0067601
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    为了应对视觉目标跟踪中常见的目标尺寸变化、运动模糊、目标被遮挡、目标受相似物干扰等问题,提出一种基于补偿注意力机制的Siamese网络跟踪算法CDAM-Siam。首先采用ResNet-50网络构建Siamese的骨干网络以进行不同层次的特征提取,加深网络同时充分利用不同层所提取的特征;其次在骨干网络中融入具有补偿机制的双重注意力网络CDAM,强化特征图中的有效特征并减弱一些边缘特征,以提高CDAM-Siam算法面对复杂场景时的鲁棒性;最后构建特征融合网络并将其添加到主干网络中,对来自不同层次的特征图进行有效融合以获得高分辨率和信息丰富的特征图,最终实现准确的目标跟踪。在GOT-10K和YouTube-BB数据集上对CDAM-Siam算法进行训练后,在OTB100数据集上进行检测,结果表明,CDAM-Siam的跟踪成功率和精度分别达到68.3%和89.5%,在面临跟踪任务中的常见挑战时其仍能保持较好的跟踪效果,跟踪速度可达56 帧/s,满足实时跟踪需求;在VOT2018数据集中的测试结果显示,该算法的准确率、鲁棒性和平均重叠率分别可达53.8%、39.4%和26.5%。
  • 刘瑞康, 刘伟铭, 段梦飞, 谢玮, 戴愿
    计算机工程. 2024, 50(4): 197-207. https://doi.org/10.19678/j.issn.1000-3428.0067217
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualFormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×107,实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。
  • 白杰, 赵琰
    计算机工程. 2024, 50(4): 208-218. https://doi.org/10.19678/j.issn.1000-3428.0066413
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    目前图像哈希领域中许多算法只能处理灰度图像,为扩大算法适用范围,同时提高图像哈希算法的性能与旋转攻击的鲁棒性,提出基于四元数拉盖尔矩和三维能量结构的哈希算法。首先对输入的彩色图像进行预处理与多尺度融合处理,将融合图像提取的拉盖尔矩系数作为图像的全局特征,同时在YCbCr颜色空间中利用融合图像的能量信息建立模型,选取三维模型中不同视角下的能量峰值和谷值点连线与水平面的夹角作为局部结构特征;然后根据特定点与三维模型各条等高线上近点和远点的位置提取具有旋转不变性的特征;最后结合全局特征和三维结构特征,量化并加密生成哈希序列。实验结果表明,该算法在鲁棒性与区别性之间有更好的平衡,受试者工作特征曲线错误接受率为0时的正确接受率达到0.999 2。当哈希序列长度为120 bit时具备最优的紧凑性,平均计算时间为0.097 9 s。在拷贝检测实验中,该算法进行多次抽取实验的平均查全率和查准率均在95.83%以上。
  • 李振鲁, 黄威, 孙锴
    计算机工程. 2024, 50(4): 219-227. https://doi.org/10.19678/j.issn.1000-3428.0067576
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    道路目标识别是智能交通系统解决城市拥堵问题的核心技术之一,然而现有算法在复杂交通环境下识别效果较差,存在大量漏检和误检情况,且模型参数量大,不适合在实际场景下部署于资源有限的移动端设备。针对以上问题,提出一种复杂环境下的轻量化道路目标识别算法。基于SSD算法结构设计一种可重构的特征提取网络框架,利用3种轻量化模块分别构建浅层特征提取网络,以自定义的Additional Block构建深层特征提取网络,并分别采用通道注意力机制和轻量化感受野扩大(RFB-L)模块提升模型对各尺寸目标的检测效果。利用自定义的像素与通道信息融合模块实现浅层与深层特征的融合,丰富待检测特征图包含的信息。同时,提出一种多特征融合的学习率调节算法,使得训练过程中模型性能稳定地达到收敛。自制复杂拥堵道路数据集Hohhot_city用于算法训练和测试,与主流算法的对比实验结果表明,该算法性能明显优于参数量同级别的YOLOv4-tiny和YOLOv5s算法,在参数量不到YOLOv5m算法40%的情况下与其检测精度接近,并取得了12.8 ms的推理时间和99.1%的均值平均精度。
  • 崔丽群, 曹华维
    计算机工程. 2024, 50(4): 228-236. https://doi.org/10.19678/j.issn.1000-3428.0067790
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    目前目标检测技术虽然已经趋于成熟,但是对遥感图像的检测仍存在不少挑战。针对遥感图像的背景复杂、目标尺度差异大、目标方向任意等特点造成目标检测精度低下的问题,提出一种基于改进YOLOv5的遥感图像目标检测算法。首先,构建一种联合注意力的多尺度特征增强网络,充分融合高低层特征,使特征层具有语义信息的同时包含丰富的细节信息,并在融合过程中利用设计的特征聚焦模块帮助模型选择关键特征,抑制无关信息。其次,使用感受野模块(RFB)对融合后的特征图进行更新,扩大特征图的感受野,减少特征信息损失。最后,对目标增加旋转角度,并采用圆形平滑标签将回归问题转化成分类问题,提高遥感目标定位的准确性。在用于航拍图像目标检测的大规模数据集(DOTA)上的实验结果表明,与YOLOv5算法相比,所提算法的交并比(IoU)为0.5和0.5~0.95时的平均精度均值(mAP@0.5和mAP@0.5:0.95)分别提高了7.3和3.3个百分点,能够明显提高复杂背景下遥感图像目标的检测精度,并改善对遥感目标的漏检和误检情况。
  • 杨玉聃, 张俊华, 刘云凤
    计算机工程. 2024, 50(4): 237-246. https://doi.org/10.19678/j.issn.1000-3428.0067751
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    脊柱计算机断层摄影(CT)图像的自动分割能够辅助医生诊疗相关疾病,相较于二维分割后再进行三维重建,三维分割方法更方便且能保留图像的空间信息。针对现有三维脊柱分割方法精度较低的问题,提出一种以三维循环残差卷积为基础的U型网络对脊柱CT图像进行分割。在网络前端引入三维坐标注意力机制使网络关注感兴趣的区域,使用三维循环残差模块代替普通卷积模块,使得网络在有效累积特征的同时缓解梯度消失问题。加入高效密集连接混合卷积模块减少底层细小特征信息的丢失,提出双特征残差注意力机制代替跳跃连接进行高低层级间的语义融合,通过聚合不同层级特征对全局上下文进行建模,提升分割性能。实验结果表明:在CSI2014公开数据集上,该网络Dice相似系数(DSC)达到93.85%,相较于对比的分割网络提升了1.77~7.65个百分点,相较于其他脊椎分割方法提升了1.67~10.85个百分点;在本地腰椎数据集上,相较于对比的分割模型DSC提升了1.51~19.86个百分点,验证了所提方法的有效性和应用于计算机辅助诊疗的可行性。
  • 刘彦红, 杨秋翔, 胡帅
    计算机工程. 2024, 50(4): 247-257. https://doi.org/10.19678/j.issn.1000-3428.0068583
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    雾霾是大气污染物在逆温等气象条件下聚集和累积而形成的混浊物质,其可见性十分有限。图像去雾技术能够消除由雾霾导致的模糊、低对比度等问题,提高图像的清晰度和可见性,但也存在图像细节信息丢失等问题。为此,提出一种基于特征差异的多尺度特征融合去雾(FD-CA dehaze)网络。对FFA-Net的基本块结构进行改进,分别从特征差异维度、坐标维度和通道维度提取中间特征信息。提出有效坐标注意力(ECA)模块,将全局池化、最大池化与坐标位置信息相结合,用于减轻特征融合过程中的位置信息丢失问题;将通道注意力与ECA模块相结合,构建双注意力(D-CA)模型,更好地利用空间信息和通道信息,进一步提升模型在图像去雾任务中的表现。在此基础上,改进损失函数,将L1损失与感知损失相结合。在综合目标测试集(SOTS)和混合主观测试集(HSTS)中进行实验,结果表明,FD-CA dehaze网络在峰值信噪比、结构相似度2个指标上分别达到37.93 dB和0.990 5,相较于FFA-Net、GridDehazeNet等经典去雾网络,FD-CA dehaze的去雾效果得到明显提升。
  • 开发研究与工程应用
  • 李政学, 李枝名, 彭德中, 陈杰
    计算机工程. 2024, 50(4): 258-266. https://doi.org/10.19678/j.issn.1000-3428.0067327
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    社交网络用户分类旨在通过用户属性和社交关系确定用户的兴趣爱好,可通过图类数据的节点分类实现。多数基于图卷积神经网络(GCN)的节点分类方法仅能处理高同质率数据集,但社交网络数据集通常具有较高的异质率。针对社交网络数据集同质率较低的问题,提出一种基于特征对比学习的图卷积神经网络(CLGCN)模型。通过预训练的组合标签构造相似性矩阵,根据相似性矩阵进行图卷积。利用特征对比学习分别定义类别相同和不同的邻居节点对为正负样本对,最小化特征对比的损失函数,使同类节点对的特征表达相似性更高及异类节点对的特征表达可区分性更强。实验结果表明,CLGCN模型在3个低同质率社交网络数据集上的节点分类准确率分别达到93.5%、81.4%和67.9%,均高于对比模型。
  • 张毅恒, 刘以安, 宋海凌
    计算机工程. 2024, 50(4): 267-276. https://doi.org/10.19678/j.issn.1000-3428.0067092
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    跳频技术具有优秀的抗干扰性能和多址组网性能,跳频序列(FHS)作为其关键,在设计时面临性能指标差、难以兼顾多指标的问题。提出一种基于增强型龙格库塔优化算法(ERUN)的跳频序列设计方法。利用跳频序列的汉明相关性、复杂度、均匀性和平均跳频间隔构建目标函数,建立适用于启发式优化算法的跳频序列设计模型。针对龙格库塔优化算法(RUN)在复杂优化问题上收敛速度慢、寻优精度差的问题,提出增强型龙格库塔优化算法。利用混沌反向学习机制提高初始种群质量,基于二次插值法得到更好的个体更新方向,并根据自适应t分布扰动帮助种群跳出局部最优。在6个基准测试函数和目标函数上的测试结果表明,与RUN的3个最新变体相比,ERUN具有更快的收敛速度和更高的解精度。将得到的跳频序列应用于跳频系统中,实验结果表明,该方法在固定干扰环境下误码率为4%左右,在变化干扰环境下误码率没有明显上升,展现出了较强的抗干扰能力和复杂环境适应能力。
  • 王文斌, 钱振江, 靳勇, 孙高飞, 邢晓双, 苏超, 孙天琦
    计算机工程. 2024, 50(4): 277-285. https://doi.org/10.19678/j.issn.1000-3428.0067091
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    对于构建可信操作系统而言,文件系统设计和实现的正确性至关重要,即使是已经得到广泛运用的文件系统仍然有漏洞被检测出来。采用形式化方法对文件系统的设计和实现的正确性进行严格的验证是公认的可行方法。当前文件系统的形式化验证工作大多基于宏内核操作系统,而忽视了微内核操作系统架构下文件系统的验证。为此,提出一种微内核架构下采用内联数据机制的文件系统的形式化设计和验证方法。以高阶逻辑(HOL)和自动机模型为基础,将文件系统中的工作对象和系统资源抽象为系统对象来构建文件系统的工作状态,形式化地描述文件系统的相关系统调用的功能语义,将系统调用提供服务的过程抽象为系统工作状态发生跃迁的过程,并给出文件系统功能正确性和安全属性的断言。以实现的安全可信微内核操作系统(VSOS)中的安全可信文件系统(VSFS)为例,在设计阶段构建VSFS的有限状态机模型,并在Isabelle/HOL中抽象描述VSFS的可移植操作系统接口(POSIX)系统调用,分析和归纳出VSFS文件系统正确性断言,使用定理证明的方式来验证VSFS的正确性。实验结果表明,该方法在Isabella/HOL中完成VSFS有限状态机模型细粒度的形式化验证,满足预期的安全需求规范。
  • 胡帅, 李华玲, 郝德琛
    计算机工程. 2024, 50(4): 286-293. https://doi.org/10.19678/j.issn.1000-3428.0067779
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    医学图像分割精度对医师临床诊疗起到关键作用,但由于医学图像的复杂性以及目标区域的多样性,造成现有医学图像分割方法存在边缘区域分割不完整和上下文特征信息利用不充分的问题。为此,提出一种改进U-Net的多级边缘增强(MEE)医学图像分割网络(MDU-Net)模型。首先,在编码器结构中加入提取双层低级特征信息的MEE模块,通过不同扩张率的扩张卷积块获取特征层中丰富的边缘信息。其次,在跳跃连接中嵌入融合相邻层特征信息的细节特征关联(DFA)模块,以获取深层次和多尺度的上下文特征信息。最后,在解码器结构对应特征层中聚合不同模块所提取的特征信息,通过上采样操作得到最终的分割结果。在2个公开数据集上的实验结果表明,与用于医学图像分割的Transformers强编码器(TransUNet)等模型相比,MDU-Net模型能够高效使用医学图像中不同特征层的特征信息,并在边缘区域取得了更好的分割效果。
  • 邓远飞, 李加伟, 蒋运承
    计算机工程. 2024, 50(4): 294-302. https://doi.org/10.19678/j.issn.1000-3428.0067595
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    专利是授予发明者在一定时期内保护其发明的法定权利,在当今的社会活动中发挥着重要作用。然而现有研究并未针对专利相似度数据进行适配优化,导致其应用在专利短语相似度匹配任务中效果不佳。已有研究表明,在低资源的场景下,提示学习将文本片段(模板)作为输入,将分类问题转换为掩码语言建模问题,其关键的一步是在标签空间和标签词空间之间构造一个投影。提出一种基于知识注入的提示学习方法,将其应用于专利短语相似度匹配计算任务。为解决专利短语信息不足的问题,利用专利短语中的相似度标签信息,使用知识增强专利短语与标签信息。首先通过实体链接技术建立专利短语与外部知识的关联关系;然后设计一种基于实体影响度的邻域信息过滤机制,用于缓解专利短语信息不足的问题;最后考虑不同外部知识对专利短语相似度计算的影响,设计应用于专利短语的多种增强提示文本。实验结果表明,该方法的Pearson相关系数(PCC)和Spearman相关系数(SRC)相较次优对比方法分别提升6.8%和5.7%。
  • 王安政, 党建武, 岳彪, 杨景玉
    计算机工程. 2024, 50(4): 303-312. https://doi.org/10.19678/j.issn.1000-3428.0067758
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    路面裂缝是造成公路安全问题的主要因素。传统的裂缝检测通常以人工检测为主,存在效率低、不安全等问题,此外现有深度学习检测模型在面临阴影遮挡、背景复杂等干扰因素时会造成裂缝检测不完整。针对上述问题,提出一种基于位置信息和注意力机制的路面裂缝检测模型(PA-TransUNet)。[JP+1]首先,通过混合编码器接收输入图像,提取裂缝特征信息,引入查询项、键、值的位置信息,提升编码器Transformer中自注意力机制捕获裂缝形状和补偿特征信息丢失的能力。然后,输入裂缝特征到解码器进行上采样,设计一种基于注意力门控的解码模块(AGDM),AGDM通过抑制非裂缝区域来加强对裂缝区域的学习,提高裂缝检测的准确性和完整性。实验结果表明,PA-TransUNet模型在路面裂缝检测数据集(CFD)和Cracktree200这2个公开数据集上的F1值分别达到87.44%和82.58%。此外,为了进一步检验PA-TransUNet模型在实际工程中的裂缝检测能力,又在自制无人机裂缝(UAV Cracks)数据集上取得了88.68%的F1值,由此可见其能较好地满足实际工程中的裂缝检测需求。
  • 王琳, 黄浩
    计算机工程. 2024, 50(4): 313-320. https://doi.org/10.19678/j.issn.1000-3428.0067272
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    预训练模型通过自监督学习表示在非平行语料语音转换(VC)取得了重大突破。随着自监督预训练表示(SSPR)的广泛使用,预训练模型提取的特征中被证实包含更多的内容信息。提出一种基于SSPR同时结合矢量量化(VQ)和联结时序分类(CTC)的VC模型。将预训练模型提取的SSPR作为端到端模型的输入,用于提高单次语音转换质量。如何有效地解耦内容表示和说话人表示成为语音转换中的关键问题。使用SSPR作为初步的内容信息,采用VQ从语音中解耦内容和说话人表示。然而,仅使用VQ只能将内容信息离散化,很难将纯粹的内容表示从语音中分离出来,为了进一步消除内容信息中说话人的不变信息,提出CTC损失指导内容编码器。CTC不仅作为辅助网络加快模型收敛,同时其额外的文本监督可以与VQ联合优化,实现性能互补,学习纯内容表示。说话人表示采用风格嵌入学习,2种表示作为系统的输入进行语音转换。在开源的CMU数据集和VCTK语料库对所提的方法进行评估,实验结果表明,该方法在客观上的梅尔倒谱失真(MCD)达到8.896 dB,在主观上的语音自然度平均意见分数(MOS)和说话人相似度MOS分别为3.29和3.22,均优于基线模型,此方法在语音转换的质量和说话人相似度上能够获得最佳性能。
  • 宋强, 唐俊龙, 陈照云, 时洋, 谭期轩, 肖紫阳, 邹望辉
    计算机工程. 2024, 50(4): 321-331. https://doi.org/10.19678/j.issn.1000-3428.0067000
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    国防科技大学自主研制的高性能加速器采用中央处理器(CPU)+通用数字信号处理器(GPDSP)的片上异构融合架构,使用超长指令集(VLIW)+单指令多数据流(SIMD)的向量化结构的GPDSP是峰值性能主要支撑的加速核。主流编译器在密集的数据计算指令排布、为指令静态分配硬件执行单元、GPDSP特有的向量指令等方面不能很好地支持高性能加速器。基于低级虚拟器(LLVM)编译框架,在前寄存器分配调度阶段,结合峰值寄存器压力感知方法(PERP)、蚁群优化(ACO)算法与GPDSP结构特点,优化代价模型,设计支持寄存器压力感知的指令调度模块;在后寄存器分配阶段提出支持静态功能单元分配的指令调度策略,通过冲突检测机制保证功能单元分配的正确性,为指令并行执行提供软件基础;在后端封装一系列丰富且规整的向量指令接口,实现对GPDSP向量指令的支持。实验结果表明,所提出的LLVM编译架构优化方法从功能和性能上实现了对GPDSP的良好支撑,GCC testsuite测试整体性能平均加速比为4.539,SPEC CPU 2017浮点测试整体性能平均加速比为4.49,SPEC CPU 2017整型测试整体性能平均加速比为3.24,使用向量接口的向量程序实现了平均97.1%的性能提升率。
  • 侯钰涛, 阿布都克力木·阿布力孜, 史亚庆, 马依拉木·木斯得克, 哈里旦木·阿布都克里木
    计算机工程. 2024, 50(4): 332-341. https://doi.org/10.19678/j.issn.1000-3428.0068700
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    随着"一带一路"倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。
  • 龙辰志, 陈平, 李传坤
    计算机工程. 2024, 50(4): 342-349. https://doi.org/10.19678/j.issn.1000-3428.0067715
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    尽管多人2D姿态估计方法趋近成熟,但是现有方法无法有效识别小目标的姿态。针对当前小目标姿态难以识别的问题,提出一种融合全局-局部上下文信息的多人姿态估计方法。利用高分辨率网络(HRNet)输出的不同尺度特征对人体的多个解剖中心进行粗糙的定位,通过多个中心点给小目标提供更多的监督信息,提高对小目标的定位能力。以定位的人体中心点坐标为线索,通过可变形采样的方式提取中心点附近不同尺度的局部上下文信息,并计算不同目标局部上下文信息之间的对比损失以提高目标之间的判别能力。以HRNet网络的低分辨率特征作为全局上下文信息,以局部上下文信息作为交叉注意力的查询,结合全局和局部上下文信息构建多层Transformer模型,增强小目标的上下文信息。将增强的小目标上下文信息作为聚类中心,解耦多尺度融合的特征得到不同目标对应的关键点热图,从而实现小目标多人姿态估计。实验结果表明,该方法能够有效提高小目标姿态的识别性能,在COCO test-dev2017数据集上取得了69.0%的平均精度(AP),APM比对偶解剖中心(DAC)方法提高1.4个百分点。
  • 徐宽广, 何东隅, 韩冰, 刘宇佳, 李家栋
    计算机工程. 2024, 50(4): 350-356. https://doi.org/10.19678/j.issn.1000-3428.0068471
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    钢板号的正确识别检查是实现生产线自动化生产的重要基础条件之一。近年来,许多生产线在备料位置配备了喷印机用于自动标记物料编号。喷印的字迹清晰且耐高温,在没有涂抹的情况下使用钢板号识别设备可以实现接近100%的识别率。然而,由于喷印设备故障或受限于资金和空间等原因,有时无法安装喷印设备,只能依赖人工手写的方式在钢板表面标记编号。与喷印编号相比,手写编号存在书写随意、连笔、字迹歪斜扭曲等复杂情况,这些因素限制了识别系统的准确性。鉴于识别效果较差,通常需要依赖人工目测来辅助识别,从而影响了物料跟踪自动化的实施效果。为了提升手写钢板号的识别效果,对传统机器学习光学字符识别(OCR)文本区域检测算法进行改进研究,并针对手写钢板号的特征,提出一种图像增强和扭曲矫正处理的算法。应用结果表明,该算法可以改善手写钢板号的图像质量和形状,提高识别的准确性。该研究旨在提升手写钢板号识别效果,以解决自动化生产中的难题。通过图像增强和矫正处理,使识别系统更好地处理手写钢板号,推动物料跟踪的自动化实施。