作者投稿和查稿 主编审稿 专家审稿 编委审稿 远程编辑

2023年, 第49卷, 第4期 刊出日期:2023-04-15
  

  • 全选
    |
    封面和目录
  • 计算机工程. 2023, 49(4): 0-0.
    摘要 ( ) PDF全文 ( )   可视化   收藏
  • 热点与综述
  • 王群, 李馥娟, 倪雪莉, 夏玲玲, 梁广俊
    计算机工程. 2023, 49(4): 1-13. https://doi.org/10.19678/j.issn.1000-3428.0065927
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    区块链作为一类由多节点共同维护的分布式账本,综合运用P2P网络、共识算法、智能合约、密码学等技术,在开放网络环境中构建高效率、低成本的去中心化信任机制,实现防篡改、防伪造等安全功能,但同时面临严重的数据隐私泄露风险。基于对区块链隐私的理解和对隐私数据形成过程的分析,重点从身份隐私、数据隐私、网络隐私等3个方面分析目前区块链隐私保护的具体技术、工作机制和实现协议。针对身份隐私保护研究,在讨论混币技术的基础上,对比分析中心化混币技术和去中心化混币技术的实现原理和应用特点;针对数据隐私保护研究,介绍零知识证明和环签名技术在区块链隐私保护中的应用;针对网络隐私保护研究,讨论网络数据隐藏技术和通道隔离技术。从隐私内容、隐私威胁、隐私保护机制等3个方面对身份隐私、数据隐私和网络隐私进行对比分析,并结合当前区块链应用,在系统梳理隐私保护研究新进展的基础上,展望区块链隐私保护机制的未来发展趋势。
  • 黄金荣, 刘百祥, 张亮, 张展鹏
    计算机工程. 2023, 49(4): 14-22. https://doi.org/10.19678/j.issn.1000-3428.0064244
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    在传统的互联网环境下,服务商的用户系统相互独立。为了使用在各种场景下的应用服务,人们需注册大量的账号,面临不可控的信息泄露风险和繁杂的信息更新流程。为解决数字身份之间相互隔离的问题,使用户更好地掌控自己的数字身份,具有去中心化身份(DID)的认证机制被提出,然而现有DID方案给用户带来密钥管理的负担,且这些方案都假设已经存在由一组凭证发行者组成的生态系统,不能与现有的互联网生态兼容。提出一种基于智能合约和非同质化代币的数字身份认证方案,通过阐述数字身份和数字账户的概念,说明两者的区别及其关联,使用分层确定性钱包技术生成并管理用户的数字身份和数字账户的密钥,充分兼容现有互联网服务商的用户系统和认证机制,将数字账户以非同质化代币的形式保存在区块链上,通过零知识的手段隐藏用户账户的真实信息。在此基础上,将单点登录(SSO)中的认证方由可信的第三方替换为区块链上的智能合约,实现类似SSO的“一次认证,处处登录”机制。在以太坊测试链上的实验结果证明,该方案能够有效实现去中心化场景下的SSO功能,且具有良好的可用性、匿名性和安全性。
  • 杨越佳, 华蓓, 钟志威, 高咪
    计算机工程. 2023, 49(4): 23-31. https://doi.org/10.19678/j.issn.1000-3428.0064391
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    随着数据交易市场的建立和规范化,多方协同进行机器学习建模成为新需求。联邦学习允许多个数据拥有方联合训练一个机器学习模型,适用于模型共建共用场景,但现有联邦学习计算框架无法适用于数据拥有方和模型需求方诉求不同、模型共建不共用的场景。提出一种不依赖于第三方计算平台且基于同态加密的隐私保护逻辑回归协同计算方案,包括由数据拥有方、模型需求方和密钥生成者构成的多方协同计算框架,以及基于该框架的多方交互协同计算流程,在不泄露模型信息及各方数据隐私的前提下协作完成模型训练任务,通过建立攻击模型分析协同计算方案的安全性。基于先进的浮点数全同态加密方案CKKS在小型计算机集群上实现协同计算的原型系统,并对原型系统进行计算和通信优化,包括提前终止训练和将密文同态运算卸载到GPU上提高计算效率。实验结果表明,计算优化措施获得了约50倍的速度提升,协同计算原型系统在中小规模的数据集上可满足实用性要求。
  • 唐敏, 张宇浩, 邓国强
    计算机工程. 2023, 49(4): 32-42,51. https://doi.org/10.19678/j.issn.1000-3428.0065549
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    逻辑回归作为一种典型的机器学习算法,被广泛应用于医疗诊断、金融预测等领域。由于单个用户没有足够的样本构建高精度模型,传统的集中式训练则会导致隐私泄露,因此构建具有隐私保护的逻辑回归模型受到广泛关注。现有的要求用户和服务器之间进行交互的方案具有较高的计算成本和通信负担。提出一种高效的非交互式逻辑回归训练协议,利用具有良可分离结构的梯度更新公式,解耦样本数据和模型参数之间的计算耦合性,保证用户与服务器之间的单向单次传输性,即用户将本地数据整合并以秘密共享的方式上传给云服务器后即可离线。在训练阶段设计基于矩阵和向量运算的协议,保证服务器在每次迭代中使用固定的信息更新参数,降低计算成本和通信开销。同时,基于协议的安全性分析和数值实验,在UCI库的4个真实数据集上训练逻辑回归模型,实验结果表明,在保证模型精度的前提下,与最新的隐私保护逻辑回归方案VANE相比,该回归模型效率提升了80~120倍,且训练时间与明文域相近。
  • 夏立斌, 刘晓宇, 姜晓巍, 孙功星
    计算机工程. 2023, 49(4): 43-51. https://doi.org/10.19678/j.issn.1000-3428.0066025
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    随着科学计算和人工智能技术的快速发展,分布式环境下的并行计算已成为解决大规模理论计算和数据处理问题的重要手段。内存容量的提高以及迭代算法的广泛应用,使得以Spark为代表的内存计算技术愈发成熟。但是,当前主流的分布式内存模型和计算框架难以兼顾易用性和计算性能,并且在数据格式定义、内存分配、内存使用效率等方面存在不足。提出一种基于分布式数据集的并行计算方法,分别从模型理论和系统开销两个角度对内存计算进行优化。在理论上,通过对计算过程进行建模分析,以解决Spark在科学计算环境下表达能力不足的问题,同时给出计算框架的开销模型,为后续性能优化提供支持。在系统上,提出一种框架级的内存优化方法,该方法主要包括对跨语言分布式内存数据集的重构、分布式共享内存的管理、消息传递过程的优化等模块。实验结果表明,基于该优化方法实现的并行计算框架可以显著提升数据集的内存分配效率,减少序列化/反序列化开销,缓解内存占用压力,应用测试的执行时间相比Spark减少了69%~92%。
  • 王辉, 张玉豪, 申自浩, 刘沛骞, 蔡尚卿, 刘琨
    计算机工程. 2023, 49(4): 52-60. https://doi.org/10.19678/j.issn.1000-3428.0065310
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    在移动群智感知中现有研究普遍基于边缘服务器或云服务器是可信的这一前提假设,无法在提高感知数据质量的同时有效保护参与者隐私。提出一种基于半可信执行环境的隐私增强多任务分配(PEMTA)机制,基于Hilbert曲线特性对任务进行位置聚类,将相邻边缘服务器结合Paillier加密体系的同态特性进行相互协作,根据参与者和任务的匹配度为每个任务挑选最佳参与者集合,完成感知任务且不泄露参与者隐私。设计贪心冲突排除算法,根据任务佣金对冲突任务进行等级划分,按照划分后的任务等级依次为冲突任务挑选最佳的替换参与者,解决了多任务分配产生的参与者匹配冲突问题。利用动态信誉值更新算法,通过量化参与者提交的感知数据与聚合后数据的偏差,动态更新参与者的信誉值,缓解了恶意攻击造成的数据质量损失。实验结果表明,PEMTA机制具有良好的抗恶意攻击性能,感知数据质量和任务完成率相比于同类多任务分配机制平均提升了18.14%和15.47%。
  • 人工智能与模式识别
  • 徐康, 李霏, 姬东鸿
    计算机工程. 2023, 49(4): 61-67. https://doi.org/10.19678/j.issn.1000-3428.0064558
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型BERT编码层学习句子中每个单词的上下文表达,同时利用图卷积神经网络学习句子单词之间的依存关系和句法标签信息,以捕获远距离的方面词与观点词之间的语义关联关系,并采用文本片段搜索构造候选方面词与观点词及其特征表示,最终使用多个分类器同时进行方面词与观点词抽取及情感极性判断。在ASTE-Data-V2数据集上的实验结果表明,该模型在14res、14lap、15res和16res子集上的F1值相比于JET模型提升了10.61、10.54、4.91和8.48个百分点,具有较高的方面情感三元组抽取效率。
  • 杜明, 郝燕, 周军锋, 谭玉婷
    计算机工程. 2023, 49(4): 68-76. https://doi.org/10.19678/j.issn.1000-3428.0064192
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    周期团是在时态网络上出现时机满足特定周期要求的完全子图,周期团挖掘用于挖掘时态图中具有周期性的团。针对现有周期团挖掘方法效率低的问题,设计三种高效的剪枝策略EMP-FlagVex、EMP-FlagEdge和EMP-FlagEdge+,并提出一种基于边上时间戳序列的求解方法EMP。枚举满足要求的极大团,并对枚举出的极大团进行周期验证。验证操作是提取极大团每条边上的时间戳集合,并对集合中出现的时间点进行计数。若某个时间点出现的次数等于提取的集合个数,则将其放入新集合。在此基础上,判断新集合中的序列是否具有周期性。实验结果表明,相比基础方法EMP,将EMP与EMP-FlagEdge+剪枝策略相结合的方法在PS、Lkml、Enron等数据集上的运行时间加快了15倍以上。相比MPC算法,基于顶点度数的EMP-FlagVex剪枝策略的挖掘效率提高约1倍,基于边上时间戳序列长度的EMP-FlagEdge剪枝策略的挖掘效率提高10倍,基于周期子序列长度的EMP-FlagEdge+剪枝策略的挖掘效率提高约30倍。
  • 衡红军, 苗菁
    计算机工程. 2023, 49(4): 77-84. https://doi.org/10.19678/j.issn.1000-3428.0064545
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。
  • 王璐璐, 陈东方, 王晓峰
    计算机工程. 2023, 49(4): 85-91,100. https://doi.org/10.19678/j.issn.1000-3428.0064346
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    传统的标签分配策略根据锚框与ground-truth之间的交并比(IoU)是否超过阈值来划分正负样本,但确定IoU阈值需要依靠大量的经验和实验,并且在不同的网络结构中需要重新设定新的阈值;其次固定的阈值无法保证正负样本数量变化的平缓,过多或过少的正样本都将影响网络训练的稳定性。为解决这些问题,提出一种自适应标签分配策略。根据中心先验原则设计中心权重,通过联合分类得分和定位得分表示锚框质量,组成一个统一的锚框评分方案便于简化划分步骤。为了使网络能够根据训练程度自适应调整IoU阈值,保证网络训练的稳定性,利用锚框质量高斯函数模拟锚框总体质量得分的分布情况,使用极大似然估计算法获取最优参数,根据统计结果动态预测最佳IoU阈值。实验结果表明,该算法在基于锚框和基于无锚框的检测算法中均使检测性能得到有效提升,在PASCAL VOC数据集上分别提升3.1和6.6个百分点,并且可以有效降低漏检率。
  • 王磊, 王楠
    计算机工程. 2023, 49(4): 92-100. https://doi.org/10.19678/j.issn.1000-3428.0064178
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有的图模糊运算法则不满足运算封闭性,并且对于图模糊聚合算子多通过单个算子聚合评价信息进行决策,无法全面考虑决策信息间的关系。在Schweizer Sklar (SS)范数条件下定义一种图模糊运算法则。由于幂平均算子可以降低异常评价信息对决策结果的影响,Muirhead平均算子能够体现属性间关联性的影响,因此通过对幂平均算子和Muirhead平均算子进行复合,设计图模糊SS范数聚合算子以及其加权的形式,根据所提的图模糊运算法则推导聚合算子的数学表达式并验证其具有幂等性、交换性和有界性。基于所提的图模糊SS范数聚合算子构建一种图模糊多属性决策方法。实验结果表明,所提的图模糊SS范数聚合算子具有可行性和有效性,决策者可以依据自身风险偏好调节参数向量Qλ的取值,以满足不同的决策需求。相比PFWA、PFWG、PFWMM等单个算子,所提的复合算子可以更加有效、稳定地聚合评价信息来获得决策结果。
  • 关日鹏, 况立群, 焦世超, 熊风光, 韩燮
    计算机工程. 2023, 49(4): 101-107,113. https://doi.org/10.19678/j.issn.1000-3428.0064951
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    在基于点云和图像的三维模型分类检索中,现有特征融合方法忽略了模态内的特征信息和模态间的互补信息,存在融合特征丢失的问题,且分类标签和预测特征之间缺乏高维相关性,检索准确率较低。针对该问题,提出一种多模态特征和词嵌入联合驱动的网络结构,以对三维模型进行分类检索。在特征提取过程中,利用特征提取器提取来自点云和视图的三维模型特征,通过共享空间来对齐不同模态的特征。在模态融合过程中,计算不同模态之间的余弦相似度以增强模态特征,将增强特征进行拼接得到融合特征。在模型特征分类的过程中,通过建立词嵌入模型与分类标签的高维相关性实现三维模型特征的统一表示和分类检索。在ModelNet10和ModelNet40数据集上进行实验,结果表明,该网络的平均检索精度均值分别达到92.9%和91.5%,可以获取精准的三维模型特征描述符,与VoxNet、SCIF、MVCNN等检索方法相比,其能显著提高三维模型的检索精度和分类准确率。
  • 谢毅, 王强, 李海宏, 金诚, 任洪润, 薛雯, 熊贇
    计算机工程. 2023, 49(4): 108-113. https://doi.org/10.19678/j.issn.1000-3428.0063731
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    当前用于时空图挖掘的算法通常基于专家预定义或者经过特征增强的静态图结构,这些静态的图结构往往依赖于主观先验知识构建,并且不包含时间动态性的变化。为完成自动获取时空图数据中动态图特征的任务,提出一种基于时空稀疏注意力的时空图挖掘算法(STSAN)。构造空间稀疏注意力层,通过对每个时间片上节点间的关系进行度量生成稀疏图,并在各个稀疏图结构上使用注意力机制完成节点空间(纵向)特征的提取。时间稀疏注意力层通过类似的方式完成节点时序(横向)特征的提取。在此基础上,将空间稀疏注意力层和时间稀疏注意力层堆叠为时空稀疏Transformer模块,完成时空依赖关系建模。实验结果表明,与DCRNN、STGCN等方法相比,该算法在2个公开的交通数据集上能够获得2.65%~16.35%的性能提升,将所提出的空间稀疏注意力层直接用于替换现有算法的空间特征模块,能够在原算法基础上获得平均3.18%~9.14%的性能提升。
  • 李晓腾, 张盼盼, 勾智楠, 高凯
    计算机工程. 2023, 49(4): 114-119. https://doi.org/10.19678/j.issn.1000-3428.0064087
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    针对传统多模态命名实体识别方法无法有效融合图文模态信息且不能区分易混淆实体等问题,提出一种基于多任务学习的多模态命名实体识别方法,通过对比融合辅助任务促进图文模态信息的融合,通过实体聚类辅助任务提升模型对易混淆实体的判断能力。利用BERT预训练语言模型和ResNet模型分别对原始文本和图片进行特征映射获得相应的特征向量,并利用跨模态Transformer结构融合图文模态信息。在多模态命名实体识别任务基础上,增加对比融合辅助任务促进图文模态信息融合,增加实体聚类辅助任务学习实体类别之间的差异,提升模型对易混淆实体的区分能力。最后,利用条件随机场层学习上下文转移概率,并输出最优预测结果。实验结果显示,在国际公开数据集Twitter-2017上,所提方法相较于基线方法取得了更高的准确率、召回率和F1值,其中F1值可达85.59%,表明对比融合辅助任务和实体聚类辅助任务能够促进模型对实体的识别效果。
  • 安志国, 彭政, 易满成, 刘健欣, 俞思帆
    计算机工程. 2023, 49(4): 120-124. https://doi.org/10.19678/j.issn.1000-3428.0064345
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    非重要权重元素的修剪和重新激活可避免神经网络过度参数化,然而权重元素的重新激活一般是通过激活整个滤波器实现,分类准确率不高。针对该问题,在神经网络训练过程中提出一种滤波器权值竞争训练算法。在局部和全局范围内选择并定位劣质滤波器,根据前向匹配策略寻找相应的优质滤波器,使用其中的最优和次优权重元素交叉更新劣质滤波器中的次劣和最劣权重元素,在神经网络结构上使陷入局部极值的权值进行重新激活。实验结果表明,应用滤波器权值竞争训练算法的ResNet、DenseNet等普通神经网络在CIFAR数据集上的分类准确率和在ImageNet数据集上的Top-1准确率平均提升了0.79和1.13个百分点,MobileNet、ShuffleNet等轻量级神经网络平均提升了2.22和2.93个百分点,优于现有的滤波器竞争训练算法。
  • 耿磊, 傅洪亮, 陶华伟, 卢远, 郭歆莹, 赵力
    计算机工程. 2023, 49(4): 125-130,137. https://doi.org/10.19678/j.issn.1000-3428.0064054
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。
  • 先进计算与数据处理
  • 李博, 黄东强, 贾金芳, 吴利, 王晓英, 黄建强
    计算机工程. 2023, 49(4): 131-137. https://doi.org/10.19678/j.issn.1000-3428.0064282
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。
  • 陈锐, 孙羽菲, 郭强, 隋轶丞, 周振辉, 石昌青, 张玉志
    计算机工程. 2023, 49(4): 138-148. https://doi.org/10.19678/j.issn.1000-3428.0064142
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    深度学习模型的构建、训练以及推理离不开TensorFlow等机器学习框架中深度学习算子的支撑,对于卷积、池化等深度学习中被高频调用或计算量较大的算子,机器学习框架一般通过调用深度神经网络(DNN)库来提升计算效能。现有DNN库主要由英伟达、AMD等少数国外厂商开发并根据自有硬件设备特点进行优化,但其封闭性导致其他厂商生产的通用加速器难以在深度学习领域发挥作用。为解决现有DNN库无法支持国产加速器的问题,使得深度学习模型能够调用国产加速器进行运算,研究跨平台的通用DNN库,通过对开源MIOpen的结构特点和调用方式进行分析,提出修改和重构该库的方法,并实现一种基于OpenCL的DNN(OclDNN)库。考虑到TensorFlow较高的流行度及其对DNN库调用的特殊性与复杂性,研究通用DNN库在TensorFlow中的集成方法,通过StreamExecutor中的OpenCL平台实现对OclDNN的调用。实验结果表明,OclDNN在英伟达、华为等不同厂商的计算设备上运算结果正确可靠,在相同实验环境下,深度学习算子使用OclDNN时的加速性能比传统CPU并行算法提升了5~60倍。
  • 桑永宣, 魏江坡, 王博, 宋莹
    计算机工程. 2023, 49(4): 149-158. https://doi.org/10.19678/j.issn.1000-3428.0064783
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    边缘计算因其与用户物理距离短、响应速度快等特点,被认为是可以解决未来大规模网络计算资源不足等问题的关键技术之一。在多进多出的边缘计算环境下,通过将部分服务缓存到边缘节点可以降低用户请求任务的执行时间。但以往工作或假设边缘节点具有无限的缓存空间,或忽略当前缓存列表和缓存替换机制对任务卸载的影响,导致卸载决策失效或任务执行时间变长。面向具有缓存机制的边缘计算环境,提出一种基于整数编码的混合启发式任务卸载算法IPSO_GA,将任务卸载问题建模为一个混合整数非线性规划问题。结合粒子群优化和遗传算法,使各粒子通过交配运算和变异运算不断寻优,在合理的时间复杂度内搜索任务卸载决策。实验结果表明,与随机算法、贪心算法、平均算法等经典算法和目前较新算法相比,IPSO_GA算法在设备数量居中环境中的任务执行时间减少了58%~298%,能适用于设备数量多、计算密集的边缘计算环境。
  • 张桢, 梁军, 贾海鹏, 张云泉, 李青
    计算机工程. 2023, 49(4): 159-165,173. https://doi.org/10.19678/j.issn.1000-3428.0063495
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。
  • 林琳, 祝爱琦, 赵明璨, 张帅, 叶炎昊, 徐骥, 韩林, 赵荣彩, 侯超峰
    计算机工程. 2023, 49(4): 166-173. https://doi.org/10.19678/j.issn.1000-3428.0064457
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMD-blue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。
  • 图形图像处理
  • 陈治旭, 靳雁霞, 芦烨, 杨晶, 刘亚变, 史志儒
    计算机工程. 2023, 49(4): 174-181. https://doi.org/10.19678/j.issn.1000-3428.0064194
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有融合机器学习的服装仿真方法大多在单一精度网格上进行仿真,导致在变形较小的区域内进行不必要的计算。提出一种基于子图卷积神经网络的多精度服装建模方法。采用基于物理模拟的方法进行服装仿真,利用瑞利熵曲率计算服装各区域的平均变形度,依据平均变形度对服装网格阈值进行划分,构建与原始网格相对应的多精度服装网格。结合人体结构化模型,从多精度服装网格中提取基于时空的多精度服装图结构。在此基础上,利用子图卷积神经网络为给定顶点采样邻居节点,通过聚合给定顶点和邻居节点的特征,以更新顶点特征数据。实验结果表明,与TailorNet方法相比,该方法的布料计算效率提升25.3%,不仅保留了从物理模拟中学习的褶皱,而且具有更加真实的模拟效果,并提高了计算效率。
  • 逄涛, 张学敏, 姚亚洲, 高明柯
    计算机工程. 2023, 49(4): 182-187. https://doi.org/10.19678/j.issn.1000-3428.0065519
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    遥感图像变化检测是识别同一区域前后时段两张图像之间像素级变化,能够精确判断目标区域状态变化。现有的遥感图像变化检测方法是在不同时间流中引入注意力机制来强化变化区域图像特征,并将其叠加以实现特征融合,不能有效地挖掘与应用不同时间流特征之间的关系。基于特征提取网络,提出一种在时间维度上基于像素位置偏移的图像特征差异增强方法。该方法可学习不同时相图像特征之间对应区域的像素变化偏移量,增强单时相特征图中发生变化区域和无关区域之间的特征差异。在此基础上,构建一个针对光学遥感图像中建筑物变化的检测框架,以ResNet18网络和多层感知机结构分别作为编码器、解码器,在LEVIR-CD、LEVIR-CD+和S2Looking 3个公开数据集上进行实验,结果表明,基于特征增强的图像变化检测方法的F1值分别为90.74%、86.11%和62.25%,相比目前最优的BIT方法分别提高了1.43、3.31和0.4个百分点。
  • 杨晶晶, 谢海燕, 薛妮妮, 张傲明
    计算机工程. 2023, 49(4): 188-198. https://doi.org/10.19678/j.issn.1000-3428.0064662
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    水下图像去噪作为探索海底世界有效的辅助手段之一,备受研究人员的关注。传统的滤波方法存在去噪过程中容易损坏图像的细节,带有明显的噪声残留,且根据不同的噪声类型设计相应滤波器的问题,在深度卷积神经网络的基础上,提出一种改进的双通道残差卷积神经网络模型,用于去除水下图像的噪声。该模型由局部残差网(LRN)、全局稀疏网(GSN)和特征处理块(FPB)构成。通过双通道LRN和GSN并行提取水下图像的多层次局部噪声特征和全局噪声特征,利用FPB中的通道连接融合LRN和GSN提取的噪声特征,并使用其卷积层增强水下图像噪声信息。在此基础上,使用均方误差和平均绝对误差双损失函数优化网络参数,利用卷积层重构水下图像。实验结果表明,相比BM3D、IRCNN、DnCNN等方法,该方法的平均峰值信噪比提高0.02~3.52 dB,在有效去除各种水平的随机噪声同时能重构清晰的水下图像。
  • 李培育, 张雅丽
    计算机工程. 2023, 49(4): 199-205. https://doi.org/10.19678/j.issn.1000-3428.0064174
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    传统生成对抗网络模型重建人脸图像时出现过多失真,难以在减少失真的情况下有效提高人脸图像真实感。针对该问题,在生成对抗网络SRGAN模型的基础上,提出一种改进的人脸图像超分辨率重建方法。为提高重建像素点与周围像素点的相关性,将双注意力机制模块嵌入到SRGAN模型的生成器和判别器中,在空间域和通道域中获取更精准的特征依赖关系。同时应用自适应激活函数ACON取代原SRGAN网络中的激活函数,通过动态学习ACON激活函数参数为每个神经元设计不同激活形式,从而提高网络特征表达能力。使用改进SRGAN的人脸图像超分辨率重建算法在CelebA测试集上进行重建实验,结果表明:该算法较原算法PSNR值提高0.675 dB,SSIM值提高0.016,LPIPS值优化0.036,有效减少了重建人脸图像中眼睛等重点部位的失真情况;与其他非生成对抗网络的主流算法相比,LPIPS值最低优化0.107,最高优化0.205,有效提高了重建人脸图像的真实感。
  • 罗少聪, 张旭东, 万乐, 谢林芳, 黎书玉
    计算机工程. 2023, 49(4): 206-216. https://doi.org/10.19678/j.issn.1000-3428.0064097
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    光场相机可以通过单次曝光同时采集空间中光线的位置信息和角度信息,在深度估计领域具有独特优势。目前光场真实场景数据集的深度标签难以获取且准确度不高,因此现有的多数光场深度估计方法依赖光场合成场景数据集进行训练,但合成数据集与真实数据集在图像特征分布上的差异,导致网络在将子孔径图像与深度图之间的映射关系应用于真实数据集时容易出现偏差。提出一种新的光场深度估计方法,利用基于对抗学习的图像翻译网络,使合成场景子孔径图像逼近真实场景子孔径图像的特征分布。在图像翻译网络中实施多视图角度一致性约束,保证图像翻译前后不同视角子孔径图像之间的视差关系保持不变。设计一种多通道密集连接深度估计网络,利用多通道输入模块充分提取不同方向子孔径图像堆栈特征,并通过密集连接模块进行特征融合,提升网络特征提取和特征传递的效率。在光场合成数据集4D Light Field Benchmark和光场真实数据集Stanford Lytro Light Field上的实验结果表明:与Baseline网络相比,该网络的均方误差和坏像素率平均降低23.3%和8.6%;与EPINET、EPI_ORM、EPN+OS+GC等方法相比,基于该网络的估计方法有效提升了深度估计的准确度,具有良好的鲁棒性和泛化能力。
  • 罗嗣卿, 陈慧
    计算机工程. 2023, 49(4): 217-225. https://doi.org/10.19678/j.issn.1000-3428.0066077
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    由于时间、地点、摄影设备等因素的限制,导致在真实世界中很难获得内容相同而场景不同的图像,一种可行方式是利用生成对抗网络(GAN)在没有成对数据集的情况下对图片中的场景进行转换,但是已有基于GAN的图像场景转换方法主要关注单个类别、单向、结构简单的场景。为了解决具有丰富类别和高度复杂语义结构的图像场景转换问题,提出一种基于GAN的图像场景转换模型,以实现晴天、雨天、雾天等不同场景之间的转换。将GAN、注意力模块和场景分割模块相结合,使模型正确识别并转换感兴趣区域同时保持其他区域不变。为了进一步提高输出的多样性,提出一种新型的正则化损失来抑制潜在噪声。此外,为了避免因缺乏噪声约束而出现的模态崩溃问题,在鉴别器中嵌入噪声分离模块。实验结果表明,相较CycleGAN、UNIT、MUNIT、NICE-GAN等6种对比模型,该模型所生成图像的FID得分和KID得分平均分别提高约7.25%和19%,其能够在不同场景下生成视觉效果更佳的图像。
  • 钟宝荣, 吴夏灵
    计算机工程. 2023, 49(4): 226-232,239. https://doi.org/10.19678/j.issn.1000-3428.0065262
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有人体姿态估计网络通常采用增加网络模型深度的方式来提高预测精度,但是导致网络模型的参数量以及运算复杂度增加。为此,在高分辨率网络的基础上提出一种融入Ghost模块、Sandglass模块以及注意力机制的轻量型人体姿态估计网络GSENet。参考基础残差模块Bottleneck以及Basicblock,将Bottleneck模块中的标准卷积替换为Ghost卷积,并且将Basicblock模块中的卷积替换为Sandglass模块,通过这种方式重新构建基础模块GSEneck以及GSEblock。在此基础上,加入注意力机制以保证网络的预测精度。实验结果表明,相比HRNet,GSENet在COCO数据集上的参数量和运算复杂度分别减少84.6%和76.1%,在MPII数据集上的参数量和运算复杂度降低84.6%和76.8%,在保持一定预测精度的情况下,GSENet网络模型能够有效地减少网络参数量并降低运算复杂度。
  • 白俊卿, 韩柏迅, 张丰侠
    计算机工程. 2023, 49(4): 233-239. https://doi.org/10.19678/j.issn.1000-3428.0064711
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    已有关于无人机视觉的图像语义分割算法多数是对遥感图像进行分割,无法表现地面细节信息,导致无人机在低空飞行任务中的实时自主环境感知存在障碍。针对该问题,提出一种低空无人机实时图像语义分割方法。设计一种新型的超网络体系结构,在编码器的最后一层加入一个上下文头权重生成模块,在编码器编码结束前生成解码器中每个块的权重,以减少预测时网络的参数量和计算量,达到实时分割的效果。在解码器中,利用局部连接层机制设计一种动态分片卷积算法,在面对跨越多个分片的大型分割对象时充分考虑上下文语义信息,使解码器中每个卷积核的权重随输入特征图的空间位置而变化,同时利用动态权重针对性地分割不同物体,最大程度地提高网络的自适应性。在低空无人机视觉图像数据集上的实验结果表明,该方法对于建筑、道路、静态车等类别图像的平均交并比为66.3%,预测速度达到37.9帧/s,与MSD、ABCNet算法相比,其分割精度分别提升9.3和2.5个百分点。
  • 开发研究与工程应用
  • 戎珂瑶, 熊贇
    计算机工程. 2023, 49(4): 240-248. https://doi.org/10.19678/j.issn.1000-3428.0064240
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    代码注释能够增强源代码的可读性、辅助软件开发过程,因此代码注释自动生成任务成为研究热点。然而现有工作大多只利用了源代码的序列信息或抽象语法树信息,未能充分捕捉代码语言特有的多种特征。为进一步利用源代码的多维度特征,提升注释生成的效果,构建基于多维度异质图结构的代码注释自动生成模型。利用异质图结构和图神经网络,将源代码的抽象语法树、控制流图、数据流图等进行融合并构建为具有多种节点和连边的异质表示图,以此表现代码的语义特征、序列特征、语法特征、结构特征等多维度特征。在真实数据集上的实验结果表明,该模型相较于Hybrid-DRL、NeuralCodeSum、SeqGNN等模型具有更好的效果,在BLEU-4、METEOR、ROUGE-L指标上分别最高提升1.6%、3.2%、3.1%,可获得更流畅、可读性更好的代码注释。
  • 孙欣悦, 李庆忠
    计算机工程. 2023, 49(4): 249-255. https://doi.org/10.19678/j.issn.1000-3428.0064278
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    目前地面显著性目标检测取得了较大进展,而水下场景具有较高的复杂性,导致水下显著性目标检测仍然面临诸多挑战。为了实现复杂水下环境的显著性目标快速检测,提出一种基于小波变换的水下显著性目标检测算法。对水下采集图像进行多级小波变换预处理,针对提取的低频子带图像,利用自适应中值滤波去除其中的斑点颗粒,对相应的高频子带进行显著性边缘检测以强化目标边缘信息。在此基础上,利用小尺度超像素分割与合并策略分割处理后的低频子带图像,通过基于区域对比度的显著性检测方法进行图像显著性计算。融合低频子带显著图和高频子带显著边缘图,得到最终的显著性检测结果。USOD公开数据集上的实验结果表明,在进行水下显著性目标检测时该算法的整体度量值达到93.9%,平均绝对误差低至3.08%,能较好地实现水下大目标和成群小目标的准确检测,且在处理大分辨率水下图像时具有良好的实时性,在CPU平台上每帧的显著性目标检测时间为168 ms,算法适用于水下机器人显著性目标快速检测应用场景。
  • 廖列法, 谢树松
    计算机工程. 2023, 49(4): 256-262. https://doi.org/10.19678/j.issn.1000-3428.0064432
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等方法,具有较优的识别效果。
  • 陆昭吾, 王骏, 施俊
    计算机工程. 2023, 49(4): 263-271. https://doi.org/10.19678/j.issn.1000-3428.0063521
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    静息态功能磁共振成像(rs-fMRI)可有效反映大脑活动状况,然而rs-fMRI数据的高随机性和自闭症谱系障碍(ASD)内在的高异质性给ASD计算机辅助诊断带来了不确定性。提出一种基于对比损失的Takagi-Sugeno-Kang (TSK)深度模糊神经网络CL-DeepTSK,结合多输出TSK (MO-TSK)模糊系统与多层感知机(MLP)有效缓解数据不确定性对模型的影响,提升TSK模糊系统的表达能力,并使模型更具可解释性。使用对比损失目标学习准则对MO-TSK与MLP进行联合优化,提高训练样本缺乏时的模型泛化性能。在ABIDE数据集上的实验结果表明,CL-DeepTSK的平均正确率和AUC指标分别达到70.0%和0.773,同时获得了30个最具鉴别性的功能连接。上述实验结果证明了CL-DeepTSK能够有效地进行自闭症辅助诊断,并且具有较高的可解释性。
  • 李松江, 耿兰兰, 王鹏
    计算机工程. 2023, 49(4): 272-280. https://doi.org/10.19678/j.issn.1000-3428.0062943
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    交通场景中小目标及遮挡目标的检测对智能交通具有重要意义。目前基于深度学习的方法在检测车辆目标的特征提取方面取得了较好的效果,但是这些方法都缺乏鲁棒性,在交通场景中对小目标及遮挡目标的检测存在漏检、错检等情况。提出一种改进Yolov4的车辆目标检测算法,在主干网络的残差模块中嵌入通道注意力机制ECA-Net,通过对每个通道的重要程度赋予不同的权重来获取跨通道的交互信息,实现通道间的信息关联,加强特征聚合,抑制无效特征。将主干网络输出的浅层特征细节信息与深层特征语义信息相融合,使每层具有当前层语义信息的同时融合丰富的细节信息,增强小目标及遮挡目标的特征。在此基础上,利用深度可分离卷积替换网络特征融合模块的普通卷积,提高网络速度,降低网络计算量。实验结果表明,改进后的Yolov4算法在KITTI和UA-DETRAC数据集上比原Yolov4算法分别提高了1.30和2.16个百分点,检测速度达到55帧/s,相比其他主流模型,能更好地检测小目标及遮挡目标。
  • 王春雷, 张建林, 李美惠, 徐智勇, 魏宇星
    计算机工程. 2023, 49(4): 281-288,296. https://doi.org/10.19678/j.issn.1000-3428.0064096
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有基于Transformer的目标跟踪算法未充分利用Transformer的长距离依赖属性,导致算法提取的特征判别性不足,跟踪稳定性较差。为提高孪生网络目标跟踪算法在复杂场景中的跟踪能力,结合卷积与Transformer的优势,提出目标跟踪算法CTTrack。在特征提取方面,利用卷积丰富的局部信息和Transformer的长距离依赖属性,以卷积和窗口注意力串联的方式和层次化的结构构建一个通用的目标跟踪骨干网络CTFormer。在特征融合方面,利用互注意力机制构建特征互增强与聚合网络以简化网络结构,加快跟踪速度。在搜索区域选择方面,结合目标运动速度估计,设计自适应调整搜索区域的跟踪策略。实验结果表明,CTTrack在GOT-10k数据集上的平均重叠度为70.3%,相比基于Transformer的跟踪算法TransT和TrDiMP均提高3.2个百分点,在UAV123数据集上的曲线下面积为71.1%,相比TransT和TrDiMP分别提高2.0个百分点和3.6个百分点。在TrackingNet、LaSOT、OTB2015、NFS数据集上分别取得82.1%、66.8%、70.1%、66.3%的曲线下面积,并能以43帧/s的速度进行实时跟踪。
  • 曹书鑫, 冯藤藤, 葛凤培, 梁春燕
    计算机工程. 2023, 49(4): 289-296. https://doi.org/10.19678/j.issn.1000-3428.0064388
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50 000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。
  • 张雷, 鲍蓉, 朱永红, 史新国
    计算机工程. 2023, 49(4): 297-302,311. https://doi.org/10.19678/j.issn.1000-3428.0066093
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    视频监控作为最常用的监测方法,由于存在监控死角以及侵犯人员隐私等问题,存在许多应用瓶颈。针对视频监测无法用于敏感场景的问题,提出一种基于WiFi的人员入侵感知方法。该方法利用WiFi信号覆盖范围大、易获取的特点,实现无隐私侵犯与无死角监控。基于人员入侵对传输路径的影响,分析WiFi感知机理,建立基于WiFi状态信息的人员入侵检测感知模型,并设计子载波选择算法获取人员感知敏感子载波。通过离群点滤波、离散小波去噪等方法对采集的数据进行处理,根据人员入侵对信号的影响构造人员感知特征值。在此基础上,将特征信号和处理后的信道状态信息作为输入信息,放入基于通道和空间注意力残差网络的人员入侵检测模型中进行判识,并在多种场景下对该方法进行实验测试,分析影响检测精度的因素。实验结果表明,该方法在多种场景下平均检测准确率达到97.8%,能够满足多场景下人员入侵的检测要求。
  • 李健智, 王红玲, 王中卿
    计算机工程. 2023, 49(4): 303-311. https://doi.org/10.19678/j.issn.1000-3428.0064382
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    对话摘要是从复杂的对话中提取关键信息以转化成简短的文本,供用户快速浏览对话内容。相比传统文本摘要,对话摘要数据具有篇幅较长、结构复杂等特点。传统的摘要模型难以充分地利用数据的长文本信息,并且无法考虑对话的结构信息。为此,结合抽取和生成模型,提出一种基于场景与对话结构的摘要生成方法,以对话中的场景、角色和对话内容为主要信息生成对话摘要。通过对话解析构建以角色、动作说明和会话为要素的对话结构图,并使用序列标注任务微调BERT预训练模型,生成以对话句子为单位的向量表示,利用图神经网络建模对话结构,筛选出包含关键信息的句子。在此基础上,将得到的抽取结果作为生成模型的输入,利用双向自回归变压器(BART)预训练模型作为基础框架,在编码端额外引入角色和场景信息,丰富生成模型的语义特征,使用加入多头注意力机制的解码器生成摘要。实验结果表明,相比BART、MV_BART、HMNet等方法,该方法在ROUGE-1指标上最高可提升5.3个百分点。
  • 郭奕裕, 周箩鱼
    计算机工程. 2023, 49(4): 312-320. https://doi.org/10.19678/j.issn.1000-3428.0064219
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
    现有的安全帽佩戴检测网络模型存在准确率低、推理速度慢、部署到边缘计算设备时精度和实时性均达不到应用要求等问题。提出一种轻量化设计的DT-YOLO模型,对YOLOv4-Tiny目标检测模型进行改进,通过增加一个检测层提高模型在密集场景下对小目标的检测能力,并引入空间金字塔池化模块,提高模型对不同尺寸目标的检测能力。使用局部稀疏因子衰减算法进行稀疏化训练,从而使经过稀疏化训练后模型的平均精度均值(mAP)得到提高。根据缩放系数判断通道的重要性,并进行模型的通道剪枝,压缩模型的大小和计算量。使用TensorRT推理加速引擎进行网络层水平和垂直融合,消除拼接层操作,并将参数压缩成16位浮点型,提高模型的推理速度,最后在Jeston Nano边缘计算设备上实现模型部署。实验结果表明,与YOLOv4-Tiny模型相比,DT-YOLO模型的mAP提高了3.6个百分点,模型大小减少了83.5%,帧率提高137.7%,能够满足安全帽佩戴检测的要求。