深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器提升1.2~6.0倍。
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。
空间数据系统咨询委员会高级在轨系统标准定义的空间数据系统分布式架构是提高星载系统整体可靠性的一种有效方案。国内通常采用基于MIPS架构的龙芯系列处理器作为该架构典型应用节点的航天器控制终端,但由于缺失自主可控的轻量型操作系统,限制了该架构在航天领域的部署与应用。为了构建自主可控的航天信息系统技术体系,实现在龙芯控制终端上移植适配国产轻量型开源鸿蒙操作系统的目标,通过分析开源鸿蒙操作系统LiteOS-M轻量实时内核与MIPS架构,聚焦硬件抽象层(HAL)和内核硬件相关部分,设计并实现一种包括引导系统启动加载、HAL架构适配、串口驱动、内核裁剪、工具链搭建的移植方案。为了验证移植后系统的基础功能与实时性能指标,在基于MIPS架构的龙芯星载控制终端LS1J与LS1C硬件平台上设计测试用例并开展实验。实验结果表明,轻量型开源鸿蒙操作系统成功适配MIPS架构,能够稳定可靠地运行在龙芯控制终端上,系统任务上下文切换时延为0.229 μs,中断响应时延为4.73 μs,满足实时性系统指标。
脉冲神经网络作为第三代神经网络,其工作机理与生物大脑更接近,层内连接与反向连接的复杂拓扑结构具有解决复杂问题的潜力。神经元和突触是脉冲神经网络中最基本的计算单元,相比于带泄露积分触发神经元模型,Izhikevich神经元模型能通过模拟出更多的生物脉冲现象来支持更广泛的类脑仿真计算,但Izhikevich神经元模型的计算复杂度更高,基于其搭建的脉冲神经网络存在低性能、高功耗的问题。提出一种基于FPGA的Izhikevich神经元定制计算方法。首先,通过研究脉冲神经网络中Izhikevich神经元各参数的取值范围以及平衡膜电位的相对误差与资源消耗,设计一套混合精度的定点化方案;其次,针对单个神经元,通过平衡神经元更新计算方程的数据路径实现最小化流水;再次,针对整体脉冲神经网络,设计并行度可扩展的计算架构以适应不同规模的FPGA平台;最后,把该定制计算方法用于经典的NEST仿真器加速。实验结果表明,相比于i7-10700 CPU,经典的丘脑外侧膝状核网络模型和液体状态机模型在ZCU102上的性能平均提升2.26和3.02倍,能效比平均提升8.06和10.8倍。
我国自主研发的新一代神威异构众核计算平台主要采用athread异构编程方法,athread异构编程属于大同步并行模型,难以充分挖掘程序中的细粒度并行性,其采用的同步方式难以实现众核上的任务负载均衡。数据流并行编程模型因其天然并行性、点对点同步的特点能够很好地解决上述问题。基于Codelet程序执行模型和申威主从核架构特点,设计并实现面向申威处理器的数据流运行时系统swTasklet,通过对Codelet功能的进一步细化和对Codelet机器模型到主从核的映射,避免从核阵列上的同步操作,减少同步开销;由主核完成从核计算任务的调度分配,将计算和同步操作分离,保证运行时系统可以和从核计算库的共用。实验以NPB LU程序和向量-向量加作为测试用例,采用相同的优化方法分别对swTasklet和athread实现进行并行化。实验结果表明:在规模较大情况下,LU程序的swTasklet实现版本比athread版本快16%,向量-向量加swTasklet实现版本比athread版本快1倍;使用swTasklet实现的LU并行版本较主核本取得了平均8倍以上的加速,而向量-向量加swTasklet版本较主核版本取得30倍左右的加速。
卷积神经网络(CNN)被广泛应用于目标检测等任务场景中。然而,传统的CNN加速器只对单帧图像进行加速处理,没有对视频任务中连续帧之间存在的数据冗余特性进行加速处理。目前利用帧间数据复用的CNN加速器存在稀疏度低、模型规模大以及计算复杂度高的缺点。为解决上述问题,通过可学习步长的低精度量化方法提高差分帧的稀疏度,提出量化因子2的幂次约束实现一个硬件友好的量化方法。使用Winograd算法降低卷积算子的计算复杂度,并在此基础上提出输入通道位图压缩方案,利用激活和权重的稀疏性跳过无效的零值计算。基于YOLOv3-tiny网络,使用ImageNet ILSVRC2015 VID部分数据集和DAC2020数据集,在现场可编程门阵列(FPGA)平台上对所提出的量化方法和稀疏CNN加速器进行验证。实验结果表明,在平均精度均值损失小于2%的条件下,该量化方法实现了4 bit位宽的全整形量化。得益于帧间数据复用,所设计的稀疏加速器实现了814.2×109operation/s的性能和201.1×109operation/s/W的能效比,与其他基于FPGA的同类型加速器相比,所设计的加速器提供了1.77~8.99倍的性能提升以及1.91~5.56倍的能效比提升。
探索事物之间的因果关系是数据科学的核心问题。在实际场景中,缺失值的存在给基于约束的方法和基于结构方程模型的方法带来巨大挑战。现有的缺失值因果学习方法虽然可以处理随机缺失数据上的因果结构学习问题,但是对于非随机缺失数据,学习因果结构网络中的因果对和马尔可夫等价类结构以及校正因缺失导致错误因果方向等仍未得到解决。为此,基于结构方程似然框架提出新的缺失值因果学习算法MV-SELF。利用非线性加性噪声模型的条件概率分布可以转换为噪声分布表示性质,设计一种基于最大化似然的评分,实现基于评分的因果结构搜索框架。同时,为解决非随机缺失下的因果结构学习问题,利用逆概率加权校正工具来恢复缺失数据的联合分布,从而校正因缺失导致的冗余边和错误因果方向,实现对缺失数据上的高维因果结构搜索。仿真实验结果表明,相比TD-PC、MVPC、Structure EM算法,MV-SELF的F1值提高了3%~19%,能有效区分马尔可夫等价类。
针对传统中文嵌套命名实体识别模型通常存在实体边界难以准确定位及中文字符与词汇之间边界模糊的问题,构建一种基于位置嵌入和多级结果边界预测的嵌套命名实体识别模型。在嵌入层,将嵌套实体位置信息与文本位置信息同时编码后生成绝对位置序列,通过关注中文文本中自带的位置信息,进一步挖掘嵌套实体与字符之间的关系,并且增强了嵌套实体与原始文本之间的联系。在编码层,利用排除最优路径的隐藏矩阵实现嵌套实体的初步识别。在解码层,计算实体边界的偏移量,重新确定实体边界,从而提高中文嵌套实体识别准确率。实验结果表明,在医疗和日常两个领域的数据集上,该模型的准确率、召回率、F1值相比于基线模型中的最优值分别提高了0.34、1.06、0.80和11.90、0.78、6.23个百分点,具有较好的识别性能。
蜜獾算法(HBA)是一种新型智能优化算法,通过模拟蜜獾觅食行为进行寻优,具有结构简单且收敛速度快等特点。针对HBA在解决高维复杂问题时收敛精度低、收敛速度慢以及全局寻优能力不足等问题,提出一种多策略改进的蜜獾算法(MSHBA)。设计一种限制反向学习机制,随着算法迭代生成限制反向解更新种群,提高种群质量,加快算法收敛速度,引入自适应权重因子,随着迭代次数的变化调节不同寻优路径上的寻优步长,协调算法不同探索阶段,提升算法稳定性,加快收敛速度,构建一种新的饥饿搜索策略,根据种群能量以及全局最差位置改变寻优路径上的寻优步长,避免算法陷入早熟。基于9个标准测试函数对MSHBA、HBA、鲸鱼优化、哈里斯鹰、单一策略等算法在不同维度上进行仿真实验,结果表明,MSHBA具有更优的稳定性和收敛精度,将算法应用于机械设计优化问题并进行结果比较,MSHBA对比原HBA性能优化了88%,适用于求解高维复杂问题。
多模态数据间交互式任务的出现对综合利用不同模态的知识提出了较高的要求,因此多模态知识图谱应运而生。在多模态知识图谱的构建过程中图像与文本实体是否指代同一对象尤为重要,这要求对中文跨模态实体进行实体对齐。针对该问题,提出一种基于多模态知识图谱的中文跨模态实体对齐方法。将图像信息引入实体对齐任务,面向领域细粒度图像和中文文本,设计单双流交互预训练语言模型(CCMEA)。基于自监督学习方法,利用视觉和文本编码器提取视觉和文本特征,并通过交叉编码器进行精细建模,最终采用对比学习方法计算图像和文本实体的匹配度。实验结果表明,在MUGE和Flickr30k-CN数据集上,CCMEA模型的平均召回率(MR)相比于WukongViT-B基线模型分别提升了3.20和11.96个百分点,并在自建的TEXTILE数据集上MR达到94.3%。上述实验结果证明了该方法可以有效对齐中文跨模态实体,并且具有较高的准确性和实用性。
现有命名实体识别模型对标注数据量要求较高,基于主动学习的命名实体识别模型需要人工分词造成标注代价大。针对上述问题,提出一种结合全局节点和多片段的格栅命名实体识别模型。将Transformer的全连接结构替换为全局节点和多片段结构,每个节点仅与构造的上下文向量进行注意力计算,全局和片段节点分别获取全局和局部信息,从而降低对标注数据的需求量。对Flat-Lattice结构进行改进,解决现有主动学习策略需要分词的问题,从而在保证模型性能的情况下降低数据标注代价。在MSRA、OntoNotes 5.0、Weibo、PeopleDaily这4个数据集上的实验结果表明,与FLAT模型相比,所提模型达到对应F1阈值所需的标注数据量分别降低了39.90%、2.17%、34.60%和35.67%。
基于冲突的搜索(CBS) 算法可以应用于连续时间假设下的多智能体路径规划问题,但是仍存在没有相应冲突识别方法与约束生成规则的问题,从而导致算法效率低下。为此,引入并改进人工智能规划领域中的互斥锁传播技术进行路径规划。首先通过多值决策图(MDD)中的终点可达信息判断冲突的基本类型,然后讨论不同MDD的深度,将冲突划分为基数冲突或非基数冲突,最后针对不同类型的冲突直接生成对应的约束集合,使得CBS下层算法根据约束集合一次性规划出最优路径。互斥锁传播技术提供了比特殊规则更加通用的方法,不仅可以识别出离散时间下的矩形冲突、廊道冲突等特殊基数冲突,还可以针对连续时间的情景,将识别出的基数冲突进行分类并自动生成不同冲突类别对应的约束集合。实验结果表明,使用互斥锁传播的CCBS算法相较于CBS框架下的前沿算法平均成功率提升了6.2%,平均运行时间缩短了38.6%,相较于非CBS框架下的前沿算法平均成功率提升了15.3%,平均运行时间缩短了56.8%。
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。
云计算和边缘计算技术可以有效解决网络边缘流量爆炸式增长带来的巨大存储和计算需求,但数据外包后用户的敏感信息可能会因云端和边缘设备的不完全可信出现泄露问题。为了解决该问题,提出云边协同下可排序的属性基可搜索加密方案。采用云边协同技术,将大量的密文存储到云服务器,使与其对应的加密索引上传到距离最近的边缘节点进行多关键字搜索和辅助解密,提高通信效率。采用TF-IDF规则使搜索结果中仅返回最符合用户需求的Top-k文件,从而实现多关键字排序。将用户的属性分为属性值和属性名,仅公开属性名,从而通过隐藏属性值的方式达到保护用户敏感信息的目的,同时采用在线/离线混合加密技术降低用户计算开销。基于DBDH和q-parallel DBDH假设证明了该方案在随机预言模型中的选择关键字攻击下满足不可区分性。分析结果表明,该方案在加密和陷门生成阶段的计算开销相比于次优方案降低了10%和25%,同时在解密阶段保持恒定,具有更高的密文检索效率。
通信协议可保障网络应用和物联网设备之间的通信,但其在设计或实现中存在的脆弱性会带来严重的安全威胁和隐患。模糊测试技术作为一种软件安全分析的有效方法,在针对网络协议的脆弱性分析中表现出高效的性能和无可比拟的优势。现有的针对网络协议的灰盒测试技术仍依赖于人工识别协议格式来辅助测试,并且变异策略的设计更偏向于位和字节的变异,忽略了协议消息本身的格式信息,导致在测试时性能不佳。针对上述问题,提出一种基于对齐聚类的智能化协议格式推断模型ProCluster,用于指导灰盒测试中协议状态机构建和种子的变异。该模型通过自动提取协议关键字和推断相应类型,辅助协议灰盒测试模型构建更精准的种子变异策略,从而生成更符合协议规范的测试用例,以此加速提升模糊测试的代码覆盖能力和脆弱路径发现能力。实验结果表明,在对TinyDTLS、OpenSSL等程序的模糊测试中,与典型协议灰盒测试工具AFLNet相比,ProCluster的边覆盖率能够提升75%~182%,并且在TinyDTLS中发现一个缓冲区溢出漏洞样本。
随着Java的类库越来越多,反序列化漏洞的类型和数量都急剧上升。Java反序列化漏洞中存在利用链,攻击者通常将其与任意命令漏洞结合控制服务器。人工检测反序列化链需要花费大量的精力,且依赖代码审计人员的专业知识。基于符号执行和污点分析提出一种自动检测方法,实现调用链检测工具Taint Gadget。通过解析字节码收集继承信息、传参信息和调用信息进行污点标记,筛选出入口函数和危险函数以生成控制流图。基于反序列化漏洞的传播特征并结合符号执行技术扩展控制流图,定义污点传播规则,对污染传播的显示流路径和隐式流路径进行约束,记录传播过程中调用链的类和敏感变量,通过动态的方法还原污染路径并进行验证。方法的实现基于ASM、Neo4j、Z3等工具,包括污点标记模块、污点传播模块和污点验证模块。在ysoserial数据集上的实验结果表明,Taint Gadget的静态命中率和运行时间分别为70.3%和78.4 s,动态命中率和运行时间分别为90.6%和20.8 s,相对T-Gadget Inspector和Gadget Inspector有效提高了静态和动态命中率,缩短了动态运行时间。
随着电力能源互联网的不断发展,电力监控系统成为关键的基础设施之一,负责监测和控制电力系统的运行。然而,由于电力终端设备需要长时间运行,经常分布式地安装在恶劣的环境中,因此需要设备具备低功耗的特性。同时,为保证数据传输的安全性,需要对数据进行加密和数字签名,签密算法可以在单个步骤中实现加密和签名,比传统方法更高效。提出一种适用于电力终端设备的无证书在线/离线签密方案,该方案基于椭圆曲线密码算法,避免了代价高昂的双线性对运算和哈希到点运算。将签密过程分为在线阶段和离线阶段,将代价高昂的计算放在离线阶段处理,在线阶段快速生成最终签密密文,使得方案更加适用于低功耗电力终端设备。实验结果表明,该方案的签密算法计算开销为基于双线性对的签密方案的7.85%,密文通信开销为对比方案的10%。所提方案为电力监控系统提供了一种高效的通信方式,有利于延长电力终端设备的寿命,提高电力系统的鲁棒性。
机场安防场景需要快速准确地对入侵目标进行检测及报警,现有的算法计算量大,无法满足实时处理需求。针对该问题,结合传统高斯混合模型的前景提取算法与轻量级神经网络,设计基于条件计算的轻量级入侵检测算法。在前景提取阶段使用基于信息熵的自适应学习因子更新算法动态更新高斯混合模型的学习因子,减小高斯混合模型面对镜头突入时造成模型失效的概率。目标检测阶段以ResNeXt作为主干网络,将小型ResNet作为策略网络,使混合感受野的深度可分离卷积作为残差块,设计基于条件计算的轻量级神经网络,降低网络推理时的计算量。实验结果表明,该算法在监控视频数据集和OTB100数据集上的误检率分别4.4%、9.2%,漏检率分别为2.3%、9.8%,与Faster-YOLO等传统目标检测算法相比,该算法在保证检测精度的情况下使检测速度平均提高了2.6倍。
天基高价值目标连续跟踪在态势预警、军事决策等方面有着广泛应用。目前基于遥感视频卫星的跟踪都是单星目标跟踪,由于低轨卫星过顶时间有限,因此难以进行连续跟踪。为了实现跨星接力跟踪,接力卫星在经过非连续时间的目标环境和观察视角变化后需要唯一地匹配出高价值目标,为此,采用卷积神经网络VGG19作为主干网络,提出一种基于深度特征的质量感知旋转舰船模板匹配算法。设计双级特征融合模块,通过融合不同深度的特征信息解决因舰船目标尺寸差异较大导致的匹配不准确问题;针对因环境变化导致的定位不准确问题,引入质量感知模板匹配模块;使用细粒度舰船角度定位模块,利用贝叶斯公式确定舰船方向信息,为跨星连续跟踪提供准确的模板。实验结果表明,该算法提高了舰船目标匹配准确率,相对于QATM、DDIS、SIFT方法,AUC分别提升了9.5、16.0和17.5个百分点,AP75分别提升了21.1、30.5和6.9个百分点,所提算法可以有效提高舰船模板匹配的精度,能够为实现卫星星座跨星连续跟踪提供技术支持。
在基于深度学习的目标检测算法中,YOLO算法因兼具速度与精度的优势而备受关注,但是将其应用于无人机遥感领域时存在检测速度较慢、计算资源要求较高、小目标检测精度不佳等问题。为此,提出基于YOLO的轻量级小目标检测算法SS-YOLO。使用轻量的主干网络提升算法的推理速度,根据特征金字塔网络分治思想,加入下采样倍数为4的高分辨特征图P2用于检测微小目标。为解决高分辨率特征图(P2、P3)中语义信息不足的问题,构建结合自适应融合因子的语义增强上采样模块。针对定位损失函数中IoU度量方法对目标尺寸敏感所带来的影响小目标定位精确性的问题,设计结合归一化Wasserstein距离度量方法与中心点距离惩罚项的LCNWD定位回归损失函数。实验结果表明,与YOLOv5s以及最新的YOLOv7-tiny相比,改进后的SS-YOLO模型参数量分别减少了31.3%和20.6%,与YOLOv7-tiny相比,mAP在VisDrone与AI-TOD数据集上分别提升了7.5和7.0个百分点;与YOLOv5s相比,mAP分别提升了2.3和3.6个百分点。当输入图片尺寸为800×800像素时,SS-YOLO的FPS为110帧/s,能够在满足无人机等边缘设备实时检测的同时,显著提升小目标的检测结果。
针对目标检测网络主分支层的特征信息易丢失、不同尺度的特征表达能力不平衡等问题,提出一种基于区域感知的多尺度目标检测算法。在YOLOv5的基础上采用数据增强、改进的边框损失和非极大值抑制方法,构建1个更强健的基线模型,沿着通道方向使用全局最大池化、全局平均池化、卷积等操作设计通道信息增强模块,并分别作用于骨干网络的每个主分支层,使得各个检测头在特征融合过程中也不会丢失主分支层的关键特征,以强化模型对重点区域的感知能力。利用加权特征融合方法融合不同尺度的特征信息,平衡不同尺度的输入特征对输出特征的表达能力,进而提高模型对多尺度目标的感知能力,通过调整模型的通道和深度,设计4种不同规模的网络结构。实验结果表明,相比YOLOv5s,该算法在Pascal VOC、MS COCO、Global Wheat、Wider Face、Motor Defect 5个数据集上的平均精度均值分别提高5.48、3.00、1.94、0.70和1.95个百分点。同时,该算法的平均精度均值最高为50.7%,分别比YOLOv4和Dynamic Head的最大模型提高7.2和3.0个百分点。
显著性目标检测算法大多存在单一特征检测缺陷和多特征融合不充分等问题,从而导致显著图边缘不清晰以及背景抑制效果较差。为此,提出一种多尺度视觉感知融合的显著性目标检测方法,该方法包含多尺度视觉感知模块(MVPM)和多尺度特征融合模块(MFFM),分别用于处理显著性目标的全局信息和融合多尺度特征。基于U型网络结构,利用空洞卷积模拟视觉皮层中的感受野以构建MVPM,充分发挥空洞卷积在卷积神经网络中的作用,在主干网络中逐级提取显著性目标的全局空间信息,有效增强前景显著性区域,抑制背景噪声区域。设计MFFM,利用特征金字塔和空间注意力机制将高级语义信息与细节信息相融合,在抑制噪声传递的同时有效恢复显著性目标的空间结构信息。在ECSSD、DUTS、SOD等5个具有复杂背景信息的图像数据集上进行实验,结果表明,该方法的平均F-Measure值达到88.4%,比基准网络U-Net提高14.2个百分点,MAE值达到3.5%,比基准网络降低5.4个百分点。
在交通标志检测任务中,YOLOv5检测算法在复杂的环境和路况下存在漏检、错检及模型参数量过大等问题。为此,提出一种改进的CGS-Ghost YOLO检测模型。YOLOv5在图片输入后使用Focus模块进行下采样,增加较多参数,CGS-Ghost YOLO模型使用StemBlock模块替换Focus模块进行采样,能够在维持精度的同时减少参数,并通过引入坐标注意力机制,强化特征中的语义信息和位置信息,提高模型的特征提取能力。设计SMU激活函数与组归一化相结合的CGS卷积模块,避免训练过程中Batch Size大小对模型所造成的影响,在使用GhostConv减少模型参数的同时,提升模型的检测精度。在此基础上,通过
针对传统图像去雾方法存在对比度下降、色调偏暗和过度曝光的问题,提出一种结合天空分割和金字塔融合的多尺度图像去雾方法。利用含有梯度的分水岭算法分割天空区域,使用均值滤波计算天空区域得分,运用最高得分所对应最亮天空区域的平均灰度值获取更准确的大气光值。为了规避传统图像去雾方法估计的透射率强度值偏低或整体强度值偏高造成的负面影响,提出一种基于图像金字塔的多尺度透射率融合方法,通过拉普拉斯图像金字塔分别将暗通道先验和具有曝光特性的图像去雾算法估计的透射率图分解为多个尺度,采用感知融合方法融合拉普拉斯图像金字塔的每一层,重建融合透射率图的高斯图像金字塔,高斯图像金字塔的最底层即为融合后的透射率图;最后将所估计的大气光值和融合透射率代入大气散射模型,复原无雾图像。实验结果表明,所提去雾方法能够避免所复原无雾图像中存在的对比度下降、色调偏暗和过度曝光的问题,在SOTS室内外合成测试集上的PSNR和SSIM分别比排名第2的对比方法高出8.13%、0.59%和1.75%、1.57%。
温室作物长势分析是近年来农业信息化领域中的研究热点,目前国内温室多用穴盘育苗的方式,其密集种植的特点和复杂的背景干扰给穴盘苗株的分割识别任务带来挑战。提出一种基于YOLACT-RFX的分割算法实现对穴盘内甘蓝苗株的高精度分割和苗期识别。通过引入递归特征金字塔结构加强甘蓝苗株叶片边缘处的特征提取能力,改进相邻穴盘孔位中相互干扰苗株的分割性能。在递归特征金字塔结构中利用空洞空间金字塔池化结构对尺寸和形状快速变化的甘蓝苗株进行特征识别。最后,融合ResNeXt主干网络提升算法精度,加快模型收敛速度。基于甘蓝苗自建数据集验证所提算法的有效性,实验结果表明,当交并比为0.5时,YOLACT-RFX算法的各类平均精度为84.4%,平均召回率为92.7%,相较于YOLACT算法分别提升了3.6%和3.9%。在同等情况下,分割效果优于MASK-RCNN、SOLO、QueryInst等算法。改进后的YOLACT-RFX算法可实现对不同生长期内甘蓝穴盘苗株的高精度分割,为温室自动化甘蓝苗期管理提供技术基础。
手语识别研究对于改善聋哑人生活质量具有重要意义,同时可促进人机交互领域的发展。针对手语视频中存在大量的无关帧、手语识别过程中手部细节信息提取不足、难以精确定位手语动作的位置和时间信息导致识别率不高等问题,提出一种基于关键帧和交互式注意力残差网络的手语识别方法。在数据预处理部分,设计基于图像相似度和模糊程度的关键帧提取算法,从基于Farneback光流法获取的大量候选关键帧中确定最终的关键帧,减少无关冗余信息。在网络部分,以3D-ResNet为基础框架,构建小卷积模块增强网络对手语视频中细粒度特征的提取能力,设计在捷径分支中采用池化卷积下采样方式的残差结构减小特征图失真程度,建立融合通道注意力和空间注意力的交互式四重注意力模块强化对目标区域关键特征的提取。实验结果表明,该方法在CSL和DEVISIGN数据集上取得了92.0%和92.2%的准确率,优于其他手语识别方法。
珊瑚礁底栖物质信息提取在珊瑚礁遥感监测领域具有重要意义。SVM、最大似然法等传统珊瑚礁底栖物质信息提取方法存在精度不高、不够自动化、时间成本较高等问题。目前深度学习方法在语义分割领域已有广泛应用,且取得了较好的效果,为此,利用深度学习技术设计一种基于改进U-Net的分割网络模型,以进行珊瑚礁底栖物质信息提取。为了保留分割细节,对编码器的每个层级设置一种多输入的方式。将ResNet34的残差部分结构作为网络的编码器,以提取更丰富的特征。结合分解卷积、注意力机制和通道混洗操作设计一种新的特征提取块,并将其代替编码器、底层和解码器中的普通卷积层。同时,通过注意力机制来改善U-Net模型的远跳连接,对权重进行调整,以提高分割精度。在三亚地区的GF-2多光谱遥感影像上进行实验,提取的地物类别分别为健康珊瑚礁、白化珊瑚礁、藻类混合物、沙、浪花、深海区和陆地,通过面向对象方法并结合Google Earth影像进行目视解译以修订建立数据集。实验结果表明,该模型的平均交并比和平均F1值分别达到67.17%和78.7%,与常用的分割模型相比,其在视觉效果和评价指标上更优,消融实验结果也验证了改进模块的有效性。
在智联网(AIoT)中引入联邦学习(FL)可以加强数据的隐私保护,然而分布式AIoT设备间的数据通常是非独立同分布的,标准的FL模型训练算法会使模型训练时出现客户机漂移的现象,导致收敛缓慢和不稳定。针对此问题,提出基于全局动量的联邦学习算法FedCNM。FedCNM将在AIoT服务器聚合的全局梯度信息发送至AIoT设备,让AIoT设备可以根据全局梯度信息来初始化本地模型,并标准化客户机模型的参数更新,以全局动量的方式平滑客户机模型的更新来缓解客户机漂移问题,加快模型的训练。在CIFAR-10和CIFAR-100数据集上模拟大规模设备、部分参与和不同数据分布场景进行仿真实验,结果表明,较对比方法,FedCNM在各种任务上训练的模型可以提高1.46%~11.12%的测试精度,且完成各种学习任务所需要的通信量最少。在CIFAR-10数据集上对比SGD+M、NAG、Adam和AMSGrad这4个本地优化器对算法的影响,实验结果表明,当本地使用基于动量的优化器SGD+M和NAG时,分别提高了10.53%和10.44%的测试精度。
安全帽佩戴检测是安全监控系统中的重要组成部分,其检测精度取决于目标分类、小目标检测、域迁移差异等因素。针对现有基于YOLOX-m模型的安全帽佩戴检测算法通常存在分类精度较低、检测目标不完整、轻量化模型性能下降等问题,构建一种基于多阶段网络训练策略的改进YOLOX-m模型。首先对YOLOX-m主干特征网络卷积块的堆叠次数进行重新设计,在减小网络规模的同时最大化模型性能,然后将残差化重参视觉几何组与快速空间金字塔池化相结合,提高检测精度和推理速度。设计一种多阶段网络训练策略,将训练集和测试集拆分成多个组,并结合推理阶段生成的伪标签进行多次网络训练,以减少域迁移差异,获得更高的检测精度。实验结果表明,与YOLOX-m模型相比,改进YOLOX-m模型的推理延迟降低了5 ms,模型大小减少了4.7 MB,检测精度提高了1.26个百分点。
光储充电站(PSCS)的规模化部署是电动汽车(EV)快速普及的关键因素。合理规划光储充电站的运行模式并有效调度多种能源,优化需求供给链,最大化运行效益,是光储充电站可持续运营发展的重点。针对目前光储充电站需求侧的不确定性和供给侧的协调性问题,面向汽车充电预约场景,在需求侧综合考虑汽车充电需求和剩余停车时长等因素,决策相应EV的充电方式。在供给调度侧设计一种基于带精英策略的遗传混合递推算法(EGAHR)进行能量优化调度,以最小化电网取电费用。以EV充电时间片为基本调控时间单元,通过协调需求侧和供给侧的调度信息,合理调度光伏、储能、电网等能源的能量,满足当前时间片内EV充电需求的同时优化系统电费。实验结果表明,基于EGAHR算法的策略相比基于遗传算法、灰狼算法、粒子群算法等经典算法的能量调度策略节约了2.1%~21.9%的充电成本。另外,EGAHR算法可以为多种不同的EV充电模型和差异化电价趋势模型提供参考,为PSCS合理配备储能系统和光伏提供科学经济的部署方案。
UCX是一个经过生产验证的优化通信框架,适用于当前的高带宽和低延迟高速网络。UCX作为“嵩山”国产高性能计算平台的通信中间件,提高了并行编程模型在InfiniBand(IB)高速互联网络上的开发效率,同时其性能也会直接影响上层应用的通信能力。基于“嵩山”超级计算平台,对平台上的UCX框架进行分析与性能测试,在此过程中归纳IB适配器通信存在的局限性以及UCX在通信传输选择中的不合理性。针对这些问题,根据“嵩山”超级计算平台的网络架构特点,在参数层面进行调优,使得UCX适配“嵩山”平台的Socket Direct架构;在代码层面修改UCX对传输的选择逻辑,使得UCX在选出共享内存传输后不再选择网卡进行传输,从而解决节点内的进程间通信抢占HCA卡资源的问题。同时,修正UCX中KNEM共享内存的带宽设置,使UCX在共享内存CMA和KNEM传输的选择上更加合理。实验结果表明,使用优化后的UCX在100个节点间进行allgather集合通信测试时,相对优化前延迟至多降低80%,节点内alltoall集合通信延迟至多降低70%,gather集合通信延迟至多降低45%。改进后的UCX通信库为“嵩山”超级计算平台上的并行编程模型和应用提供了更好的互联网络支撑,明显提升了平台的集合通信性能。
网络层析成像技术能通过测量目标网络的端到端性能测度来推断其拓扑结构,进而为攻击者开展更加精准的网络攻击行为提供支持。尽管网络拓扑混淆技术为对抗这类侦察行为提供了一种解决思路,但现有的网络拓扑混淆技术在探测模式识别准确度、对抗行为有效性等方面仍存在不足。为此,提出一种对抗多模式网络层析成像的拓扑混淆机制M2NTO。针对网络层析成像模式多样化的特点,M2NTO基于增量更新的动态决策树分类算法,构建一种能够在线对抗多样化探测行为的端到端性能参数扰动方法,以应对不同模式的层析成像拓扑探测手段。在多种典型真实网络拓扑上的仿真实验表明,M2NTO在多个场景中都能够以在线的方式准确识别不同模式的探测行为,探测流识别准确率在多个场景下都达到了98%以上,误报率维持在2%之内,探测流分类准确率达到95%以上,在此基础上,通过扰动相应的性能测度干扰攻击者的推断结果,使攻击者推断的网络拓扑与真实网络拓扑的相似度下降到60%以下,有效增强混淆拓扑生成的效能。
裂缝几何参数分析为评估隧道的健康状况提供了理论依据。为了提升裂缝参数计算的准确性,提出基于多源点热扩散的隧道裂缝几何特征计算算法。基于U-Net神经网络得到裂缝分割掩膜,设计以裂缝边缘为多源点的热扩散方法来计算裂缝区域的测地距离场,获取裂缝参数。提取裂缝边缘为源点进行热扩散,通过求解热流方程和梯度场找到距离增加方向,求解泊松方程得到裂缝区域的测地距离场,根据测地距离极值计算裂缝长度。该算法充分利用了裂缝复杂的边缘信息以及裂缝骨架特征,计算得到的测地距离场可进一步应用于计算裂缝宽度。基于测地距离场得到的裂缝骨架具有光滑、无多余分叉的优点,且裂缝宽度计算过程中避免了多次迭代和误差累积,减少了计算量。实验结果表明,该算法在测试集上的平均骨架匹配度为92.84%,相比于Zhang细化算法和Hilditch细化算法分别提升了2.57和1.41个百分点,断点和分叉数量也明显少于同类算法,适用于裂缝狭长弯曲、边缘复杂多变的几何特征计算。
基于重建的无监督异常检测方法由于不需要异常样本和预训练模型,被广泛地应用到异常检测任务中。然而,在实际应用中由于卷积神经网络的泛化性,模型能够有效地重建异常,使得难以通过重建误差来检测异常。现有方法通过使用合适的记忆块存储正常数据,将异常特征转化为正常特征,从而抑制异常重建,但不同的异常区域差异较大,记忆块尺寸的选择不当会导致重建模糊和重建异常等问题。考虑到这类方法在重建模型中的优势,提出一种基于改进记忆块存储的无监督异常检测方法。通过增加块金字塔记忆模块来适应不同面积大小的异常,并且不同尺度的块记忆模块通过读取、聚合得到多特征图融合的输出特征图,能够最大限度地保留正常样本的特征信息,增强特征信息的存储与表达,从而更好地重建正常数据。同时,为了增强重建清晰度,减少重建异常,在重建网络中增加skip connection结构。最后引入SSIM损失函数,通过亮度、对比度和结构3个维度来增强图像重建效果,并作为异常判定指标的组成部分,提高异常检测的精度。实验结果表明,相较于原始基于块存储和读取的重建模型,该方法平均AUC高出1.5%,具有更优的检测效果。
随着我国城镇化进程的不断推进,城市人口和车辆数量持续增加,大宗货物运输导致的空气污染与交通拥堵问题已成为影响居民生活和制约城市发展的重要障碍。为缓解特大型城市地面道路资源紧张的现状,提出建立深层隧道运输与浅层管廊运输相结合的多层级地下物流网络,将部分地面货流转移至地下从而释放地面运输能力。从投入成本、资源利用效率等多个角度出发,考虑地下运输的多级结构特征,构建多层级地下物流网络优化设计的整数规划模型,得出合理的布局方案。根据问题特征,提出基于人工免疫与模拟退火的双层算法,通过均值偏移聚类算法对解空间进行分解,预先筛除部分明显不合理的决策方案, 在此约束基础上通过双层启发式算法进行节点选址和流量分配优化决策,以建设与运营成本最小为目标,通过多次迭代得出地下物流多层网络规划方案。数值实验和案例分析结果表明,与传统的遗传算法相比,该算法解决节点布局与网络规划问题的寻有能力提升了2%~7%,平均计算时长降低约50%,验证了所建模型的合理性。