深度学习算法在脊柱图像分割中具有学习和自适应能力强、对图像有非线性映射能力等优点,相较于传统分割方法,能更好地提取脊柱图像中的关键信息,并且抑制不相关信息,辅助医生准确定位病灶区域,实现精准、高效分割。从深度学习算法、脊柱疾病类型、图像类型、实验分割结果、性能评估指标等方面,对深度学习在脊柱图像分割中的应用现状进行归纳、总结并加以分析。介绍深度学习模型和脊柱图像分割的背景,从而引出深度学习在脊柱图像分割中的应用;介绍常见的几种脊柱疾病类型,阐述其在图像分割中的难点,并介绍脊柱图像分割中常用的公开数据集、图像分割的方法流程以及图像分割评价指标等要素;结合具体实验总结分析基于卷积神经网络模型、U型网络模型及其改进的模型在椎骨、椎间盘以及脊柱肿瘤图像分割中的应用进展;结合以往的实验结果和当前深度学习模型的研究进展,总结目前临床研究的局限性以及分割效果不足的原因,针对所存在的问题提出相应的解决方法,并对未来的研究和发展进行展望。
基于深度学习的自然场景文本检测技术已成为计算机视觉和自然语言处理领域的重要研究方向,不仅具有广泛的应用前景,而且也为研究人员提供了一个探索神经网络模型和算法的新平台。首先,介绍自然场景文本检测技术的相关概念、研究背景和发展现状。接着,分析近年来基于深度学习的文本检测方法并将其分为基于检测框、基于分割、基于两者混合、其他4类,阐述4类经典和主流方法的基本思路和主要算法流程,归纳总结不同方法的使用机制、适用场景、优劣点及仿真实验结果和环境设置,明确不同方法之间的关联关系。然后,介绍自然场景文本检测的常用公共数据集和文本检测性能评估方法。最后,指出基于深度学习的自然场景文本检测技术目前所面临的主要挑战并对其未来发展方向进行展望。
随着工业领域对智能化要求的不断提高,工业物联网(IIoT)得到了快速发展,其可以有效提高工业生产中的流程效率和决策质量,具有广阔的应用前景。然而,近年来IIoT的安全问题逐渐凸显。针对远程指令控制这一应用场景,设计一种基于SM9标识密码算法的两方协同群签名算法,并结合区块链实现面向IIoT的远程安全指令控制方案,以保障IIoT中远程指令操作的安全性。该方案基于国密SM9标准,群管理员审核指令,并与发起指令签署请求的用户协同完成群签名,群签名在保护签名者身份隐私的同时可以由群管理员在必要时公开签名者身份。通过引入区块链技术,实现IIoT平台的去中心化管理,并通过智能合约获取指令执行历史数据,方便后续审计与追责。此外,方案在签名验证阶段通过批量验证来有效减少计算消耗。安全性及性能分析结果表明:在签名数量超过20条时,该方案通过批量验证的方式可以使得计算量减少50%以上;相较对比方案,所提方案在IIoT环境下安全性和实用性更高。
现有小样本分类方法局限于从每轮支持信息中归纳出类内共性,忽略了在迭代过程中类间关联性以及样本本身携带的类别信息。由于金属损伤纹理细微、多变,因此所形成的特征分布类间距离小、类内距离大。因特征分布聚合性差导致小样本分类性能降低且新类泛化性变差,提出一种基于内外双层训练模型架构的小样本金属表面损伤分类方法。内模型在利用度量手段完成元分类任务的同时,引入双模态特征作为外模型特征空间的信号,即在新映射空间下利用类别标签信息有监督地对比不同类别的图像特征、优化特征分布,使类间区分度更大、类内聚合度更高。在训练阶段中外模型反传对比损失,间接加强原有特征空间的表征能力,从而提高内模型的度量水平,提升分类精度。同时,利用类别嵌入作为动态类别中心,可以有效减少小样本问题中的噪声干扰,加强模型泛化性能。在GC10、NEU及APSD 3个常用的金属损伤数据集上的实验结果表明,相比ProtoNet、MatchingNet、RelationNet等主流方法,该方法具有较优的分类精度, 特别是新类别的泛化能力得到大幅提升, 5-way 5-shot设定下分类精度至少提高了5.24、1.39和6.37个百分点,分类错误下降率分别为36.00%、17.94%和66.15%;此外,新类分类精度分别从36.53%、82.43%、31.89%提升至69.12%、91.57%、48.23%。5-way 1-shot设定下分类精度分别至少提高8.34、3.01和4.61个百分点,分类错误下降率分别为28.32%、23.37%和46.57%。
随着芯片设计、制造、封装等流程的分工细化,利用第三方知识产权(IP)软核进行二次开发可以明显提升设计效率,减少重复工作。但是大量非自主可控IP软核被用于加速设计时,可能导致芯片在设计阶段被植入硬件木马,使得芯片安全性难以保证。当前IP软核安全检测方法主要依赖功能测试、代码覆盖率和翻转率分析,或在语义层面进行关键字匹配,且无法对加密IP软核进行检测。在分析硬件木马结构及其在IP软核中实现特征的基础上,利用非可控IP软核与“Golden”IP软核中寄存器传输级(RTL)代码灰度图谱的特征差异,基于Trust-Hub构建“Golden”软核集,提出基于灰度图谱特征的IP软核硬件木马检测模型和算法。以功能篡改型IP软核B19-T100为实验对象,通过调整合适的成像矩阵参数,利用分块匹配对比方式实现硬件木马检测,结果表明,该算法的检测精度达97.18%。在对B19、B15、S38417等5类共18个样本进行测试时,所提算法的平均检测精度达92%以上,表明其可实现对硬件木马的有效识别,检测精度和适用性较强。
语音唤醒词检测(WWD)是语音交互中的关键技术,选择合适大小的检测窗对WWD性能的影响很大。提出一种新的多模型融合方法,通过融合小检测窗和大检测窗的检测结果来提高WWD性能。多模型融合方法包含两个分类模型,分别使用小检测窗和大检测窗,均基于轻量化的挤压与激励残差网络(SE-Res2Net)模块,即Ghost-SE-Res2Net,SE-Res2Net结构的多尺度机制可显著提升WWD的能力。在Ghost-SE-Res2Net中,首先使用Ghost卷积替换SE-Res2Net中的普通卷积以降低模型参数量,然后使用注意力池化层替换SE-Res2Net中的全局平均池化层进一步提升WWD能力。在实际检测时融合连续3个小检测窗模型的检测结果的最大值和1个大检测窗模型的检测结果,来判断唤醒词是否被触发。在训练时引入困难样本挖掘算法,选择性地学习较难检测的唤醒词信息以提高分类模型的检测性能。在包含2个唤醒词的Mobvoi数据集上评估系统性能,实验结果表明,在每小时0.5次错误唤醒的情况下,该系统在2个唤醒词上的错误拒绝率分别为0.46%和0.43%,实现了与先进基线相似的性能,并且系统参数量比基线少31%。
间隙约束序列模式挖掘作为序列模式挖掘的一个重要分支,可以发现模式在序列中的重复出现。然而,当前研究主要针对单项序列进行挖掘,并且序列中每一项都被认为具有相同意义。为解决该问题,提出一次性弱间隙序列模式挖掘(OWP)算法,该算法由准备阶段、支持度计算和候选模式生成3个步骤组成。在准备阶段,建立倒排索引,并对不频繁的项进行剪枝;在支持度计算方面,利用倒排索引结构记录出现位置,避免对原始数据集的重复扫描;在候选模式生成方面,采用模式连接策略,减少冗余候选模式的生成。在项集序列和单项序列共6个真实数据集上的实验结果表明,OWP算法相比OWP-p、Ows-OWP和OWP-e算法在运行时间上分别提升了2.653、1.348、3.592倍,在内存消耗上分别减少了3.51%、0.07%、5%,说明OWP算法可以更高效地挖掘出用户感兴趣的模式。此外,OWP算法在以D1数据集为基础的6倍大小的数据集上的运行时间比D1数据集增长了3.763倍,内存消耗增长了2.310倍,运行时间和内存消耗的增加倍数均小于数据集大小的增加倍数,说明OWP算法具有良好的可扩展性。
方面级情感分析是自然语言处理的研究热点之一,其任务目的是预测句子中给定方面的情感极性。目前已有研究大多忽略了方面词和特定词性单词在过滤情感极性相关上下文语义信息和理解上下文语法信息中的作用。为此,提出一种基于方面-词性感知的图卷积网络ASP_POSGCN。采用双向长短期记忆网络建模上下文和词性信息,经由门控机制筛选方面词相关上下文语义信息,再使用词性信息隐藏层状态进一步过滤;同时设计方面-词性感知矩阵算法,根据不同词性单词对方面词情感极性的贡献重构句子原始依存关系以获取重构依存句法图,将原始依存句法图和重构依存句法图应用于双通道图卷积网络和多图感知机制;最后,使用过滤后的上下文语义信息与双通道图卷积网络的输出计算注意力得到最终分类表示。实验结果表明,该模型在Twitter、Laptop14、Restaurant14和Restaurant16 4个公开数据集上的准确率分别为74.57%、79.15%、83.84%、91.23%,F1值分别为72.59%、75.76%、77.00%、77.11%,与传统方面级情感分析基准模型相比均有提升,有助于方面级的情感极性分类。
针对多智能体系统编队控制过程中面临的性能约束、输入饱和、通信资源受限等问题,研究一类具有规定性能的高阶非仿射多智能体系统编队控制问题,提出一种有限时间动态事件触发编队控制策略。首先利用反步法设计控制律,并引入微分跟踪技术解决“计算爆炸”问题,有效避免对复杂虚拟控制律的求导过程;其次采用模糊逻辑系统估计系统内部的不确定性,通过设计性能函数和饱和补偿系统使得多智能体满足规定瞬态性能并防止输入饱和所带来的影响;随后为了解决通信资源受限的问题,构造一个具有动态阈值的自适应事件触发协议,有效减少控制器与执行器之间的通信量;最后利用李雅普诺夫稳定性理论分析闭环系统的稳定性,保证编队误差将渐近收敛至0且系统中所有信号均有界。采用含有1个领导者和5个跟随者的多智能体模型进行仿真验证,结果表明,在该有限时间动态事件触发编队控制策略下,多智能体系统最终形成以领导者为圆心、跟随者都在圆上的编队队形,且编队误差在规定的范围内演化。
事件检测是事件抽取中的关键步骤,依赖于触发词进行事件类型分类。现有主流事件检测方法在稀疏标记数据上性能较差,模型过度拟合密集标注的触发词,在稀疏标记的触发词或者未见过的触发词上容易失效。改进方法通常通过扩充更多训练实例来缓解这一问题,但扩充后的数据分布不平衡,存在内置偏差,仍然表现不佳。为此,建立一种融合词性语义扩展信息的事件检测模型。对词粒度扩展信息进行分析,在不增加训练实例的条件下缩小候选触发词的范围,并对候选触发词进行语义扩展,挖掘候选触发词的上下文中蕴含的丰富语义,缓解了标记数据稀疏造成模型训练不充分的情况。通过词性筛选模块寻找候选触发词并对其进行语义扩展挖掘词粒度语义信息,融合句子粒度语义信息提升语义表征的鲁棒性,最终利用Softmax分类器进行分类完成事件检测任务。实验结果表明,该模型在ACE2005和KBP2015数据集上的事件检测任务中的F1值分别达到79.5%和67.5%,有效提升了事件检测性能,并且在稀疏标记数据实验中的F1值达到78.5%,明显改善了标记数据稀疏带来的不良影响。
现有的中文复述生成模型在对包含专有名词的原句生成复述句时经常丢失原句中的专有名词,造成复述句的语义偏移,降低复述句的可用性,进而影响其在下游任务中的应用效果。为了解决这类问题,提出专有名词增强的复述生成方法。针对包含单个专有名词的原句构建基于占位符的复述生成模型,通过将训练句对中的专有名词用占位符替换,训练模型对占位符的保留能力;针对包含多个专有名词的原句构建词汇约束的复述生成模型,通过将专有名词列表与原句拼接并进行区分,训练模型对多个专有名词的识别和复制能力,提高复述句对专有名词的保留率。此外,综合考虑语义一致性和表达多样性,提出参考句无关的复述句质量评价指标用来评估生成复述句的质量。以真实对话系统业务中的意图识别冷启动任务为下游任务,对比不同模型生成复述句的质量以及在意图识别任务上的准确率。实验结果表明,词汇约束的复述生成模型能够生成与原句语义一致且表达具有多样性的高质量复述语料,对应语料训练得到的意图识别模型准确率最高,相较于未考虑专有名词的复述模型,意图识别模型的准确率提高了5.38%。
空间负荷预测为合理建设和使用变电站、馈线等提供了重要的指导,成为配电网规划中不可或缺的一部分。配电网规划的精细化产生了大量高分辨率的负荷数据,社会的快速发展使得地块的用电特征日趋复杂。当前的空间负荷预测没有充分考虑负荷数据之间的时间特性,且在预测过程中也未考虑到不同类型地块间可能存在的负荷峰值出现时间不一致问题。为此,提出一种空间负荷预测方法,通过基于多尺度限制对齐路径长度(LDTW)的谱聚类分析用户的负荷曲线在形状上的相似性,并提取不同地块的典型用电行为,以进一步分类确定同类型地块对应的同时率。多尺度LDTW通过限制序列之间匹配步长的上限来抑制病态匹配的产生,提高曲线相似性的综合评估能力。根据聚类结果筛选适合待预测区域的训练样本并构建基于时间卷积网络(TCN)的回归预测模型,将预测结果基于地块各自的同时率进行聚合,实现空间负荷预测。实验结果表明:该方法加强了对负荷曲线形状的分析和对不同类型地块同时率的区分,在聚类方面,DBI指数达到0.57,Ⅵ指数达到0.31;在预测方面,相对误差达到1.93%,决定系数达到0.941,相比其他典型方法均取得了较大改善。
针对满足细节平衡结构的对抗交互多智能体系统,研究多率采样机制下其动态事件触发二分一致性问题。在多率采样机制下,通过构造一个多率缓存器解决多率采样时序不匹配的问题,设计一类多率观测器便于获得系统的估计状态以实现目标控制。通过引入动态事件触发机制,多率观测器在事件触发时刻广播其状态数据至通信网络中的邻居智能体。每个智能体基于触发时刻的观测器状态信息,利用一组开环估计器以获得连续的智能体状态估计值。在此基础上,设计一个分布式控制协议,利用代数黎卡提方程和李雅普诺夫稳定性理论证明系统可以在细节平衡的多智能体系统通信网络中实现二分一致性,并且排除动态事件触发可能导致的芝诺行为。通过一个包含3种不同采样机制和控制方案的对比仿真,证明了所提控制方案的有效性,表明多率采样机制相较于传统的单率采样机制具有更快和更稳定的收敛性能,并且动态事件触发相较于静态事件触发可以进一步降低触发次数。
针对疫苗配送路径优化问题,在同时考虑固定成本、运输成本、制冷成本、碳排放成本和惩罚成本的情况下,提出以疫苗配送成本最小化为目标的车辆路径优化模型。为求解模型,在平衡优化器算法中引入模拟退火算法,改进平衡优化器算法容易陷入局部最优的不足,通过加入可变参数,提升算法平衡全局搜索和局部寻优的能力,得到一个能够稳定求出较高质量解的混合平衡优化算法。对2种不同规模的算例分别进行20次实验,将混合平衡优化算法与并行平衡优化算法、知识型蚁群算法、混合变邻域搜索算法、改进混合粒子群算法和平衡优化器算法进行对比。实验结果表明,混合平衡优化算法在小规模算例和大规模算例下得到的最小配送成本和配送成本的标准差都小于其他5种算法,其中,在小规模算例下进行实验后得到的最小配送成本分别为其他5种算法的73.5%、53.9%、69.1%、64.1%和33.4%。
因果自回归流模型已经在非独立噪声等场景的因果方向推断问题上取得了一定的进展,但在多个结点的场景下仍存在全局结构搜索带来的准确度低和计算时间复杂度高的问题。面向非时序观察数据设计一种两阶段因果结构学习算法。在第一阶段,基于观测数据的条件独立性,对完全无向图通过条件独立性检验得到基本的因果骨架;在第二阶段,基于因果自回归流模型,通过标准化流的方法计算骨架中每条无向边在不同方向上的边缘似然概率,进而通过比较边缘似然概率进行因果方向推断。实验结果表明:该算法在多组不同参数生成的仿真因果结构数据集上均有较好的表现,与现有的主流因果结构学习算法相比,F1值平均提升15%~28%;在真实因果结构数据集实验中,该算法能够较为完整准确地学习到变量间的因果关系,与主流的因果结构学习算法相比,F1值平均提升28%~48%,具有更强的鲁棒性。
分片是解决区块链可扩展性问题的核心技术,然而现有分片方案普遍采用预定分片规模的静态分片方式,这与公链开放低门槛的分布式环境不匹配。当网络中的节点数大幅增加时静态分片方式难以及时充分地发挥全部节点的性能,当网络中的节点数大幅减少时又会增加分片内的安全隐患。为此,构建一种自适应节点规模变化的动态分片可扩展模型(DSSM)。在基础分片上建立分层的逻辑分片,通过支持状态归约允许节点在不同层级的分片上进行状态同步。在逻辑与基础分片间建立满二叉树的逻辑关系,通过分片的动态分裂和合并来扩张和收缩分片规模,实现分片规模的自适应调整。实验结果表明,DSSM在节点数量大幅增加时通过自适应扩展分片规模使网络吞吐量得到了近乎翻倍的提升,在节点数量大幅减少时通过自适应收缩分片规模保证了网络的最低安全要求。
联邦学习技术的飞速发展促进不同终端用户数据协同训练梯度模型,其显著特征是训练数据集不离开本地设备,只有梯度模型在本地进行更新并共享,使边缘服务器生成全局梯度模型。然而,本地设备间的异构性会影响训练性能,且共享梯度模型更新具有隐私泄密与恶意篡改威胁。提出云-边融合的可验证隐私保护跨域联邦学习方案。在方案中,终端用户利用单掩码盲化技术保护数据隐私,利用基于向量内积的签名算法产生梯度模型的签名,边缘服务器通过盲化技术聚合隐私数据并产生去盲化聚合签名,确保全局梯度模型更新与共享过程的不可篡改性。采用多区域权重转发技术解决异构网络中设备计算资源与通信开销受限的问题。实验结果表明,该方案能够安全高效地部署在异构网络中,并在MNIST、SVHN、CIFAR-10和CIFAR-100 4个基准数据集上进行系统实验仿真,与经典联邦学习方案相比,在精度相当的情况下,本文方案梯度模型收敛速度平均提高了21.6%。
在高维数据空间中,数据大都处于高维空间边缘且分布十分稀疏,由此引起的“维度灾难”问题导致现有异常检测方法无法保证异常检测精度。为解决该问题,提出一种基于角度的图神经网络高维数据异常检测方法A-GNN。首先通过数据空间的均匀采样和初始训练数据的扰动来扩充用于训练的数据;然后利用k近邻关系构造训练数据的k近邻关系图,并以k近邻元素距离加权角度的方差作为近邻关系图节点的初始异常因子;最后通过训练图神经网络模型,实现节点间的信息交互,使得相邻节点能够互相学习,从而进行有效的异常评估。在6个自然数据集上将A-GNN方法与9种典型异常检测方法进行实验对比,结果表明:A-GNN在5个数据集中取得了最高的AUC值,其能够大幅提升各种维度数据的异常检测精度,在一些“真高维数据”上异常检测的AUC值提升达40%以上;在不同k值下与3种基于k近邻的异常检测方法相比,A-GNN利用图神经网络节点间的信息交互能有效避免k值对检测结果的影响,方法具有更强的鲁棒性。
联邦学习能够在不泄露数据隐私的情况下合作训练全局模型,但这种协作式的训练方式在现实环境下面临参与方数据非独立同分布(Non-IID)的挑战:模型收敛慢、精度降低的问题。许多现有的联邦学习方法仅从全局模型聚合和本地客户端更新中的一个角度进行改进,难免会引发另一角度带来的影响,降低全局模型的质量。提出一种分层持续学习的联邦学习优化方法(FedMas)。FedMas基于分层融合的思想,首先,采用客户端分层策略,利用DBSCAN算法将相似数据分布的客户端划分到不同的层中,每次仅挑选某个层的部分客户端进行训练,避免服务器端全局模型聚合时因数据分布不同产生的权重分歧现象;进一步,由于每个层的数据分布不同,客户端在局部更新时结合持续学习灾难性遗忘的解决方案,有效地融合不同层客户端数据间的差异性,从而保证全局模型的性能。在MNIST和CIFAR-10标准数据集上的实验结果表明,FedMas与FedProx、Scaffold和FedCurv联邦学习算法相比,全局模型测试准确率平均提高0.3~2.2个百分点。
比特币可以在不透露使用者身份的情况下进行交换,导致其成为不法分子在暗网上进行违法活动的主要方式。为了追踪比特币非法交易,传统方法根据比特币的伪匿名性,在整个区块链上进行启发式地址聚类,没有充分利用比特币地址在暗网上的信息。2021年Tor官方全面启用v3洋葱域名,使得以往的v2洋葱域名数据无法再作为分析的依据。设计并实现基于v3洋葱域名的比特币地址威胁程度的一体化分析框架TLAFDB。信息收集模块使用境外服务器解决地域限制并设置socks5h代理以支持暗网爬虫运行,使用洋葱种子地址在暗网中爬行收集最新的v3洋葱域名数据,信息清洗模块采用可同时覆盖Base58和Bech32编码的正则表达式以提取v3洋葱域名网页中的比特币地址,通过区块链搜索引擎Blockchain.com筛选存在真实交易的比特币地址,并建立其和所在v3洋葱域名的关联关系,信息分析模块采用人工分析和关键词匹配相结合的方法分类v3洋葱域名,赋予其关联的比特币地址类别和流行度并判定威胁程度。实验结果表明,TLAFDB收集了23 627个v3洋葱域名网页,提取并分析1 141个存在真实交易的比特币地址的类别、流行度和威胁程度,发现在暗网中同一个比特币地址常出现在大量的镜像洋葱域名网页上,超过95%的比特币地址被恶意使用,并且庞氏骗局交易量占高危比特币地址总交易量的99%。
数据保护的约束使得数据被限制在不同企业和组织之间,形成了众多“数据孤岛”,难以发挥其蕴含的重要价值。联邦学习的出现使得数据在组织之间共享成为可能,但利益分配方案不明确、通信成本高、中心化等问题使其难以满足数据交易场景的多方位需求。针对这些问题,提出一种基于联邦学习的多技术融合数据交易方法(MTFDT)。通过结合可信执行环境与沙普利值进行激励机制设计,并对交易过程中模型数据同步机制进行优化,提出一种基于树型拓扑结构的模型同步方案,使得同步时间复杂度由线性级降低至对数级。同时,设计基于区块链的利益分配数据和模型数据存储方案,使得交易过程信息不可篡改并能够通过溯源的方式进行追责。基于公开数据集进行仿真对比,实验结果表明,MTFDT能够实现模型训练效果的精确评估,提高利益分配的公平性,相比已有方案,模型同步时间消耗最多减少34%且对带宽要求更低。
现有卷积操作在语义分割任务中难以有效捕捉长距离区域间的关系,导致分割结果不符合人类常识。为此,提出一种基于深度监督隐空间构建的语义分割改进方法。采用“特征图-隐空间-特征图”流程,将图像空间的像素特征转换为隐空间中的节点特征,将区域之间的位置和语义关系转换为节点之间的连接权重,实现了从特征图到隐空间的特征转换。在隐空间构建过程中,使用Kullback-Leibler散度损失函数监督投影矩阵,以避免从特征图到隐空间节点的转换过程中丢失特征;使用InfoNCE损失函数监督节点特征表征与真实标签表征,使得图像特征与标签保持一致。该方法在构建的隐空间上使用图神经网络进行语义推理,学习节点之间的关系,赋予模型学习区域间语义关系的能力,从而改善分割结果中的反常识现象。在公开数据集CityScapes上的实验结果表明,相比基线分割网络,该方法的平均交并比(mIoU)为81.1%,相较于基线分割网络mIoU提升2.6个百分点,能有效提升分割结果。
足球比赛场景的三维重建有助于观众自由切换视角,增加了互动性和沉浸感。针对足球比赛场景中的足球球员,提出一种三维姿态和体型估计方法。对球员的多视图图像使用训练好的部分注意力回归的三维人体估计(PARE)模型生成初始的三维姿态和体型估计,并使用人工标注的二维关节点作为优化目标。单-多视图优化操作利用蒙皮多人线性模型(SMPL)和正交投影的可微性,将球员的三维姿态和体型参数映射到二维关节点,计算其与人工标注之间的差异,再使用神经网络的反向传播算法更新三维姿态和体型参数,持续这些过程直到差异最小化。在自建的足球球员多视图数据集上的实验结果表明,该方法能够有效估计足球球员的三维姿态和体型,与人体网格恢复、在循环中优化SMPL、PARE等方法相比,二维关节点精度在单视图上提高了9.2%~37.5%,在多视图交叉验证中提高了34.9%~54.1%。
基于表面肌电信号(sEMG)的手势识别在人机交互中发挥着重要作用,然而,由于sEMG具有非线性和随机性,因此提升基于稀疏多通道sEMG的手势识别准确率难度较高。提出一种融合注意力机制的多视图卷积手势识别模型。首先使用200 ms滑动窗口提取经典的sEMG特征集构建多视图输入,其次利用高效通道注意力对多视图特征在通道维度进行加权,以强化有效特征同时弱化无效特征,最后通过多视图卷积从带有注意力权重的肌电特征中提取高层特征,利用高层特征融合模块对其进行融合以降低数据维度并提高模型鲁棒性。在NinaPro DB1、NinaPro DB5、NinaPro DB7 3个肌电公共数据集上进行训练和评估,结果表明,该模型在200 ms滑动采样窗口上的平均识别准确率分别为87.98%、94.97%和89.67%,整段手势动作的平均投票准确率分别为97.38%、98.41%和97.09%,平均信息传输率为1 308.71 bit/min。与传统机器学习方法和近年来前沿的深度学习手势识别方法相比,所提模型在单模态肌电和多模态手势识别上均具有更高的识别准确率,验证了其有效性和通用性。
深度神经网络对真实图像有较强的去噪能力,可以学习含噪图像和干净图像之间复杂的非线性映射关系。然而,过多的卷积操作导致计算成本增加并占据大量内存,限制了去噪技术在低运算能力设备中的应用,现有去噪算法容易损坏细节信息,恢复图像存在边缘过度平滑、纹理缺失、含有残留噪声等问题。针对这些问题,构造一种多级残差信息蒸馏模块。通过对特征通道进行分割,保留部分特征用于后续多级融合,并进一步通过深度提取单元提取细化后的特征信息;引入对比度感知通道注意力机制对不同通道的特征分配权重;使用多级跳跃连接充分融合不同阶段提取到的上下文信息。构建1个轻量级的多级残差信息蒸馏网络,采用块间复杂度低的编码-解码结构,编码部分为含噪图像特征提取模块,解码部分为干净图像恢复模块。为了加快训练速度,采用混合图像尺寸的渐进式训练方法。实验结果表明,该方法在SSID和DND真实图像数据集上的峰值信噪比分别为39.43 dB和39.49 dB,与其他网络相比提升了0.17~15.77 dB和0.02~7.06 dB,而模型参数量仅为6.92×106,所提模型在提高去噪性能的同时具有较少的参数量。
针对低重叠场景下点云配准方法鲁棒性差、配准精度低的问题,提出一种基于空间可变形Transformer(SDT)的三维点云配准方法。设计多级分辨率特征的提取与融合方法,显式计算点云的局部空间关系。利用SDT模块增强点云空间特征的表达能力,聚合局部与全局的特征得到特征矩阵。计算两个特征矩阵的相似度矩阵并额外地为其添加边缘松弛块,有效降低了不可行匹配对配准鲁棒性的影响,同时对相似度矩阵进行归一化等计算得到软对应置信度矩阵,根据预测的对应点空间特征是否一致来寻找点云在低重叠场景下更精确的对应关系,使用直接定义在对应关系上的损失来训练网络,将软对应关系转换为一对一的硬匹配关系,最终通过随机抽样一致性刚性变换求解器执行配准。实验结果表明,在重叠率低于30%的3DLoMatch场景中,该方法的特征匹配召回率和配准召回率相比于高度关注重叠区域的成对点云配准等方法至少提高了3.7和3.9个百分点,并且具有较强的鲁棒性。
聚焦形貌恢复是非接触式三维重建领域中的重要技术手段。由于环境的影响和相机本身的限制,图像采集过程中会不可避免地产生噪声信息,影响重建精度。针对该问题,提出一种高精度、抗噪声的聚焦形貌恢复算法。使用聚焦评价函数对离焦序列图像进行评价,得到聚焦评价序列图像,并使用高斯拟合峰值法定位像素聚焦位置获得初始深度图。在此基础上,通过像素的聚焦评价曲线与灰度曲线之间的相似度衡量深度估计置信度,生成初始深度图的置信图,并将置信图作为引导图对初始深度图进行引导滤波,得到优化后的深度图。使用多组仿真离焦序列图像与真实显微离焦序列图像对所提方法进行性能验证, 实验结果表明:所提方法在仿真与真实离焦序列中均能表现出优良的三维重建效果,在真实数据实验中,所提方法的所有指标均优于基于深度图优化的方法,与传统方法相比均方根误差分别降低64.8%和47.3%以上,相关系数分别提高2.18%和6.35%以上,具有更高的精度和更强的抗噪性,能有效提高聚焦形貌恢复精度。
针对在动态场景下视觉同步定位与建图(SLAM)鲁棒性差、定位与建图精度易受动态物体干扰的问题,设计一种基于改进DeepLabv3plus与多视图几何的语义视觉SLAM算法。以语义分割网络DeepLabv3plus为基础,采用轻量级卷积网络MobileNetV2进行特征提取,并使用深度可分离卷积代替空洞空间金字塔池化模块中的标准卷积,同时引入注意力机制,提出改进的语义分割网络DeepLabv3plus。将改进后的语义分割网络DeepLabv3plus与多视图几何结合,提出动态点检测方法,以提高视觉SLAM在动态场景下的鲁棒性。在此基础上,构建包含语义信息和几何信息的三维语义静态地图。在TUM数据集上的实验结果表明,与ORB-SLAM2相比,该算法在高动态序列下的绝对轨迹误差的均方根误差值和标准差(SD)值最高分别提升98%和97%。
针对拥挤行人检测场景下检测算法容易产生漏检与误检的问题,提出一种改进的YOLOv7拥挤行人检测算法。在骨干网络中引入BiFormer视觉变换器和改进的高效层聚合网络(RC-ELAN)模块,通过自注意力机制与注意力模块使骨干网络更多聚焦于被遮挡行人的重要特征,有效缓解了目标特征缺失对检测造成的负面影响。采用基于双向特征金字塔网络思想的改进颈部网络,通过转置卷积和改进的Rep-ELAN-W模块使模型可以高效利用中低维特征图中的小目标特征信息,有效提升了模型的小目标行人检测性能。引入高效的完全交并比损失函数,使模型可以进一步收敛至更高精度。在含有大量小目标遮挡行人的WiderPerson数据集上的实验结果表明,与YOLOv7、YOLOv5、YOLOX算法相比,改进的YOLOv7算法的交并比阈值分别取0.5和0.5~0.95时的平均精准度提升了2.5和2.8、9.9和7.1、12.3和10.7个百分点,可较好地应用于拥挤行人检测场景。
目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理长序列文本时无法准确捕捉到符合上下文语境的向量嵌入,提升动态向量语义表征质量,解决一词多义问题,并通过一维卷积模块提取不同尺度的短语级别嵌入。多尺度上下文网络通过结合内置自注意力简单循环单元和全局注意力机制,分别捕捉单词、短语和句子级别的作文高维潜在上下文语义关联关系,利用句向量与作文主题计算语义相似度提取篇章主题层次特征,将所有特征输入融合层通过线性层得到自动评分结果。在公开的标准英文作文评分数据集ASAP上的实验结果表明,MSC模型平均二次加权的Kappa值达到了80.5%,且在多个子集上取得了最佳效果,优于实验对比的深度学习自动评分模型,证明了MSC在英文作文自动评分任务上的有效性。
股市趋势预测是机器学习领域中一个具有挑战性的任务。由于一些因素对于股市的影响是动态且不确定的,导致股市趋势难以预测。针对已有方法在股市预测时存在的灵敏性差、适应力弱等问题,从快变量和慢变量的传动关系出发,利用Agent技术对股市中的快周期和慢周期进行联合建模,提出一种多Agent传动影响图(MATID)股市趋势预测方法。给出股市中快周期和慢周期的划分标准,并引入周期能量的概念;通过对相关趋势指标的特征融合,给出周期能量的量化计算方法;通过分析快周期和慢周期的动态作用过程,给出传动因子的表示方法;将快周期和慢周期分别对应成不同的Agent,利用多Agent影响图模型建模快周期和慢周期的传动过程;利用股市振子模型表示快Agent和慢Agent之间的传动效用,利用联合树的自动推理技术对股市趋势进行预测。在不同样本数量和不同股市趋势下进行实验,结果表明,与门控循环单元、S-LSTM和Hybrid-RNN预测方法相比,MATID方法预测精确率提升1.5%~7.0%,召回率提升5.4%~6.7%,F1值提升3.7%~6.2%,具有良好的灵敏性和适应力。
自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不佳且检测速度减慢。融合Swin Transformer和YOLOX目标检测算法的优秀策略,提出一种基于SwinT-YOLOX网络模型的自动扶梯行人摔倒检测算法。采用Swin Transformer模型作为骨干网络,颈部网络使用添加注意力机制的YOLOX模型,进一步提升特征图的多样性和表达能力。此外,利用漏斗修正线性单元视觉激活函数构建CBF模块,改进颈部网络和Head网络结构,从而获得更优的特征检测性能。实验结果表明,针对自建扶梯行人摔倒数据库和网络采集实际扶梯行人摔倒事故,与AlphaPose、OpenPose、YOLOv5等算法相比,该算法检测性能明显提高,行人摔倒平均检测精度可以达到95.92%,检测帧率为24.08帧/s,能够快速、精准地检测到乘客摔倒事故发生,监控管理平台立刻采取安全急停措施以保证乘客安全。
针对人群计数图像人头尺度变化大、背景噪声高等问题,提出一种基于注意力机制的多尺度融合人群计数算法,以充分聚合多尺度信息,并有效区分背景噪声。构建基于残差连接的空洞空间金字塔池化,通过残差结构以及多个不同扩张率的空洞卷积在捕获多尺度头部目标特征的同时融入浅层特征图的空间细节信息,提高特征图质量;构建跨层多尺度特征融合模块,融合浅层和深层分支不同大小的边缘细节信息和上下文语义信息,并设计基于多分支的特征融合模块,融合不同感受野大小的多尺度信息以缓解大规模人头尺度变化的问题;构建基于矩阵相似运算的通道和空间注意力机制模块提取像素级特征权重,加强网络对于背景和人头目标的判别能力,自适应矫正位置信息。实验结果表明,相比11种对比算法的最优值,所提算法在SHA数据集上的平均绝对误差和均方根误差指标降低1.4%、4.2%,在UCF_CC_50数据集上降低4.9%、1.8%,能够精确地预测人群分布状态和估计人群数量,生成高质量的人群密度图。
针对传统云运动轨迹预测方法存在的预测精度差、空间结构细节信息丢失等问题,提出一种基于时空长短时记忆(ST-LSTM)神经网络的地基云图预测模型。首先使用卷积编码网络提取输入视频流的高维图像特征;然后在特征提取模型中对图像潜在信息进行多分支获取,一部分使用ST-LSTM神经网络提取不同帧之间的时空特征,另一部分将图像序列进行分解,并通过基于门控机制的记忆融合网络来获取分解后图像中的结构细节信息;最后将得到的分支特征进行组合后经过解码网络输出最终的预测视频流。在地基云图、Moving MNIST和Human 3.6M数据集上的实验结果表明,在图像预测准确率、结构细节信息保留效果以及人眼主观感受上,该预测模型均优于对比模型。与基准模型TaylorNet相比,所提模型在Moving MNIST数据集上均方误差指标和平均绝对误差指标分别降低15.7%和11.8%,在地基云图数据集上,其结构相似性指标与峰值信噪比指标分别提升1%和3.2%,且生成的视频流数据更为清晰,能够更准确地描述云层未来的运动状况,从而更可靠地预测光伏电站未来的输出功率。
光伏发电是我国大力发展的重要新能源发电形式,其异常检测是为系统运维决策提供依据的重要环节。由组件老化、故障或不良因素造成的光伏系统运行状态异常将直接影响发电效率和能力,进而会对系统安全性和经济效益造成影响。然而,现有检测方法存在识别异常类型不全面、对标注数据数量依赖性强、更新模型成本高、对噪声和测量误差敏感等局限性以及不适合大规模推广部署的缺点。为解决这一问题,提出一种基于历史发电量以及气象监测数据的光伏发电异常检测方法。利用基于异常值去除和相关性分析的预处理步骤去除原始数据中的噪声并筛选最佳特征。通过变分模态分解(VMD)将数据分解成多个模态分量以提取光伏发电量的周期和非周期特征。构建改进VMD-XGBoost-BiLSTM组合模型,利用自适应赋权、Attention机制和改进鲸鱼优化算法的特点完成光伏发电量常态预测。在此基础上,通过与实际测量值进行对比,利用设定的规则进行异常判断。实验结果表明,该方法相较于单一BiLSTM和XGBoost模型平均误差下降幅度超过20%,其中约15.67%的性能提升得益于所提改进措施。
人体姿态估计任务需要利用视觉线索和关节间的解剖关系来定位关键点,但基于卷积神经网络的方法难以关注远程上下文线索和建模远距离关节之间的依赖关系。为此,提出一种基于注意力机制的隐式建模方法,通过多阶段迭代计算关节之间的特征相关性来隐式建模关键点间的约束关系,消除卷积神经网络的局部操作,扩大网络的感受野,建模远距离关节之间的依赖关系。为了解决网络在训练过程中可能弱化不可见关键点的问题,采用焦点损失函数,使网络更关注于复杂的关键点。使用目前精度最高的特征提取高分辨率网络(HRNet)和经典特征提取残差网络(ResNet)作为主干网络进行实验,结果表明,在同等实验条件下,隐式建模方法可以提高人体姿态估计网络的性能,在MPII和MSCOCO人体姿态估计基准数据集上,以HRNet网络为主干网络的算法相较于原网络,精度分别提升了1.7%和2.6%。
数据库的结构化查询语言(SQL)到自然语言的翻译(SQL-to-text)能提高关系数据库的易用性。近年来该领域主要使用机器学习的方法进行研究并已取得一定进展,然而现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模型在实际应用中提升翻译效果的必要能力,且目前缺少对此类模型组合泛化能力的研究,因此提出一种SQL-to-text模型的组合泛化能力评估方法。基于现有的SQL-to-text数据集生成大量SQL和对应的自然语言翻译(SQL-自然语言对),并按SQL-自然语言对所含SQL子句的个数将其划分为训练数据与测试数据,使测试数据中的SQL子句皆以不同的组合方式在训练数据中出现,从而得到可评估模型组合泛化能力的新数据集。评估结果表明,该方法对查询知识的使用程度较高,划分数据的方式更加合理,所得数据集符合评估组合泛化能力的需求且贴近模型的实际应用场景,受到原始数据集的限制程度更低,并证实现有模型的组合泛化能力仍需提升,其中针对SQL-to-text任务设计的关系感知图转换器模型组合泛化能力最弱,表明原有的SQL-to-text数据集对组合泛化能力的考察存在欠缺。
多文档摘要抽取的目标是在多个文档中提取共有关键信息,其对简洁性的要求高于单文档摘要抽取。现有的多文档摘要抽取方法通常在句子级别进行建模,容易引入较多的冗余信息。为了解决上述问题,提出一种基于异构图分层学习的多文档摘要抽取框架,通过层次化构建单词层级图和子句层级图来有效建模语义关系和结构关系。针对单词层级图和子句层级图这2个异构图的学习问题,设计具有不同层次更新机制的两层学习层来降低学习多种结构关系的难度。在单词层级图学习层,提出交替更新机制更新不同的粒度节点,以单词节点为载体通过图注意网络进行语义信息传递;在子句层级图学习层,提出两阶段分步学习更新机制聚合多种结构关系,第一阶段聚合同构关系,第二阶段基于注意力聚合异构关系。实验结果表明,与抽取式基准模型相比,该框架在Multi-news数据集上取得了显著的性能提升,ROUGE-1、ROUGE-2和ROUGE-L分别提高0.88、0.23和2.27,消融实验结果也验证了两层学习层及其层次更新机制的有效性。