传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注。文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题。近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景。阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析。总结现有的TextVQA研究方法,并将其归纳为3个阶段,分别为特征提取阶段、特征融合阶段和答案预测阶段。根据融合阶段使用方法的不同,从简单注意力方法、基于Transformer方法和基于预训练方法这3个方面对TextVQA方法进行阐述,分析对比不同方法的特点以及在公开数据集中的表现。介绍TextVQA领域4种常用的公共数据集,并对它们的特点和评价指标进行分析。在此基础上,探讨当前TextVQA任务中存在的问题与挑战,并对该领域未来的研究方向进行展望。
量子计算的迅速发展可能对当前广泛使用的公钥密码算法造成严重威胁。格密码因优秀的抗量子安全性和高效的计算效率在后量子密码中占据重要地位。美国国家标准技术研究院于2022年5月公布4个后量子密码标准,其中3个是格密码算法,Kyber算法便是其中之一。随着后量子密码标准的确定,Kyber算法高效实现的需求日益增加。基于512位高级向量扩展(AVX512),对Kyber算法进行优化与高速并行实现。使用惰性模约减、优化的蒙哥马利模约减及优化的快速数论变化等技术,充分利用计算机的存储空间,减少大量不必要的模约减操作,提高多项式计算的效率与并行性。采用冗余比特技术,增强多项式抽样过程中比特的并行处理能力。通过AVX512的512 bit位宽和8路并行实现哈希运算,并对其产生的伪随机比特串进行合理调度,充分发挥并行性能。基于AVX512指令集高速并行实现Kyber上的多项式计算和抽样,并进一步实现整个Kyber公钥加密方案。性能测试结果表明,与C语言实现相比,基于AVX512实现的密钥生成和加密算法获得了10~16倍的加速,解密算法获得了约56倍的加速。
Kubeflow将机器学习和云计算技术两个技术领域相结合,集成了大量的机器学习工具,为生产级的机器学习平台落地提供了可行方案。机器学习通常依托图形处理器(GPU)等专用处理器来提高训练和推理速度,随着云计算集群规模的动态调整,不同计算架构的云计算节点可以灵活地加入/退出集群,传统的轮询调度策略已无法满足动态调整下的异构算力资源调度。为解决Kubeflow平台异构算力的分配优化问题,提高平台资源利用率,实现负载均衡,提出一种基于云的图形处理器-中央处理器(CPU-GPU)异构算力调度策略,采用量化后的负载均衡度和优先级两个判断指标,细颗粒度化显存分配,将计算资源挂载给对应的Pod以实现算力资源的细颗粒度调度。根据集群各节点算力资源设计资源权重矩阵,利用改进的遗传算法获取Pod的最优部署方案,保证多个任务的执行。实验结果表明,该调度策略对并行任务支持效果较好,且在资源请求溢出的情况下,能够按照优先级调度执行并实现最优的负载,与平台原生策略相比,资源细化程度提升了一个数量级,集群负载均衡也有较为显著的提升。
目前自动驾驶技术重点是关注如何主动避免碰撞,然而在面对其他交通参与者入侵而导致不可避免的碰撞事故场景时,预测车辆在不同行驶模式下的碰撞严重程度来降低事故严重程度的研究却很少。为此,提出一种双层Stacking事故严重程度预测模型。基于真实交通事故数据集NASS-CDS完成训练,模型输入为车辆传感器可感知得到的事故相关特征,输出为车内乘员最高受伤级别。在第1层中,通过实验对不同学习器组合进行训练,最终综合考虑预测性能以及耗时挑选K近邻、自适应提升树、极度梯度提升树作为基学习器;在第2层中,为降低过拟合,采用逻辑回归作为元学习器。实验结果表明,该方法准确率达到85.01%,在精确率、召回率和F1值方面优于其他个体模型和集成模型,该预测结果可作为智能车辆决策规划模块先验信息,帮助车辆做出正确的决策,减缓事故损害。最后阐述了模型在L2辅助驾驶与L4自动驾驶车辆中的应用,在常规车辆安全防护的基础上进一步提升车辆的安全性。
负载预测是云计算资源管理中的重要组成部分,准确预测云资源的使用情况可提高云平台性能及防止资源浪费,然而云计算资源使用的动态性和不确定性使得负载预测较为困难,尽管Informer在时序预测领域取得了较好的效果,但未对时间的因果依赖关系加以限制造成未来信息泄露,也未考虑网络深度的增加导致模型性能下降的问题。为解决上述问题,提出一种基于改进Informer的多步负载预测模型(Informer-DCR)。将编码器中各注意力块之间的正则卷积替换为扩张因果卷积,使深层网络中的高层能够接收更大范围的输入信息来提高模型预测精度,并保证时序预测过程的因果性。在编码器中添加残差连接,使网络中低层的输入信息直接传到后续的高层,解决了深层网络退化问题。实验结果表明,Informer-DCR模型在不同预测步长下的平均绝对误差比Informer、时间卷积网络等主流预测模型降低了8.4%~40.0%,并且在训练过程中表现出比Informer更好的收敛性。
目前国产自主可控FT-M6678平台上没有对称矩阵特征值求解相关的实现,且平台上现有数学计算库不能很好地满足类似问题求解的需求。面向国产FT-M6678处理器,对对称矩阵特征值求解(SYEV)算法进行实现与优化,完善FT-M6678平台的线性代数计算库。通过对SYEV算法的实现过程以及运行热点的分析,基于FT-M6678平台进行编译优化、访存优化以及向量并行化优化,其中:编译优化是根据不同的编译选项指导编译器对程序优化以达到加速效果;访存优化包括缓存优化以及数据段与程序段的分配优化,用于提高矩阵数据的访存效率;向量并行化优化包括循环展开以及适配FT-M6678平台的单指令多数据流(SIMD)指令并行优化,用于提升程序的计算效率。在FT-M6678平台上对所实现并优化的算法进行正确性验证与优化性能分析,结果表明,算法能够正确通过LAPACK官方测试集测试,并且在FT-M6678平台上的加速效果可达到58.346倍,对比TMS320C6678平台速度可提升2.053倍。
无人机凭借其灵活的机动性以及高数据传输速率,被广泛应用于大范围离散节点的数据采集工作,其机载能量的有限性也使得无人机能耗优化成为当前研究热点。然而,当环境中存在窃听节点时,如何在保障多个离散数据节点数据安全传输前提下优化无人机的能量消耗具有一定的挑战性。基于此,引入中继节点和安全容量,提出面向安全传输的低能耗无人机轨迹优化算法,力求从物理层面保障数据的安全传输。对无人机与地面节点的信道模型、无人机与数据节点之间的安全容量以及无人机飞行通信能耗进行建模。将问题形式化描述为以最小化无人机能耗为目标、数据节点与无人机之间的数据安全传输为主要约束的非确定性多项式难解优化问题。为解决该问题,对问题进行子问题分解,采用自组织映射方法以及定制的粒子群算法分别对无人机访问数据节点的最优次序以及在数据节点周边悬停的最佳位置进行求解,并根据现有工作提出3种基准方案进行性能对比。仿真实验结果表明,当中继节点的能量收集电路最大输出功率变化时,所提的优化算法在降低无人机总能耗方面相比BASE_D、BASE_M、BASE_R 3种基准方案分别平均提高7.25%、8.59%、11.57%。此外,在安全容量实现率方面,所提算法的性能均优于对比方案,例如,当安全容量阈值从0.001~0.500变化时,所提算法相比基准方案BASE_M平均提高23.45%。
跨语言摘要(CLS)旨在给定1个源语言文件(如越南语),生成目标语言(如中文)的摘要。端到端的CLS模型在大规模、高质量的标记数据基础上取得较优的性能,这些标记数据通常是利用机器翻译模型将单语摘要语料库翻译成CLS语料库而构建的。然而,由于低资源语言翻译模型的性能受限,因此翻译噪声会被引入到CLS语料库中,导致CLS模型性能降低。提出基于多策略的低资源跨语言摘要方法。利用多策略强化学习解决低资源噪声训练数据场景下的CLS模型训练问题,引入源语言摘要作为额外的监督信号来缓解翻译后的噪声目标摘要影响。通过计算源语言摘要和生成目标语言摘要之间的单词相关性和单词缺失程度来学习强化奖励,在交叉熵损失和强化奖励的约束下优化CLS模型。为验证所提模型的性能,构建1个有噪声的汉语-越南语CLS语料库。在汉语-越南语和越南语-汉语跨语言摘要数据集上的实验结果表明,所提模型ROUGE分数明显优于其他基线模型,相比NCLS基线模型,该模型ROUGE-1分别提升0.71和0.84,能够有效弱化噪声干扰,从而提高生成摘要的质量。
在某些实际应用中,通常不存在与被预测时间变量具有高相关性的其他维度变量,或者这些维度变量难以采集。而具有较低相关性的时间序列数据普遍存在,其对于数据预测具有更重要的意义。提出一种基于注意力翻转网络的低相关性多维时间序列数据预测模型。针对低相关性时序数据具有相关性随时间而变化的特点,引入批处理滑动窗口以摆脱时间变化带来的干扰,更好地捕获维度相关性。针对传统门控循环单元(GRU)网络大量丢弃低相关性样本的问题,建立翻转GRU网络对低相关性多维数据进行初次过滤,控制多维数据在网络中的传递数量,避免维度变量因相关性较低而被丢弃,提升相关性较低的多维数据在模型中的存活时间。同时,利用基于维度的注意力机制自适应调整不同维度序列在相关性提取过程中的重要性。建立平方长短期记忆(LSTM)网络对分配权重后的数据进行拟合,更细致地确定相关性对被预测参数的影响。实验结果表明,该模型的决定系数可达0.95,预测性能优于GRU、LSTM等传统神经网络模型。
由于需要对每一个搜索到的架构进行独立的性能评估,神经架构搜索(NAS)往往需要耗费大量的时间和计算资源。提出一种基于有偏采样的连续进化NAS方法(OEvNAS)。OEvNAS在架构搜索过程中维护一个超网络,搜索空间中所有的神经网络架构都是该超网络的子网络。在演化计算的每一代对超网络进行少量的训练,子网络直接继承超网络的权重进行性能评估而无需重新训练。为提高超网络的预测性能,提出一种基于有偏采样的超网络训练策略,以更大的概率训练表现优异的网络,在减少权重耦合的同时提高训练效率。此外,设计一种新颖的交叉变异策略来提高算法的全局探索能力。在NATS-Bench和可微分架构搜索(DARTS)两个搜索空间上验证OEvNAS的性能。实验结果表明,OEvNAS的性能超越了对比的主流算法。在NATS-Bench搜索空间上,提出的超网络训练策略在CIFAR-10、CIFAR-100和ImageNet16-200上均取得了优异的预测性能;在DARTS搜索空间上,搜索到的最优神经网络架构在CIFAR-10和CIFAR-100上分别取得了97.67%和83.79%的分类精度。
在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的局限性,无法充分概括有用信息,忽视单词与句子间的联系,易产生冗余重复或语义不相关的摘要。为此,提出一种基于Transformer和卷积收缩门控的文本摘要方法。利用BERT作为编码器,提取不同层次的文本表征得到上下文编码,采用卷积收缩门控单元调整编码权重,强化全局相关性,去除无用信息的干扰,过滤后得到最终的编码输出,并通过设计基础Transformer解码模块、共享编码器的解码模块和采用生成式预训练Transformer(GPT)的解码模块3种不同的解码器,加强编码器与解码器的关联,以此探索能生成高质量摘要的模型结构。在LCSTS和CNNDM数据集上的实验结果表明,相比主流基准模型,设计的TCSG、ES-TCSG和GPT-TCSG模型的评价分数增量均不低于1.0,验证了该方法的有效性和可行性。
为了解决服务机器人在具有自主决策能力的密集人群中容易发生碰撞、假死和路径不自然等问题,在深度强化学习的框架下提出基于时空图注意力网络的服务机器人动态避障算法。时空图注意力网络作为邻近策略优化(PPO)算法的决策函数,首先采用门控循环单元控制机器人对环境的记忆和遗忘程度,提取环境的时间特征,使其对行人运动趋势有一定的预测作用;然后采用图注意力网络获取机器人和行人在空间上的隐式交互特征,使机器人能寻找无碰撞路径;最后在PPO算法中对时空图注意力网络进行训练,使得机器人在人群中完成无碰撞导航任务。在人均2.5 m2的动态封闭环境中对算法进行实验验证,结果表明,与非学习型的动态窗口算法相比,该算法导航成功率提高71个百分点,与基于学习型的DSRNN-RL算法相比,该算法导航成功率提高3个百分点同时导航路径更短。Gazebo环境下的实时导航测试结果表明,所提算法的平均推理时间为21.90 ms,可以满足实时导航的要求。
无人船航行时水面障碍物检测因视角不足,导致漏检或误检,同时为满足无人船安全正常作业的需求,提出基于全景视觉的无人船水面障碍物目标检测方法。与传统的单目和双目视觉相比,全景视觉具有水平方向大视场监控的优点。基于多目全景视觉系统获得待拼接图像,在加速稳健特征(SURF)算法的基础上进行图像配准,引入k维树来构建数据索引,实现搜索空间级分类并进行快速匹配。通过M估计样本一致算法对匹配点进行优化,剔除误匹配点。对于图像融合中重叠区域出现的拼接缝隙或重影问题,设计一种基于圆弧函数的加权融合算法。提出改进的水面障碍物目标检测模型DS-YOLOv5s,将拼接好的全景图像作为训练好的模型作为输入,从而检测目标障碍物。实验结果表明,改进后的SURF算法与SURF算法相比特征点的匹配正确率提高11.47个百分点,在匹配时间上比SURF、RANSAC算法缩短5.83 s,DS-YOLOv5s模型的mAP@0.5达到95.7%,检测速度为51帧/s,符合实时目标检测标准。
随着移动设备和互联网的普及,多视角数据的采集和分享变得更加容易,其可以从多个视角更准确地描述数据。目前,一些多视角聚类算法忽略了不同视角间的一致性潜在知识和不同视角的重要性。针对该问题,提出一种平衡视角间一致性信息的多视角聚类算法。首先通过调节视角权重学习视角间一致的共享相似度矩阵,提升共享矩阵的一致性,其中相关性强的视角具有的一致性信息更多,视角权重越大,在一致性学习中发挥的作用越大,而差异性大的视角其权重越小,在学习中发挥的作用越小。其次学习视角间的一致性样本嵌入以及不同视角的特征嵌入,并将特征嵌入中包含的多样性特征信息迁移到样本嵌入中,以此促进样本嵌入的一致性表达。在不同视角特征中包含多样性信息,可补充上述共享相似度矩阵学习中单一样本关系的不足。因此,采用二部图协同聚类,通过建立样本数据、样本嵌入和特征嵌入的关系图,学习样本的特征嵌入,并将其迁移到样本嵌入中。最后将图学习、谱聚类和特征嵌入学习整合到统一的框架中进行联合优化,得到最优的样本嵌入。实验结果表明,通过对样本嵌入进行K-means聚类,将该算法运行于5个真实数据集并与7种聚类算法对比,其中在3-Sources、Yale、MRSCV1数据集上的正确率均高于对比算法5%以上,验证了该算法的有效性。
深度学习模型的训练成本高,但窃取成本低,容易被复制并扩散。模型的版权拥有者可以利用后门等方式在模型中嵌入水印,通过验证水印来证明模型版权。根据水印嵌入阶段的不同,模型水印又可分为前向模型水印和后向模型水印,前向模型水印在模型训练之初就嵌入水印,而后向模型水印的嵌入发生在模型原始任务训练完成后,计算量小,更为灵活。但是已有的后向模型水印方法鲁棒性较弱,不能抵抗微调、剪枝等水印擦除攻击。分析后向模型水印鲁棒性弱于前向模型水印的原因,在此基础上,提出一种通用的鲁棒后向模型水印方法,在水印嵌入时引入对模型中间层特征和模型输出的约束,减小水印任务对原始任务的影响,增强后向模型水印的鲁棒性。在CIFAR-10、CALTECH-101、GTSRB等数据集上的实验结果表明,该方法能有效提升后向模型水印在微调攻击下的鲁棒性,CIFAR-10数据集实验中的最优约束设置与后向模型水印基线相比,水印验证成功率平均提升24.2个百分点,同时,该方法也提升了后向模型水印在剪枝等攻击下的鲁棒性。
单一混沌系统输出数据有限,且传统时空混沌系统输出分布不均易发生弱混沌现象,无法直接用于隐私图像加密。针对上述问题,利用Henon映射和耦合映像格(CML)提出一种新型时空混沌系统,即基于Henon映射的伪随机置乱耦合映像格系统(PRSCML-Henon)。该系统底层为二维离散混沌Henon映射,其中一维作为输出,另一维则作为控制信号,控制系统中的格子实现伪随机置乱,同时系统引入初等元胞自动机的输出作为系统的扰动,提高系统输出的随机性并削弱混沌系统动力学退化的不利影响,该系统相比于单一Henon映射和传统CML系统具有更强的混沌特性和随机性。在此基础上,利用PRSCML-Henon系统的输出序列设计一种隐私图像加密算法。实验结果表明,该算法不仅在实现上较为简单,且加密结果相比其他混沌图像加密算法拥有更好的统计特性和安全性,同时具备较好的鲁棒性和加密效率,适用于图像的私有加密。
隐私保护记录链接(PPRL)是一种跨不同数据库高效识别同一实体对象对应的记录而不泄露记录所代表实体对象的敏感或机密信息的方法。布隆过滤器(BF)广泛应用于PPRL,其将记录中的敏感信息进行编码并使用字符q-gram实现近似匹配。但是,BF编码容易遭受密码分析攻击,且由于对q-gram位置不敏感,会导致记录匹配的精确率较低。提出一种基于非定长编码和滑动窗口的PPRL方法,其采用的非定长编码记录生成方式不仅使记录具有位置敏感性,而且通过对有效位前后添加随机位数组隐藏了实体的位数组频率信息,从而能够有效防御频率攻击。此外,设计一种基于滑动窗口的记录链接方式,先通过快速过滤筛除大量不匹配的记录,再使用双向滑动窗口的精确匹配策略对剩余记录进行匹配,提高隐私保护记录的匹配效率。在公开数据集上的实验结果表明,相比BF方法,该方法在编码速度上快100倍左右,其同时具有更高的匹配精度,在跨数据库PPRL方面的安全性也更强。
容器云中面向持久化存储安全会直接影响到容器的创建和运行过程,严重威胁容器的安全性。传统的防御方法无法及时检测基于未知漏洞的攻击行为,并建立相应的防御策略。而现有的通过动态、异构和冗余增强容器及持久化存储安全性的研究缺乏对面向持久化存储安全威胁的细致分析,且对表决机制带来的性能损失没有得到优化。为此,利用容器灵活、高效的特点,结合拟态防御原理提出面向持久化存储的拟态防御架构。针对表决机制并结合层次分析法对异构容器应用请求表决机制进行优化,同时依据先到先裁机制提出一种自适应表决算法以提高表决速率,通过评估安全性和系统开销为用户提供一种折中的调度方案来满足场景中不同的安全和性能需求,最终实现原型系统Mimic-proxy。理论分析和实验结果表明:Mimic-proxy可以有效防御容器云中面向持久化存储的安全威胁,相比传统表决算法,响应时延降低了28.85%,吞吐率提高了40.52%;相比于传统防御架构,在仅提高0.99%的响应时延和降低1.01%吞吐率的情况下,可以有效保护持久化存储,达到增强容器安全性的目的。
对抗攻击与防御是计算机安全领域的一个热门研究方向。针对现有基于梯度的对抗样本生成方法可视质量差、基于优化的方法生成效率低的问题,提出基于Transformer和生成对抗网络(GAN)的对抗样本生成算法Trans-GAN。首先利用Transformer强大的视觉表征能力,将其作为重构网络,用于接收干净图像并生成攻击噪声;其次将Transformer重构网络作为生成器,与基于深度卷积网络的鉴别器相结合组成GAN网络架构,提高生成图像的真实性并保证训练的稳定性,同时提出改进的注意力机制Targeted Self-Attention,在训练网络时引入目标标签作为先验知识,指导网络模型学习生成具有特定攻击目标的对抗扰动;最后利用跳转连接将对抗噪声施加在干净样本上,形成对抗样本,攻击目标分类网络。实验结果表明:Trans-GAN算法针对MNIST数据集中2种模型的攻击成功率都达到99.9%以上,针对CIFAR10数据集中2种模型的攻击成功率分别达到96.36%和98.47%,优于目前先进的基于生成式的对抗样本生成方法;相比快速梯度符号法和投影梯度下降法,Trans-GAN算法生成的对抗噪声扰动量更小,形成的对抗样本更加自然,满足人类视觉不易分辨的要求。
互联网中存在大量隐私数据,因此防止网络入侵成为保护网络安全的关键问题。为提高网络入侵检测的准确率并解决其收敛慢问题,设计一种改进的堆叠自动编码器和残差网络(ISAE-ResNet)入侵检测模型。融合栈式自编码器和残差网络,首先将预处理后的数据输入到改进的栈式自编码器中,该栈式自编码器由2个副编码器和1个主编码器组成,数据经过副编码器和主编码器训练后重构出新的特征来防止过拟合问题;然后将解码层的权重捆绑到编码层进行优化,使模型参数减半来进行降维,提高模型的收敛速度;最后将处理过的数据输入到改进的残差网络中,并基于改进的ResNet网络设计一种加入软阈值函数的残差模块,通过降低数据中的噪声来提高模型准确率。在CIC-IDS-2017数据集上的实验结果表明,该模型准确率为98.67%,真正例率为95.93%,误报率为0.37%,损失函数值快速收敛至0.042,在准确率、真正例率、误报率和收敛速度方面均超过对比入侵检测模型,具有较高的有效性和可行性。
异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。
传统的人工艾灸方式存在温度不均衡、耗费人力、治疗效果差异大等问题,结合机器人技术,提出一种新型艾灸机器人系统,以减轻医师的劳动强度并提高治疗效率。采用主从双边结构设计,主要由从端的艾灸器、机械臂和主端构成。通过对从端艾灸器的自动推进装置、硬件电路和通信流程的改进设计,实现艾灸过程中艾条的自动推进以及温度、距离等信息的实时采集和传输。主端系统对从端传输的信息进行整合处理,并对机械臂进行轨迹规划和运动控制,以优化艾灸路径和动态调整施灸距离。此外,主端的人机交互界面能够实时显示艾灸过程中的信息和从端的工作状态,实现艾灸过程的可视化。医师可通过该可视化界面灵活调节艾灸参数和远程控制机器人进行艾灸,以满足不同的艾灸对象、环境和任务需求。实验结果表明,该艾灸机器人系统能够在真实环境中使机械臂按照自动规划的路径运行,动态调控艾条燃烧端到人体穴位的距离,保持目标穴位的温度偏差小于0.5 ℃,运行过程平稳,满足安全且精准的艾灸治疗要求。
纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问题,提出一种基于现场可编程门列阵(FPGA)的纠删码编码加速方案。首先,利用FPGA的高速并行计算优势对纠删码算法进行硬件加速,并实现并行处理和时序优化。然后,针对上位机与FPGA之间因传输速率和处理速率不一致造成内存中的数据溢出问题,在FPGA上拓展了片外DDR3接口用于数据缓存,提高了通信可靠性,并利用DDR3的随机存取特点实现对数据块的分片。最后,设计基于FPGA的纠删码编码硬件加速架构进行实验验证。实验结果表明,与主流Jerasure 2.0开源纠删码库相比,该方案的数据写入吞吐量提升了2.7~93.0倍,尤其对于小文件的编码写入性能提升更为显著。
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×108规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。
人脸特征点检测是人脸图像处理的关键步骤之一,常用检测方法是基于深度神经网络的坐标回归方法,具有处理速度快的优点,但是用于回归的高层次网络特征丢失空间结构信息,且缺乏细粒度表征能力,导致检测精度降低。针对该问题,提出一种基于多层次自注意力网络的人脸关键点检测算法。为提取更具有细粒度表征能力的图像语义特征,构建基于自注意力机制的多层次特征融合模块,实现高层次高语义信息特征和低层次高空间信息特征的跨层次特征融合。在此基础上,设计一种多任务学习人脸特征点检测定位与人脸姿态角估计的训练方式,优化网络对人脸整体朝向姿态的估计,以提升特征点检测的准确性。在人脸特征点主流数据集300W和WFLW上的实验结果表明,与SAAT、AnchorFace等方法相比,该方法有效提升网络的检测精度,标准平均误差指标分别为3.23%和4.55%,相较于基线模型降低0.37和0.59个百分点,在WFLW数据集上错误率指标为3.56%,相较于基线模型降低了2.86个百分点,能够提取更具鲁棒性和细粒度的表达特征。
针对低光照图像增强过程中存在的配对图像数据依赖、细节损失严重和噪声放大问题,提出结合门控通道变换机制和生成对抗网络(GAN)的低光照图像增强方法AGR-GAN,该方法可以在没有低/正常光图像对的情况下进行训练。首先,设计特征提取网络,该网络由多个基于门控通道变换单元的多尺度卷积残差模块构成,以提取输入图像的全局上下文特征和多尺度局部特征信息;然后,在特征融合网络中,采用卷积残差结构将提取的深浅层特征进行充分融合,再引入横向跳跃连接结构,最大程度保留细节特征信息,获得最终的增强图像;最后,引入联合损失函数指导网络训练过程,抑制图像噪声,使增强图像色彩更自然匀称。实验结果表明,该方法在主观视觉分析和客观指标评价方面相较其他算法均具有显著优势,其能有效提高低光照图像的亮度和对比度,减弱图像噪声,增强后的图像更清晰且色彩更真实,峰值信噪比、结构相似度和无参考图像质量评价指标平均可达16.48 dB、0.93和3.37。
现有端到端的立体匹配算法为了减轻显存消耗和计算量而预设固定视差范围,在匹配精度和运行效率上难以平衡。提出一种基于轻量化Transformer的自适应窗口立体匹配算法。利用具有线性复杂度的坐标注意力层对低分辨率特征图进行位置编码,减轻计算量并增强相似特征的辨别力;设计轻量化Transformer特征描述模块,转换上下文相关的特征,并引入可分离多头自注意力层对Transformer进行轻量化改进,降低Transformer的延迟性;用可微匹配层对特征进行匹配,设计自适应窗口匹配细化模块进行亚像素级的匹配细化,在提高匹配精度的同时减少显存消耗;经视差回归后生成无视差范围的视差图。在KITTI2015、KITTI2012和SceneFlow数据集上的对比实验表明,该算法比基于标准Transformer的STTR在匹配效率上快了近4.7倍,具有更快的运行速度和更友好的存储性能;比基于3D卷积的PSMNet误匹配率降低了18%,运行时间快了5倍,实现了更好的速度和精度的平衡。
视频描述生成旨在用自然语言描述视频中的物体及其相互作用。现有方法未充分利用视频中的时空语义信息,限制了模型生成准确描述语句的能力。为此,提出一种用于视频描述生成的潜在特征增强网络(LFAN)模型。利用不同的特征提取器提取外观特征、运动特征和目标特征,将对象级的目标特征分别和帧级的外观特征与运动特征融合,同时对融合后的不同特征进行增强,在生成描述前利用图神经网络和长短时记忆网络推理对象之间的时空关系,从而得到具有时空信息和语义信息的潜在特征,同时使用长短时记忆网络和门控循环单元的解码器生成视频的描述语句。该网络模型能够准确地学习到对象特征,进而引导生成更准确的词汇及与对象之间的关系。在MSVD和MSR-VTT数据集上的实验结果表明,LFAN模型可以显著提高生成描述语句的准确性,并与视频中的内容呈现出更好的语义一致性,在MSVD数据集上的BLEU@4和ROUGE-L分数分别为57.0和74.1,在MSR-VTT数据集上分别为43.8和62.1。
泊松去噪是一个典型的病态逆问题,其变分模型需要反复迭代和调节参数且计算效率低下,而纯深度学习模型往往依据经验设计网络且可解释性差。针对以上问题,在泊松噪声去噪变分模型的交替方向乘子法展开的基础上,设计端到端深度卷积神经网络,结合泊松噪声分布统计量与Bayesian最大后验概率估计推导出改进的泊松去噪变分模型。为了求解泊松去噪能量函数极值问题,采用交替方向乘子法,引入辅助变量、拉格朗日乘子和惩罚参数,将该问题分解为高斯去噪和图像重建两类交替优化子问题,先采用先验驱动的深度卷积神经网络实现高斯去噪,再通过解析迭代求解完成图像重建。实验结果表明,与基于非线性主成分分析、VST+BM3D、I+VST+BM3D和TRDPD的泊松去噪模型相比,改进模型在Set12数据集上的峰值信噪比均值分别提高2.73、0.87、0.57和0.50 dB,结构相似性均值分别提高0.148、0.046、0.020和0.047,在彩色图像及正电子发射断层扫描与计算机断层扫描图像上也明显提升了泊松去噪效果。上述实验结果证明了改进模型不仅有效去除了泊松噪声,而且避免了泊松去噪过程中产生的伪影和散斑等问题。
以视频帧采样和数据增强为代表的预处理操作是提升视频行为识别深度模型性能的重要手段。针对现有视频数据预处理存在的采样视频帧区分性不足、数据增强方式单一等问题,提出一种面向视频行为识别深度模型的数据预处理方法。在视频帧采样上设计动作指导的片段化视频采样策略,综合考虑视频帧间差异特征与视频片段短期时序特征,通过显著行为动作获取关键视频帧并对其邻近视频帧进行采样,有效提高所选取视频帧的时空区分能力。借鉴图像分类中的随机数据增强方法,以随机数据增强方式对采样后视频短片段进行数据增强处理,使视频识别深度模型学习到更复杂的空间变化信息。根据2个公开的视频识别数据集和2个代表性的网络模型的评估实验结果表明,所提预处理方法可以使基准模型获得2.5个百分点以上的准确率提升,最高可提升6.8个百分点。上述实验结果验证了所提预处理方法在视频行为识别任务中的有效性。
针对异构网络中非均匀分布式流量的平衡问题,构建一个基于非正交多址接入-终端直连的多无人机(UAV)辅助边缘计算系统。该系统中的能耗直接受同信道干扰、计算资源和传输功率的影响,通过联合优化卸载决策、任务量、资源分配以及UAV的飞行轨迹以最小化系统加权能耗。由于所提优化问题为非凸问题且高度耦合,因此提出一种基于李雅普诺夫(Lyapunov)的两阶段在线资源协调分配方案进行求解。首先,运用Lyapunov优化理论对系统模型进行改进,以消除其对未知信息的依赖,将目标优化问题转化为仅依赖于当前时隙的优化问题;其次,将优化问题分解为4个子问题,采用交替迭代的方法进行求解,在子问题的求解过程中,采用启发式用户匹配算法获取用户最佳匹配方案,并引入改进的自适应下降交替方向乘子法来获取最优卸载决策;最后,通过连续凸逼近技术将无人机的飞行轨迹问题转化为可解的凸问题。仿真结果表明,与Local、Random、ADMM这3种基准方案相比,该方案在保证队列稳定性的前提下,能耗约降低40%~70%。
联邦学习是一种可以在弱通信环境下有效解决数据孤岛问题的分布式机器学习方法。针对海上船舶轨迹实时预测问题,提出基于Fedves联邦学习框架与卷积神经网络-门控循环单元(CNN-GRU)模型的船舶轨迹预测算法(E-FVTP)。根据Fedves联邦学习框架,通过规范客户端数据集规模以及客户端正则项,在保持原有客户端数据特征的前提下,减小数据非独立同分布特征对全局模型的影响,加快收敛速度。面向海洋通信资源短缺场景,建立基于船舶自动识别系统(AIS)数据的CNN-GRU船舶轨迹预测模型,解决了船舶终端设备计算能力不足的问题。在MarineCadastre开源和舟山海洋船舶航行AIS数据集上的实验结果表明,E-FVTP在预测误差比集中式训练降低40%的情况下,收敛速度提升67%、通信代价降低76.32%,可实现复杂海洋环境中船舶轨迹的精确预测,保障海上交通安全。
深度神经网络的快速发展使其在计算机视觉和自然语言处理等领域取得较大成功,但是对抗攻击会导致神经网络的表现性能降低,对各类系统的安全保密性造成严重威胁。现有黑盒攻击方法在人脸识别中性能表现较差,攻击成功率较低且生成对抗样本迁移性不高。为此,提出一种结合高斯滤波与掩码的对抗攻击方法G-MASK。利用Grad-CAM输出的热力图确定对抗样本的掩码区域,使其只在掩码区域施加扰动,提高黑盒攻击成功率,采用扰动集成方法提高黑盒迁移能力,增强黑盒攻击鲁棒性,对生成的扰动进行高斯平滑处理,降低集成模型之间干扰噪声的差异,提高图像质量且增强扰动掩蔽性。实验结果表明,针对不同的人脸识别模型,G-MASK方法在保证白盒攻击成功率较高的条件下能够显著提升黑盒攻击效果,并具有更优的掩蔽性,经过模型扰动集成的对抗样本白盒攻击成功率均提高至98.5%以上,黑盒攻击成功率最高达到75.9%,与快速梯度符号法(FGSM)、迭代快速梯度符号法(Ⅰ-FGSM)和动量迭代梯度符号法(MI-FGSM)相比分别平均提升12.1、10.6和8.2个百分点,充分验证了该方法的有效性。
急性缺血性脑卒中病灶在计算机断层扫描(CT)上表现不明显,但在核磁共振成像(MRI)上可以清晰显示。然而,当患者体内有金属植入物等特殊情况则无法进行MRI检测,使得患者的治疗受到延误。通过CT生成MRI可在急性缺血性脑卒中的诊断和治疗中起到至关重要的作用,但现有的医学影像跨模态生成方法从CT得到的MRI缺乏病灶信息且边界模糊。为了解决上述问题,提出一种基于影像组学和扩散生成对抗网络的急性缺血性脑卒中CT生成MRI算法,通过影像组学在CT上进行病灶特征增强,突出生成MRI的病灶信息,引入梯度损失为生成图像与真实图像增加边缘感知约束,提升生成MRI的质量。在ISLES2018挑战赛数据集上的实验结果表明,该算法生成的MRI在整体上的峰值信噪比为23.051 dB,结构相似度为0.798,皮尔逊相关系数为0.969,并且病灶区域的互信息为2.075,与现有的生成模型相比,该算法的各项指标均达到最优。此外,经3名经验丰富的放射科医生在生成的MRI上确定病灶并进行阳性/阴性分类,其中生成的MRI中无错误病灶,且分类准确率可达到86.61%,可作为一种辅助工具协助医生进行诊断。
结肠息肉具有边界不清晰且大小、颜色、形状各异的特点,使得采用深度学习方法提高其分割性能仍是一项极具挑战性的工作。为提高息肉分割的准确率,提出一种基于多任务联合注意力的结肠息肉分割网络CPMJA-Net。为改善Transformer缺乏机制来增强局部区域信息交换的问题,设计级联融合模块以增强网络的局部特征表示,有助于息肉边缘的识别和恢复。受多头Self-Attention机制的启发,构建多任务注意力模块,采用渐进式融合的方式将不同模块得到的特征图逐步进行融合,以凸显关键信息并抑制干扰信息。为更好聚合图像的高级和低级特征,设计联合注意力模块,利用高级特征的轮廓信息在低级特征中筛选出有利于边缘分割的细节特征,并将其与息肉轮廓聚合起来,得到更加精确的边缘分割结果。实验结果表明,CPMJA-Net在4个公开数据集上的性能表现均为最优,与次优的算法相比,CPMJA-Net的mDice系数分别在Kvasir、CVC-CilinicDB、CVC-ColonDB和ETIS数据集上提升0.7、0.8、0.4、0.4个百分点,平均交并比(mIoU)也分别提升1.6、1.2、0.6、0.5个百分点,其能改善过分割问题,弥补注意力机制的不足,提升解码器的细节恢复能力。
中文医学命名实体识别(CMNER)旨在从中文非结构化医学文本中提取实体。现有的基于字符的CMNER模型没有从不同角度全面考虑汉字的特点,限制了其应用于CMNER的性能。基于此,提出基于多粒度字形增强的中文医学命名实体识别模型。对于输入的句子,结合汉字的字形空间结构和偏旁部首的表示,同时根据相应的领域词典来匹配字符的领域词信息,增强字符的语义和潜在边界信息,使模型获得更好的实体识别能力;通过门控机制整合领域词和汉字的字形多粒度特征,综合考虑汉字的领域信息和汉字底层信息,从而具有更好的感知医学实体的能力。在此基础上,将多粒度字形增强的字符表示输入到双向长短记忆和条件随机场层,分别进行上下文编码和标签解码。实验结果表明,本文模型较于最佳基线模型在IMCS21和CMeEE数据集上的F1值分别提升了1.04%和0.62%。此外,通过消融实验验证了该模型的每个组成部分的有效性,在识别中文医学命名实体时具有较好的识别性能。
褪变色壁画图像的色彩还原研究可以促进壁画的保护和展示。壁画图像色彩还原旨在将退化壁画图像的色彩褪变区域还原为原有色彩。常规的基于单幅参考壁画图像的色彩还原方法难以选取与退化壁画图像相似的参考壁画图像,进而影响色彩还原质量。为此,提出一种基于双参考优化的壁画图像色彩还原方法。采用双参考策略,即使用2幅参考壁画图像对退化壁画图像进行色彩还原,利用图像优化模块抑制褪变色壁画图像中普遍存在的噪声、划痕等多重退化,通过编码器-解码器网络编码提取壁画图像多尺度特征,并构建特征融合模块优化壁画图像的多尺度特征。采用双参考指导模块计算参考壁画图像与退化壁画图像的语义对应置信度,以实现图像区域间的相似性匹配,并实现2幅参考壁画图像的风格融合。在此基础上,利用融合特征实现退化壁画图像的色彩还原。实验结果表明,该方法可以较准确地还原退化壁画图像色彩,同时能较好保持壁画图像原有的边缘结构信息,并且使用无参考图像质量评估指标对各个方法的还原壁画图像进行客观评估,与对比方法相比,该方法在客观评估指标上最多可降低12.2%。