Author Login Chief Editor Login Reviewer Login Editor Login Remote Office

Computer Engineering

   

Flow-Driven Attention Dual Adapters for Video Action Recognition

  

  • Published:2026-01-30

基于光流驱动注意力的双适配器视频动作识别

Abstract: 图像模型的跨域迁移已成为解决视频理解问题的有效范式,但其使用的方法仍有改进空间:全量微调计算开销大且易产生性能波动;多数参数高效迁移学习(PETL)方案采用单一适配器,在长程时序依赖与小样本场景中的时空表征能力易受限,更关键的是,现有方法普遍依赖隐式时序建模而忽视显式运动先验,导致难以充分捕捉复杂运动模式。为此,本文提出结构化适配器框架FDA4Video,基于PETL范式实现图像模型的高效适配:设计解耦式双路径适配器架构,同步捕捉局部动作细节与长程时序关联;提出光流移位协同注意力机制,将显式运动表征深度融合到时序建模过程中以强化跨帧依赖;同步引入可学习时间位置嵌入提供时序坐标基准,通过分阶段残差融合策略保障表征完整性。实验表明,该框架在Kinetics-400、UCF101和HMDB51上分别取得85.6%、98.2%与83.9%的准确率,较基线方法在减少约26%新增参数的前提下平均精度提升1.6%~2.2%,整体性能可媲美先进PETL策略,为图像模型的视频化迁移提供了一条兼顾精度、轻量与效率的技术路径。

摘要: 图像模型的跨域迁移已成为解决视频理解问题的有效范式,但其使用的方法仍有改进空间:全量微调计算开销大且易产生性能波动;多数参数高效迁移学习(PETL)方案采用单一适配器,在长程时序依赖与小样本场景中的时空表征能力易受限,更关键的是,现有方法普遍依赖隐式时序建模而忽视显式运动先验,导致难以充分捕捉复杂运动模式。为此,本文提出结构化适配器框架FDA4Video,基于PETL范式实现图像模型的高效适配:设计解耦式双路径适配器架构,同步捕捉局部动作细节与长程时序关联;提出光流移位协同注意力机制,将显式运动表征深度融合到时序建模过程中以强化跨帧依赖;同步引入可学习时间位置嵌入提供时序坐标基准,通过分阶段残差融合策略保障表征完整性。实验表明,该框架在Kinetics-400、UCF101和HMDB51上分别取得85.6%、98.2%与83.9%的准确率,较基线方法在减少约26%新增参数的前提下平均精度提升1.6%~2.2%,整体性能可媲美先进PETL策略,为图像模型的视频化迁移提供了一条兼顾精度、轻量与效率的技术路径。