TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

张开发
2026/4/17 12:44:15 15 分钟阅读

分享文章

TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究
01 论文信息论文题目Towards Universal Modal Tracking With Online Dense Temporal Token Learning论文作者Yaozong Zheng, Bineng Zhong, Qihua Liang 等发表单位Guangxi Normal University、Xiamen University 等发表会议\期刊IEEE TPAMI 2025代码链接https://github.com/GXNU-ZhongLab/ODTrack02 论文主要贡献传统方法的三个核心痛点第一image-pair sampling 太稀疏。很多跟踪器只取一个参考帧和一个搜索帧。这样做的问题是模型更像在做“瞬时匹配”对目标长时间运动趋势、遮挡前后变化、视角连续变化理解不足。第二image-pair matching 只做局部匹配。即便有些工作引入了时序信息很多也只是把几帧额外塞进去并没有真正建立跨 search frame 的持续关联。也就是说模型知道“这两帧像不像”但不一定知道“这个目标一路是怎么过来的”。第三多模态方法普遍 one-model-to-one-task。RGB-T 一个模型RGB-D 一个模型RGB-E 再一个模型。这样虽然各做各的能 work但训练成本高、泛化差、参数无法共享也不适合做“通用跟踪器”论文主要贡献它把传统跟踪里“模板帧 搜索帧”的图像对匹配范式改成了视频级建模。作者认为过去很多方法只看一对图虽然简洁但对目标的运动状态、时序变化、跨帧连续性理解不够因此本文把输入从 image pair 扩展成 video clip让模型从更长时间范围内学习目标轨迹信息。它提出了一个在线密集时序 token 学习机制。作者把跟踪重新表述成一种“token 传播”任务当前帧提炼出一个 temporal token这个 token 继续传给下一帧相当于把“目标长什么样、在哪、怎么动”浓缩进一个记忆向量里后续帧推理时直接拿来用减少传统在线更新那种复杂规则和额外优化步骤。它进一步提出 UM-ODTrack把单模态 ODTrack 扩展成通用多模态跟踪框架。关键做法是共享模态 tokenizer、共享 universal modal encoder再加两个 gated perceiverConditional Gate 和 GMP最后通过 one-shot training 把 RGB-T、RGB-D、RGB-E 多任务一起学进一套参数里实现 one-model-to-many-tasks。03 论文创新点从“图像对跟踪”升级到“视频级跟踪”传统 tracker 大多只看一对图做匹配本文把整段视频视作连续序列让模型真正具备时序理解能力而不是只做局部匹配。提出 temporal token propagation把历史信息变成可传播记忆temporal token 不是普通特征而是目标外观、位置、轨迹的压缩表示。它在帧与帧之间自回归传播相当于让模型“边跟边记”。提出通用多模态设计共享编码 gated perceiver one-shot training这不是简单把 RGB 和热红外/深度/Event 拼起来而是通过门控机制判断“当前该更信哪种模态”并在一个统一参数空间里完成多任务推理减少多模型分别训练的成本。04 方法4.1 整体框架UM-ODTrack传统跟踪公式传统 tracker 可以写成B Ψ ( R , S ) B \Psi(R, S)BΨ(R,S)也就是给参考帧R RR和搜索帧S SS输出当前帧目标框B BB。Transformer tracker 通常把参考图和搜索图切成 patch变成 token再做注意力建模。作者把公式扩展成B Ψ ( { R } k , { S } n , T ) B \Psi(\{R\}^k, \{S\}^n, T)BΨ({R}k,{S}n,T)这里{ R } k \{R\}^k{R}k是多张参考帧{ S } n \{S\}^n{S}n是多张搜索帧T TT是 temporal token。如果进入多模态版本还会把辅助模态的参考帧/搜索帧也一起送进来形成统一多模态建模。先取一小段视频不是只取两张图模型输入是一个video clip。里面有若干张参考帧也有若干张搜索帧而且可以来自不同模态。作者这样做的原因很直接如果只看两张图模型只能知道“这一帧像不像上一帧”但如果看一小段视频它才能更好地理解目标的运动趋势、外观变化、遮挡前后变化。所以第一步的作用就是把输入从“静态图像对”升级成“短视频片段”。把每一帧变成模型能处理的 token进入模型后图像先要被变成 token。你不用把 token 想得太神秘可以先把它理解成把图像切成很多小块再把每个小块变成一个向量。这样做的结果是后面的 transformer/encoder 就能像处理“序列”一样处理整张图。对这篇论文来说这一步很重要因为后面要做的不只是看当前帧还要把前后帧的信息放到同一个序列里一起算。Universal Modal Encoder 提取统一特征图2里绿色模块是Universal Modal Encoder。它做的事情可以简单理解成把输入帧里的有用信息提出来变成更抽象、更适合比较的特征。为什么一定要有这一步因为原始像素太杂不能直接拿来比较目标。经过 encoder 之后模型才能更容易知道“哪里像目标哪里不像目标”。结果就是后面的跟踪模块不是直接对着原图工作而是对着“更有语义、更稳定”的特征工作。Temporal Token Association 从当前片段里“提炼记忆图2里紫色模块是Temporal Token Association。这是整篇文章的灵魂。它不是只输出当前帧特征而是额外提炼出一个temporal token。这个 token 可以理解成一张很小的“记忆卡片”里面浓缩了三类信息目标现在长什么样目标现在大概在哪里目标最近是怎么运动的。作者明确说这个 token 的目的就是存储目标在视频里的外观和时空轨迹信息。为什么要单独提炼这个 token因为作者不想让模型每到新的一帧都“从零开始”。有了这个 token当前帧处理完以后不只是得到了当前结果还顺手把“这一路看下来的经验”压缩成了一个可传播的记忆。结果是后续帧推理会更稳。把 token 继续传给下一帧图2最关键的一根紫色箭头就是token propagation。当前帧得到的T t T_tTt​不会扔掉而是传给下一帧形成下一时刻的输入记忆。作者把这个过程写成一种自回归传播当前 token 和下一帧的空 token 结合生成新的 token再参与下一帧推理。这一步为什么重要因为跟踪本来就是一个连续任务。目标上一帧在左边下一帧大概率不会突然飞到完全无关的地方。token 传播的结果就是模型把这种连续性真正利用起来了。所以你可以把它理解成一根“接力棒”上一帧把对目标的理解交给下一帧继续用。Prediction Head 输出目标最后模型通过一个比较常规的预测头输出结果。作者这里没有把 head 设计得特别花哨还是常见的分类分数图、框大小、偏移量三个分支。也就是说这篇论文真正的创新重点不在“最后怎么出框”而在“前面怎么把视频信息和多模态信息组织起来”。结果就是预测头本身不复杂但前面给它喂进去的信息更强了所以最后框也更准。4.2 多模态部分第1层Modality Tokenizer图3左边你会看到三类输入RGBDepth、RGBThermal、RGBEvent。传统想法是不同模态长得很不一样所以每种模态都设计一个独立 tokenizer。作者设计了一个shared modality tokenizer用统一方式把不同模态都变成同一种 token 序列。具体做法上用一个 2D 卷积层作为统一 tokenizer。第2层Conditional Gate图3中间、encoder 里面那个黄色竖条就是Conditional Gate。你可以把它想成一个“调节阀”。它的作用不是简单把 RGB 和深度/热红外/事件特征直接相加而是先对齐再决定“这次该融合多少”。作者明确说这个 gate 会根据不同模态的质量来动态控制融合强度。f ^ g a t e ⁣ ( σ ( [ f t , f t ′ ] ) ) f , f ∈ { f t , f t ′ } \hat{f} gate\!\left(\sigma([f_t, f_t])\right) f, \quad f \in \{f_t, f_t\}f^​gate(σ([ft​,ft′​]))f,f∈{ft​,ft′​}其中( f_t ) 和 ( f’_t ) 分别表示在某一特定模态下从第 ( t ) 帧视频中提取出的可见光模态特征和辅助模态特征。 ( \sigma(\cdot) ) 是一个用于调整维度的嵌入层。 ( gate(\cdot) ) 是一个门控网络。它会根据不同模态源之间的质量自适应地控制多模态跟踪中的表征学习这种质量由一个两层感知机和一个门控激活函数来评估。 ( \hat{f} ) 表示条件门控模块输出的特征。因此我们设计了一种新的模态可扩展感知器modal-scalable perceiver它基于一种门控注意力机制用于进一步增强模型在多模态跟踪场景中的感知能力。更具体地说学习得到的多模态表征会与两个时序模态 token进行交叉注意力计算从多个视角构建通用的模态依赖关系。这个多模态关系可以表示为f p U M - A t t n ( σ ( [ f t , f t ′ ] ) , [ T t , T t ′ ] ) , (6) f_p \mathrm{UM\text{-}Attn}(\sigma([f_t, f_t]), [T_t, T_t]), \tag{6}fp​UM-Attn(σ([ft​,ft′​]),[Tt​,Tt′​]),(6)f ^ p g a t e ( f p ) f p , (7) \hat{f}_p gate(f_p) f_p, \tag{7}f^​p​gate(fp​)fp​,(7)f ~ p U M - M L P ( f ^ p ) , (8) \tilde{f}_p \mathrm{UM\text{-}MLP}(\hat{f}_p), \tag{8}f~​p​UM-MLP(f^​p​),(8)其中(\mathrm{UM\text{-}Attn}(\cdot,\cdot)) 表示一个多模态交叉注意力层其中前一个输入作为query后一个输入作为key和value。 (\mathrm{UM\text{-}MLP}(\cdot)) 表示一个多模态前馈网络层。 (f_p) 表示 GMP 模块中经过 UM-Attn 操作后的输出特征。 (\hat{f}_p) 表示 GMP 模块中经过 gate 操作后的输出特征。 (\tilde{f}_p) 表示 GMP 模块最终输出的特征。第3层GMPGated Modal-scalable Perceiver图3右边的大模块是GMP。这是多模态部分最关键的高层融合模块。它拿到的不只是普通特征还拿到两边的 temporal token。也就是说它不是只看“当前 RGB 特征”和“当前热红外/深度/事件特征”还会看“两个模态分别记住的历史轨迹信息”。然后它用 gated attention 去做更高层的跨模态融合。图4(a)是老的注意力方式输入只有 reference frame 和 current search frame。这样做的问题是模型只能在这一对图里找关系。它知道“这张模板图和这张搜索图像不像”但它不知道“目标前几帧是从哪里移动过来的”。图4(b)是concatenated token attention。最简单理解就是把多张参考帧、当前搜索帧、当前 temporal token全部拼到一起让它们一次性做 attention。这样做的原因是大家一起算跨帧关系最充分。结果是模型可以更密集地学习“目标在不同时间的外观变化”和“运动轨迹关系”。图4©是separated token attention。它的思路是不要一锅炖而是拆成三小步。第一步先整合参考帧内部的信息第二步做参考帧和搜索帧之间的关联第三步再让 temporal token 和整个视频序列交互。为什么这么拆因为这样更省算力也更接近“先看历史再看现在再结合记忆”的过程。结果是它在保留时序关联能力的同时计算效率更好一些。本文提出的拼接式 token attention 机制将输入扩展为前面提到的视频序列从而能够对跨帧的时空关系进行更密集的建模。受到语言中“通过拼接形成上下文”这一特点的启发我们也将拼接操作用于建立视频序列的上下文。其公式表示为f t A t t n ( [ { R } k , S t , T t ] ) f_t \mathrm{Attn}([\{R\}_k, S_t, T_t])ft​Attn([{R}k​,St​,Tt​]) ∑ s ′ ′ t ′ ′ V s ′ ′ t ′ ′ ⋅ exp ⁡ ⟨ q s t , k s ′ ′ t ′ ′ ⟩ ∑ s ′ t ′ exp ⁡ ⟨ q s t , k s ′ t ′ ⟩ , (9) \sum_{st} V_{st} \cdot \frac{\exp \langle q_{st}, k_{st} \rangle} {\sum_{st} \exp \langle q_{st}, k_{st} \rangle}, \tag{9}s′′t′′∑​Vs′′t′′​⋅∑s′t′​exp⟨qst​,ks′t′​⟩exp⟨qst​,ks′′t′′​⟩​,(9)其中(T_t) 表示第 ( t ) 帧视频的时序 token 序列。 ([\cdot,\cdot,\cdot]) 表示 token 之间的拼接操作。 (q_{st})、(k_{st}) 和 (v_{st}) 是对拼接后特征 token 做时空线性映射后得到的 query、key 和 value。作者的实验说明两种 attention 都有用但concatenation 略好一点去掉 token association 后AUC 会下降1.2%。这说明 temporal token 不是“加了更好看”而是这个方法真正生效的关键零件。05 实验分析损失函数本文采用分类损失与边界框回归损失联合训练模型。总损失函数为L t o t a l L c l s λ 1 L 1 λ 2 L G I o U L_{total} L_{cls} \lambda_1 L_1 \lambda_2 L_{GIoU}Ltotal​Lcls​λ1​L1​λ2​LGIoU​其中(L_{cls}) 为 Focal Loss用于分类监督(L_1) 和 (L_{GIoU}) 为边界框回归损失用于约束预测框的位置和重叠质量。论文中设置 (\lambda_1 5)(\lambda_2 2)。由于模型采用视频片段建模方式任务损失会对每个视频帧独立计算最终在搜索帧维度上取平均。单模态 RGB 的 SOTA消融实验表 X不同 gated perceivers 的消融。也就是Baseline → Conditional Gate → GMP 这一组最核心的多模态模块消融。表 XIConditional Gate 放几层的消融。表 XIIGMP 放几层的消融。表 XIII门控激活函数的消融也就是 ReLU / Sigmoid / Tanh 对比。表 XIV多模态整体设置的消融也就是RGB-only / Not Share tokenizers / Adapter tuning / Single-task training / UM-ODTrack。实验结果表明本文提出的 ODTrack / UM-ODTrack 在单模态和多模态跟踪任务上都取得了很强的性能。单模态实验说明将传统的图像对建模扩展为视频级建模后模型能够更充分地利用目标的时序变化信息因此在 GOT10K、LaSOT、TrackingNet 等多个基准上均表现出较好的精度和鲁棒性。多模态实验进一步说明本文提出的 Conditional Gate 和 GMP 模块能够有效融合 RGB 与热红外、深度、事件等不同模态信息使统一模型在 RGB-T、RGB-D、RGB-E 多个任务上都取得了领先结果。消融实验则验证了各个核心设计的有效性temporal token association 能显著增强跨帧关联能力合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。总体来看这些实验充分证明了本文方法在时序建模、多模态融合和统一跟踪框架设计上的有效性06 个人声明本文为作者对原论文的学习笔记与心得分享受个人学识与理解所限文中对论文内容的解读或有不够周全之处一切以原论文正式表述为准。本文仅用于学术交流与传播内容均由作者独立整理完成不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议请及时与作者联系作者将在第一时间核实并妥善处理。

更多文章