TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

张开发

• 2026/4/17 12:44:15 • 15 分钟阅读

分享文章

01 论文信息论文题目Towards Universal Modal Tracking With Online Dense Temporal Token Learning论文作者Yaozong Zheng, Bineng Zhong, Qihua Liang 等发表单位Guangxi Normal University、Xiamen University 等发表会议\期刊IEEE TPAMI 2025代码链接https://github.com/GXNU-ZhongLab/ODTrack02 论文主要贡献传统方法的三个核心痛点第一image-pair sampling 太稀疏。很多跟踪器只取一个参考帧和一个搜索帧。这样做的问题是模型更像在做“瞬时匹配”对目标长时间运动趋势、遮挡前后变化、视角连续变化理解不足。第二image-pair matching 只做局部匹配。即便有些工作引入了时序信息很多也只是把几帧额外塞进去并没有真正建立跨 search frame 的持续关联。也就是说模型知道“这两帧像不像”但不一定知道“这个目标一路是怎么过来的”。第三多模态方法普遍 one-model-to-one-task。RGB-T 一个模型RGB-D 一个模型RGB-E 再一个模型。这样虽然各做各的能 work但训练成本高、泛化差、参数无法共享也不适合做“通用跟踪器”论文主要贡献它把传统跟踪里“模板帧搜索帧”的图像对匹配范式改成了视频级建模。作者认为过去很多方法只看一对图虽然简洁但对目标的运动状态、时序变化、跨帧连续性理解不够因此本文把输入从 image pair 扩展成 video clip让模型从更长时间范围内学习目标轨迹信息。它提出了一个在线密集时序 token 学习机制。作者把跟踪重新表述成一种“token 传播”任务当前帧提炼出一个 temporal token这个 token 继续传给下一帧相当于把“目标长什么样、在哪、怎么动”浓缩进一个记忆向量里后续帧推理时直接拿来用减少传统在线更新那种复杂规则和额外优化步骤。它进一步提出 UM-ODTrack把单模态 ODTrack 扩展成通用多模态跟踪框架。关键做法是共享模态 tokenizer、共享 universal modal encoder再加两个 gated perceiverConditional Gate 和 GMP最后通过 one-shot training 把 RGB-T、RGB-D、RGB-E 多任务一起学进一套参数里实现 one-model-to-many-tasks。03 论文创新点从“图像对跟踪”升级到“视频级跟踪”传统 tracker 大多只看一对图做匹配本文把整段视频视作连续序列让模型真正具备时序理解能力而不是只做局部匹配。提出 temporal token propagation把历史信息变成可传播记忆temporal token 不是普通特征而是目标外观、位置、轨迹的压缩表示。它在帧与帧之间自回归传播相当于让模型“边跟边记”。提出通用多模态设计共享编码 gated perceiver one-shot training这不是简单把 RGB 和热红外/深度/Event 拼起来而是通过门控机制判断“当前该更信哪种模态”并在一个统一参数空间里完成多任务推理减少多模型分别训练的成本。04 方法4.1 整体框架UM-ODTrack传统跟踪公式传统 tracker 可以写成B Ψ ( R , S ) B \Psi(R, S)BΨ(R,S)也就是给参考帧R RR和搜索帧S SS输出当前帧目标框B BB。Transformer tracker 通常把参考图和搜索图切成 patch变成 token再做注意力建模。作者把公式扩展成B Ψ ( { R } k , { S } n , T ) B \Psi(\{R\}^k, \{S\}^n, T)BΨ({R}k,{S}n,T)这里{ R } k \{R\}^k{R}k是多张参考帧{ S } n \{S\}^n{S}n是多张搜索帧T TT是 temporal token。如果进入多模态版本还会把辅助模态的参考帧/搜索帧也一起送进来形成统一多模态建模。先取一小段视频不是只取两张图模型输入是一个video clip。里面有若干张参考帧也有若干张搜索帧而且可以来自不同模态。作者这样做的原因很直接如果只看两张图模型只能知道“这一帧像不像上一帧”但如果看一小段视频它才能更好地理解目标的运动趋势、外观变化、遮挡前后变化。所以第一步的作用就是把输入从“静态图像对”升级成“短视频片段”。把每一帧变成模型能处理的 token进入模型后图像先要被变成 token。你不用把 token 想得太神秘可以先把它理解成把图像切成很多小块再把每个小块变成一个向量。这样做的结果是后面的 transformer/encoder 就能像处理“序列”一样处理整张图。对这篇论文来说这一步很重要因为后面要做的不只是看当前帧还要把前后帧的信息放到同一个序列里一起算。Universal Modal Encoder 提取统一特征图2里绿色模块是Universal Modal Encoder。它做的事情可以简单理解成把输入帧里的有用信息提出来变成更抽象、更适合比较的特征。为什么一定要有这一步因为原始像素太杂不能直接拿来比较目标。经过 encoder 之后模型才能更容易知道“哪里像目标哪里不像目标”。结果就是后面的跟踪模块不是直接对着原图工作而是对着“更有语义、更稳定”的特征工作。Temporal Token Association 从当前片段里“提炼记忆图2里紫色模块是Temporal Token Association。这是整篇文章的灵魂。它不是只输出当前帧特征而是额外提炼出一个temporal token。这个 token 可以理解成一张很小的“记忆卡片”里面浓缩了三类信息目标现在长什么样目标现在大概在哪里目标最近是怎么运动的。作者明确说这个 token 的目的就是存储目标在视频里的外观和时空轨迹信息。为什么要单独提炼这个 token因为作者不想让模型每到新的一帧都“从零开始”。有了这个 token当前帧处理完以后不只是得到了当前结果还顺手把“这一路看下来的经验”压缩成了一个可传播的记忆。结果是后续帧推理会更稳。把 token 继续传给下一帧图2最关键的一根紫色箭头就是token propagation。当前帧得到的T t T_tTt不会扔掉而是传给下一帧形成下一时刻的输入记忆。作者把这个过程写成一种自回归传播当前 token 和下一帧的空 token 结合生成新的 token再参与下一帧推理。这一步为什么重要因为跟踪本来就是一个连续任务。目标上一帧在左边下一帧大概率不会突然飞到完全无关的地方。token 传播的结果就是模型把这种连续性真正利用起来了。所以你可以把它理解成一根“接力棒”上一帧把对目标的理解交给下一帧继续用。Prediction Head 输出目标最后模型通过一个比较常规的预测头输出结果。作者这里没有把 head 设计得特别花哨还是常见的分类分数图、框大小、偏移量三个分支。也就是说这篇论文真正的创新重点不在“最后怎么出框”而在“前面怎么把视频信息和多模态信息组织起来”。结果就是预测头本身不复杂但前面给它喂进去的信息更强了所以最后框也更准。4.2 多模态部分第1层Modality Tokenizer图3左边你会看到三类输入RGBDepth、RGBThermal、RGBEvent。传统想法是不同模态长得很不一样所以每种模态都设计一个独立 tokenizer。作者设计了一个shared modality tokenizer用统一方式把不同模态都变成同一种 token 序列。具体做法上用一个 2D 卷积层作为统一 tokenizer。第2层Conditional Gate图3中间、encoder 里面那个黄色竖条就是Conditional Gate。你可以把它想成一个“调节阀”。它的作用不是简单把 RGB 和深度/热红外/事件特征直接相加而是先对齐再决定“这次该融合多少”。作者明确说这个 gate 会根据不同模态的质量来动态控制融合强度。f ^ g a t e ⁣ ( σ ( [ f t , f t ′ ] ) ) f , f ∈ { f t , f t ′ } \hat{f} gate\!\left(\sigma([f_t, f_t])\right) f, \quad f \in \{f_t, f_t\}f^gate(σ([ft,ft′]))f,f∈{ft,ft′}其中( f_t ) 和 ( f’_t ) 分别表示在某一特定模态下从第 ( t ) 帧视频中提取出的可见光模态特征和辅助模态特征。 ( \sigma(\cdot) ) 是一个用于调整维度的嵌入层。 ( gate(\cdot) ) 是一个门控网络。它会根据不同模态源之间的质量自适应地控制多模态跟踪中的表征学习这种质量由一个两层感知机和一个门控激活函数来评估。 ( \hat{f} ) 表示条件门控模块输出的特征。因此我们设计了一种新的模态可扩展感知器modal-scalable perceiver它基于一种门控注意力机制用于进一步增强模型在多模态跟踪场景中的感知能力。更具体地说学习得到的多模态表征会与两个时序模态 token进行交叉注意力计算从多个视角构建通用的模态依赖关系。这个多模态关系可以表示为f p U M - A t t n ( σ ( [ f t , f t ′ ] ) , [ T t , T t ′ ] ) , (6) f_p \mathrm{UM\text{-}Attn}(\sigma([f_t, f_t]), [T_t, T_t]), \tag{6}fpUM-Attn(σ([ft,ft′]),[Tt,Tt′]),(6)f ^ p g a t e ( f p ) f p , (7) \hat{f}_p gate(f_p) f_p, \tag{7}f^pgate(fp)fp,(7)f ~ p U M - M L P ( f ^ p ) , (8) \tilde{f}_p \mathrm{UM\text{-}MLP}(\hat{f}_p), \tag{8}f~pUM-MLP(f^p),(8)其中(\mathrm{UM\text{-}Attn}(\cdot,\cdot)) 表示一个多模态交叉注意力层其中前一个输入作为query后一个输入作为key和value。 (\mathrm{UM\text{-}MLP}(\cdot)) 表示一个多模态前馈网络层。 (f_p) 表示 GMP 模块中经过 UM-Attn 操作后的输出特征。 (\hat{f}_p) 表示 GMP 模块中经过 gate 操作后的输出特征。 (\tilde{f}_p) 表示 GMP 模块最终输出的特征。第3层GMPGated Modal-scalable Perceiver图3右边的大模块是GMP。这是多模态部分最关键的高层融合模块。它拿到的不只是普通特征还拿到两边的 temporal token。也就是说它不是只看“当前 RGB 特征”和“当前热红外/深度/事件特征”还会看“两个模态分别记住的历史轨迹信息”。然后它用 gated attention 去做更高层的跨模态融合。图4(a)是老的注意力方式输入只有 reference frame 和 current search frame。这样做的问题是模型只能在这一对图里找关系。它知道“这张模板图和这张搜索图像不像”但它不知道“目标前几帧是从哪里移动过来的”。图4(b)是concatenated token attention。最简单理解就是把多张参考帧、当前搜索帧、当前 temporal token全部拼到一起让它们一次性做 attention。这样做的原因是大家一起算跨帧关系最充分。结果是模型可以更密集地学习“目标在不同时间的外观变化”和“运动轨迹关系”。图4©是separated token attention。它的思路是不要一锅炖而是拆成三小步。第一步先整合参考帧内部的信息第二步做参考帧和搜索帧之间的关联第三步再让 temporal token 和整个视频序列交互。为什么这么拆因为这样更省算力也更接近“先看历史再看现在再结合记忆”的过程。结果是它在保留时序关联能力的同时计算效率更好一些。本文提出的拼接式 token attention 机制将输入扩展为前面提到的视频序列从而能够对跨帧的时空关系进行更密集的建模。受到语言中“通过拼接形成上下文”这一特点的启发我们也将拼接操作用于建立视频序列的上下文。其公式表示为f t A t t n ( [ { R } k , S t , T t ] ) f_t \mathrm{Attn}([\{R\}_k, S_t, T_t])ftAttn([{R}k,St,Tt]) ∑ s ′ ′ t ′ ′ V s ′ ′ t ′ ′ ⋅ exp ⁡ ⟨ q s t , k s ′ ′ t ′ ′ ⟩ ∑ s ′ t ′ exp ⁡ ⟨ q s t , k s ′ t ′ ⟩ , (9) \sum_{st} V_{st} \cdot \frac{\exp \langle q_{st}, k_{st} \rangle} {\sum_{st} \exp \langle q_{st}, k_{st} \rangle}, \tag{9}s′′t′′∑Vs′′t′′⋅∑s′t′exp⟨qst,ks′t′⟩exp⟨qst,ks′′t′′⟩,(9)其中(T_t) 表示第 ( t ) 帧视频的时序 token 序列。 ([\cdot,\cdot,\cdot]) 表示 token 之间的拼接操作。 (q_{st})、(k_{st}) 和 (v_{st}) 是对拼接后特征 token 做时空线性映射后得到的 query、key 和 value。作者的实验说明两种 attention 都有用但concatenation 略好一点去掉 token association 后AUC 会下降1.2%。这说明 temporal token 不是“加了更好看”而是这个方法真正生效的关键零件。05 实验分析损失函数本文采用分类损失与边界框回归损失联合训练模型。总损失函数为L t o t a l L c l s λ 1 L 1 λ 2 L G I o U L_{total} L_{cls} \lambda_1 L_1 \lambda_2 L_{GIoU}LtotalLclsλ1L1λ2LGIoU其中(L_{cls}) 为 Focal Loss用于分类监督(L_1) 和 (L_{GIoU}) 为边界框回归损失用于约束预测框的位置和重叠质量。论文中设置 (\lambda_1 5)(\lambda_2 2)。由于模型采用视频片段建模方式任务损失会对每个视频帧独立计算最终在搜索帧维度上取平均。单模态 RGB 的 SOTA消融实验表 X不同 gated perceivers 的消融。也就是Baseline → Conditional Gate → GMP 这一组最核心的多模态模块消融。表 XIConditional Gate 放几层的消融。表 XIIGMP 放几层的消融。表 XIII门控激活函数的消融也就是 ReLU / Sigmoid / Tanh 对比。表 XIV多模态整体设置的消融也就是RGB-only / Not Share tokenizers / Adapter tuning / Single-task training / UM-ODTrack。实验结果表明本文提出的 ODTrack / UM-ODTrack 在单模态和多模态跟踪任务上都取得了很强的性能。单模态实验说明将传统的图像对建模扩展为视频级建模后模型能够更充分地利用目标的时序变化信息因此在 GOT10K、LaSOT、TrackingNet 等多个基准上均表现出较好的精度和鲁棒性。多模态实验进一步说明本文提出的 Conditional Gate 和 GMP 模块能够有效融合 RGB 与热红外、深度、事件等不同模态信息使统一模型在 RGB-T、RGB-D、RGB-E 多个任务上都取得了领先结果。消融实验则验证了各个核心设计的有效性temporal token association 能显著增强跨帧关联能力合适的视频片段长度和采样范围有助于学习更稳定的目标轨迹信息而 shared tokenizer、门控融合机制以及 one-shot multi-task training 共同保证了模型的通用性与性能。总体来看这些实验充分证明了本文方法在时序建模、多模态融合和统一跟踪框架设计上的有效性06 个人声明本文为作者对原论文的学习笔记与心得分享受个人学识与理解所限文中对论文内容的解读或有不够周全之处一切以原论文正式表述为准。本文仅用于学术交流与传播内容均由作者独立整理完成不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议请及时与作者联系作者将在第一时间核实并妥善处理。

更多文章

前端开发 2026/4/17 12:42:20

电赛实战：基于压控增益放大器的可变频率滤波器设计与实现

1. 压控增益放大器基础与电赛需求全国大学生电子设计竞赛中，信号调理类题目常涉及频率变换与波形转换。去年赛题"输入方波输出三倍频正弦波"就是典型案例——这要求选手掌握压控增益放大器（VCA）与可变滤波器的协同设计。我当年第一…

如何在5分钟内用游戏手柄控制你的电脑：Gopher360完整指南【免费下载链接】Gopher360 Gopher360 is a free zero-config app that instantly turns your Xbox 360, Xbox One, or even DualShock controller into a mouse and keyboard. Just download, run, and rel…

张开发

前端开发 2026/4/17 12:23:16

Anthropic自动化对齐研究员：AI自我进化的突破与隐忧

202年4月14日，Anthropic发布了一篇震动AI界的论文《Automated Alignment Researchers》。9个Claude Opus 4.6副本，用5天时间、1.8万美元，在一项AI对齐任务上将人类专家碾压至23% vs 97%的PGR得分。然而更值得关注的是：当这些AI研究…

张开发

TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

最新文章

如何快速掌握缠论分析：开源缠论可视化插件的完整实战指南

JIRA仪表盘深度配置指南：从权限设置到自定义小程序订阅，打造团队专属数据墙

Winhance中文版：构建Windows系统优化的终极解决方案

Open WebUI 高效部署指南：从零到企业级实战应用

0 基础阿里云运维 Docker 保姆级全流程（2026 最新）

【企业级AIGC代码准入白皮书】：基于ISO/IEC 25010标准的7维质量评估模型落地实录

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

电赛实战：基于压控增益放大器的可变频率滤波器设计与实现

如何向开源社区提问？

一文讲清，LPA分层审核怎么分层？LPA分层审核的层级划分与实施要点

调优系统性能知识点问答

避坑指南：在Windows 10/11上跑通动漫人脸检测项目（解决dlib、animeface安装报错）

MathType 7安装激活全攻略：从下载到Word插件配置（附常见问题解决）

告别信号失真！5G/Wi-Fi 6中的OFDM峰均比（PAPR）问题，用Python仿真带你搞懂限幅与滤波

SAP ABAP开发实战：5分钟搞定调用外部REST API（含Basic Auth认证完整代码）

别再死记硬背公式了！用Python+NumPy手把手带你理解B样条曲线的局部支撑性

VisualCppRedist AIO实战指南：5分钟解决所有VC++运行库安装问题

如何在5分钟内用游戏手柄控制你的电脑：Gopher360完整指南

Anthropic自动化对齐研究员：AI自我进化的突破与隐忧

TPAMI 2025 | 基于在线密集时序 Token 学习的通用模态跟踪研究

最新文章

如何快速掌握缠论分析：开源缠论可视化插件的完整实战指南

JIRA仪表盘深度配置指南：从权限设置到自定义小程序订阅，打造团队专属数据墙

Winhance中文版：构建Windows系统优化的终极解决方案

Open WebUI 高效部署指南：从零到企业级实战应用

0 基础阿里云运维 Docker 保姆级全流程（2026 最新）

【企业级AIGC代码准入白皮书】：基于ISO/IEC 25010标准的7维质量评估模型落地实录

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术