ReDiPrune: Relevance-Diversity Pre-Projection Token Pruning for Efficient Multimodal LLMs——投影前令牌剪枝

张开发
2026/4/7 10:56:12 15 分钟阅读

分享文章

ReDiPrune: Relevance-Diversity Pre-Projection Token Pruning for Efficient Multimodal LLMs——投影前令牌剪枝
一、研究问题与背景多模态大语言模型MLLMs在处理图像和视频时视觉编码器会生成大量视觉令牌tokens导致 Transformer 的注意力计算呈二次方增长带来高延迟、高内存占用和低推理效率的问题。现有方法多是在视觉令牌经过“投影器”映射到语言空间后进行剪枝后投影剪枝这种方式容易丢失细粒度视觉信息且往往需要微调或依赖特定架构。二、核心创新ReDiPrune本文提出ReDiPrune一种免训练、即插即用的令牌剪枝方法其关键创新在于在视觉-语言投影器之前对视觉令牌进行剪枝保留了原始视觉特征的丰富性与判别力。主要特点预投影剪枝直接在视觉编码器输出空间中选择令牌避免跨模态投影后的信息损失。双目标评分机制文本相关性通过提示词构建加权查询向量计算每个视觉令牌与查询的余弦相似度。视觉多样性基于余弦不相似度确保选中的令牌在空间上非冗余。贪心选择策略在每帧内先选择最相关令牌再逐步添加使“最小多样性 加权相关性”最大化的令牌。免训练与架构无关无需重新训练或修改模型结构可插入任何 MLLM 的视觉编码器与投影器之间。三、实验验证1. 模型与基准视频模型Video-LLaVA-7B、LLaVA-NeXT-Video-7B图像模型LLaVA-1.5-7B视频基准NextQA、EgoSchema、ActivityNet-QA、Video-ChatGPT图像基准GQA、MMBench、MME、POPE、ScienceQA-IMG2. 主要结果视频任务在 LLaVA-NeXT-Video-7B 上保留 15% 视觉令牌EgoSchema 准确率提升 2.0%计算量减少 6 倍以上。在 NextQA 和 ActivityNet-QA 上ReDiPrune 在 WUPS 和准确率上均优于 DivPrune 和 CDPruner。图像任务在严格保留 10% 令牌的条件下ReDiPrune 在 GQA、MME、SQA 等五个基准上均取得最高或接近最优的精度。效率分析在视频任务中端到端延迟降低约 3 倍峰值内存显著下降。相比 DivPruneReDiPrune 虽引入少量文本评分开销但精度提升明显。3. 消融与定性分析查询加权策略指数加权在 ActivityNet-QA 上效果最佳表明强调提示后部关键词有助于提升剪枝质量。注意力可视化ReDiPrune 能更集中地将注意力分配到关键动作帧避免冗余帧干扰。定性示例在 TGIF 数据集上ReDiPrune 成功识别出仅出现两帧的“手提包”和“乌龟”等细节对象展现出更强的语义基础能力。四、贡献总结提出 ReDiPrune首个在视觉编码器输出端进行免训练、双目标相关性多样性令牌剪枝的方法。实现高效推理显著降低 MLLMs 的计算量和内存占用同时保持甚至提升任务精度。广泛验证在 9 个视频与图像基准上验证了方法的有效性、鲁棒性与通用性。即插即用无需微调或架构修改易于集成到现有 MLLM 框架中。五、局限与未来方向当前方法仅支持逐帧剪枝未考虑视频帧间的时序全局优化。未来可扩展至更多 MLLM 架构如 Flava、BLIP-2并探索自适应令牌预算策略。ReDiPrune 是一种在视觉-语言投影前通过联合优化文本相关性与视觉多样性实现高效、免训练、即插即用的视觉令牌剪枝方法在显著降低计算成本的同时提升多模态大语言模型的推理精度与效率。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示摘要近期多模态大语言模型由于Transformer必须处理大量视觉令牌而变得计算成本高昂。我们提出了ReDiPrune一种免训练的令牌剪枝方法应用于视觉-语言投影器之前此时视觉特征仍然丰富且具有判别性。与在压缩表示上操作的后投影剪枝方法不同ReDiPrune直接从视觉编码器输出中选择信息丰富的令牌从而保留了细粒度的空间和语义线索。每个令牌通过一个轻量级规则进行评分该规则联合考虑了文本条件下的相关性和最大-最小多样性确保所选令牌既与查询相关又非冗余。ReDiPrune是完全即插即用的无需重新训练或修改架构可以无缝插入到编码器和投影器之间。在四个视频和五个图像基准测试中它持续改善了精度-效率的权衡。例如在EgoSchema上使用LLaVA-NeXT-Video-7B模型仅保留15%的视觉令牌在将计算量TFLOPs减少6倍以上的同时实现了2.0%的绝对精度提升。1. 引言多模态大语言模型MLLMs[9, 20, 26, 30]将仅文本的LLM扩展到联合处理图像、视频和文本近年来取得了快速进展。然而其效率仍然受到Transformer注意力二次方成本的限制其中视觉令牌贡献了大部分的计算开销。密集的空间块和冗余的视觉内容导致令牌序列过长从而带来高内存消耗和慢速推理。在标准的MLLM流程中视觉输入被编码为密集令牌投影到LLM的嵌入空间并与文本令牌交错。这个过程通常会使LLM处理数千个视觉令牌显著增加了序列长度、延迟和内存消耗尤其是在高分辨率图像或长视频的情况下。为了解决这个问题令牌剪枝 [1, 3, 28] 已成为一种通过移除冗余或信息量较少的视觉令牌来减少计算的有效策略。先前的工作 [3, 4, 18] 表明剪枝掉50-95%的视觉令牌可以保持精度并提高效率尽管需要校准或微调的方法在不同架构间适配成本高昂。现有方法主要在令牌移除的位置和方式上有所不同图1。后投影方法图1a作用于投影后的视觉表示ZVP(EV)。代表性方法包括FastV [3]、PruMerge [18]和VTW [11]它们对令牌进行排序或合并以减少冗余但通常以牺牲细粒度空间细节为代价。DivPrune [1] 最大化多样性但忽略了文本而CDPruner [28] 增加了查询条件但仍在投影后进行剪枝此时模态混合可能削弱原始的视觉语义。投影前方法如TRIM [19]图1b通过对CLIP块进行排序并重新训练LLaVA-1.5-TRIM模型来减少令牌。虽然在中度压缩≈21% 令牌下有效但TRIM依赖于大规模指令微调每个主干网络必须在665K个样本上重新训练并且在激进剪枝下性能急剧下降保留5%的令牌会导致在12个基准测试上下降6-8个百分点。其对CLIP和训练的依赖进一步限制了通用性。图1. MLLMs中剪枝策略的比较(a) 后投影剪枝选择多样化的令牌但忽略文本并丢失细节。(b) 文本引导的后投影剪枝提高了查询相关性但丢弃了原始视觉线索。(c) ReDiPrune在投影前使用加权查询嵌入进行令牌剪枝在保留细节的同时平衡了精度和效率。为了解决这些局限性我们引入了ReDiPrune图1c图2一个查询引导的、免训练的令牌选择模块直接在视觉编码器特征空间EV​中操作。ReDiPrune使用一个轻量级目标对视觉令牌进行评分该目标结合了文本相关性和最大多样性从而选择一个语义对齐且非冗余的子集。剪枝在视觉-语言投影器之前执行这样只有被保留的视觉令牌才会被投影并转发给LLM从而减少了端到端的计算。给定输入提示我们构建一个加权的文本查询计算每帧中视觉令牌的相关性得分并在固定预算下贪心地选择令牌。选中的令牌随后被投影并与文本嵌入交错进行解码。这种上游设计避免了在跨模态混合后做出选择决策并带来了切实的效率提升。在ActivityNet-QA [25]上将令牌从2056减少到206使得TFLOPS从11.61降至1.17延迟从0.447秒降至0.146秒。ReDiPrune是跨架构即插即用的因为它可以插入在视觉编码器和投影器之间无需重新训练或特定于模型的调整。通过尽早缩短视觉序列它减少了延迟并加速了跨不同多模态任务的推理。其查询感知选择与多样性正则化也起到了去噪步骤的作用这可以带来微小但持续的精度提升。在基准测试中ReDiPrune在匹配计算量下具有竞争力在更长、更冗余的视频上优势更明显。例如使用LLaVA-NeXT-Video-7B [29]仅保留15%的视觉令牌在EgoSchema上将精度提高了4.6%推理速度提升了2.6倍并在NextQA上将WUPS提高了0.34%速度提升了2.7倍。总的来说ReDiPrune为扩展实际多模态系统提供了一种实用且通用的解决方案而无需牺牲任务性能。我们的主要贡献总结如下我们引入了ReDiPrune一个简单的、免训练的投影前令牌剪枝模块它在提高效率的同时保留了细粒度语义。我们设计了一个轻量级评分目标该目标整合了文本条件相关性与最大-最小多样性实现了每帧信息丰富且非冗余令牌的选择。我们证明了投影前剪枝能有效保留视觉语义并降低计算量。通过在六个视频和五个图像基准测试上的消融研究和实验ReDiPrune持续降低了延迟同时保持或提高了精度在速度和性能之间实现了强大的平衡。2. 相关工作2.1. MLLMs中的令牌减少多模态大语言模型如LLaVA [12]、MiniGPT-4 [31] 和Video-ChatGPT [15] 将视觉编码器与LLM结合但推理常常受限于处理密集的视觉令牌。现有的令牌减少方法主要在LLM内部投影后后投影或在视觉特征空间中投影前前投影进行操作。后投影方法通常利用LLM注意力信号FastV [3] 在各层丢弃低注意力的令牌VTW [11] 通过KL引导搜索在特定层后停止视觉令牌ATP-LLaVA [24] 学习自适应的逐层阈值DART [21] 使用基于枢轴的相似性过滤来减少冗余面向多样性的变体包括使用最大-最小选择的DivPrune [1] 和使用指令条件多样性的CDPruner [28]。投影前方法在投影器之前进行剪枝/合并包括使用ViT注意力合并低显著性块的LLaVA-PruMerge [18]使用CLIP [17] 相似性和自适应阈值选择令牌的TRIM [19]为视频结合时间合并与LLM剪枝的PruneVid [4]以及应用SRM引导搜索来减少LLM权重的EfficientLLaVA [8]尽管投影器的计算可能仍然是一个瓶颈。2.2. 查询感知和文本引导的令牌选择TRIM [19] 通过CLIP [17] 文本-图像相似性选择与查询相关的块但仅在指令微调期间进行。ATP-LLaVA [24] 通过跨模态注意力设置特定层的剪枝阈值。CDPruner [28] 通过文本加权的DPP核结合了指令相关性和多样性但剪枝是在投影后进行的。PruneVid [4] 通过问题到视频的注意力对令牌进行排序。而Q-Adapter [2] 使用适配器改进查询条件而不是减少令牌。与PruMerge [18] 等提示无关策略和DivPrune [1] 中仅多样性选择不同ReDiPrune在投影器之前的视觉特征空间EV​中执行免训练的、查询感知的令牌选择。通过在推理时联合优化文本相关性和最大-最小多样性无需微调或架构更改ReDiPrune实现了高效且上下文敏感的令牌减少同时保持了与现有多模态LLM流程的兼容性。3. 方法我们提出ReDiPrune一个用于多模态LLM的免训练的、即插即用的令牌剪枝模块。ReDiPrune在视觉-语言投影器之前操作选择一小部分视觉令牌这些令牌i与用户提示相关并且ii在每一帧内具有多样性。我们首先描述ReDiPrune在标准MLLM流程中的位置§3.1。接着我们构建一个从提示派生的查询嵌入§3.2定义相关性/多样性评分组件和可选的候选预过滤器§3.3最后介绍一个针对统一目标的贪心求解器并在算法1§3.4中给出完整流程。我们以复杂度和实践注意事项结束§3.5。3.1. 概述与问题设定3.2. 从提示派生的查询嵌入3.3. 评分组件文本相关性与视觉多样性3.4. 统一的相关性-多样性选择3.5. 复杂度和实践集成4. 实验4.1. 实验设置模型与基线我们使用两个视频主干网络 Video-LLaVA-7B [9] 和 LLaVA-NeXT-Video-7B [29]以及一个图像主干网络 LLaVA-1.5-7B [12] 来评估 ReDiPrune。对于每个主干网络我们比较了匹配的基线i相应的未剪枝模型 [9, 12, 29]iiDivPrune [1]和iiiCDPruner [28]。对于仅图像实验我们还包括了 PruMerge [18]、PruMerge [18]、TRIM [19] 和 DART [21]。我们采用 DivPrune 和 CDPruner 作为主要的免训练基线。DivPrune 执行基于多样性的令牌选择而 CDPruner 使用文本引导的评分。其他免训练剪枝方法如 FastV [3] 和 VTW [11]已在 DivPrune 和 CDPruner 的研究中进行了广泛评估并且在可比设置下表现不如它们因此我们专注于这些更强的近期替代方案。对于图像评估我们还包括 DART [21]、LLaVA-PruMerge [18] 和 TRIM [19] 作为基线。我们注意到 TRIM、DART 和 LLaVA-PruMerge 未发布视频模型的代码因此我们的主要研究针对视频设置其中令牌冗余度很大从而为前投影剪枝提供了一个现实的测试平台。基准测试我们评估了 4 项视频-语言和 5 项图像-语言理解任务。视频套件包括 NextQA [23]、EgoSchema [16]、ActivityNet-QA [25] 和 Video-ChatGPT [15]。图像套件包括 GQA [5]、MMB [13]、MME [10]、POPE [7] 和 ScienceQA-IMG (SQA) [14]。指标与协议我们报告准确率和 LLM 辅助评分如适用。对于视频-语言任务ActivityNet-QA 使用准确率和 LLM 评判器使用标准化提示进行评估EgoSchema 仅使用准确率Video-ChatGPT 仅使用 LLM 评判器NextQA 使用 Wu-Palmer 相似度 (WUPS) [22] 进行评估。对于图像-语言任务GQA 和 SQA 报告精确匹配 (EM)MMB 报告准确率MME 报告感知分数 (P-score)POPE 报告 F1。当需要时基于 LLM 的指标通过 ChatGPT API 使用每个基准测试的官方指令模板进行计算以确保模型和剪枝方法之间的一致性。有关这些指标的更多详细信息在补充材料中解释。4.2. 视频-语言理解在本节中我们在两个基于 LLaVA 的视频-语言模型 Video-LLaVA-7B [9] 和 LLaVA-NeXT-Video-7B [30] 上评估我们提出的 ReDiPrune以评估其在各种视频-语言任务上的性能表 1。实验主要在四个数据集上进行ActivityNet-QA [25]、NextQA [23]、EgoSchema [16] 和 Video-ChatGPT [15]。DivPrune [1] 和 CDPruner [28] 被选为可比较的基线代表了视觉令牌剪枝的最新技术进展。所有结果都在我们统一的实验设置下复现以确保公平比较。此外更多的视频-语言理解实验可以在补充材料中找到。对于 Video-LLaVA-7B 主干网络我们比较了原始模型、DivPrune、CDPruner 和我们的 ReDiPrune。所有剪枝方法都将计算成本从 11.89 TFLOPS 显著降低到 1.41 TFLOPS原始的 11.8%同时保持或提高了性能。DivPrune 依赖于基于多样性的令牌选择而 CDPruner 引入了文本条件评分。相比之下ReDiPrune 在一个统一的逐帧剪枝框架内联合建模了视觉多样性和文本相关性提供了最强的整体性能。它在 NextQA 上实现了最高的 WUPS (15.92)在 EgoSchema 上实现了最高的准确率 (43.2)在 ActivityNet-QA 上取得了最佳结果 (45.69 / 3.40)并在 Video-ChatGPT 上获得了最高分 (2.24)。这些结果表明ReDiPrune 在不牺牲实际上还提高了多模态推理质量的情况下移除了冗余的视觉令牌在相同的计算预算下实现了优越的精度-效率权衡。对于 LLaVA-NeXT-Video-7B 主干网络ReDiPrune 再次在性能和效率之间取得了最佳平衡。在将计算量从 29.92 TFLOPS 减少到 4.43 TFLOPS原始的 14.77%的同时它在所有四个基准测试中持续取得了最佳结果。具体来说ReDiPrune 在 NextQA WUPS 上相对于未剪枝基线有所提升 (26.42 vs. 26.33)并显著提高了 EgoSchema 的准确率 (45.6 vs. 43.6)。它还获得了最高的 Video-ChatGPT 分数 (2.663) 和最强的 ActivityNet-QA 性能 (44.83 / 3.06)以明显优势超过了 DivPrune 和 CDPruner。总体而言这些结果表明 ReDiPrune 在效率和多模态理解之间取得了良好的平衡。通过在投影前在帧级别联合优化视觉多样性和文本相关性它在移除冗余令牌的同时保持了语义保真度从而在视频-语言基准测试中支持了更强的推理。定性结果我们在 TGIF 数据集 [6] 上使用 Video-LLaVA-7B [9] 模型展示了定性比较如图 3 所示。每个示例显示了输入提示、问题、真实答案以及来自原始未剪枝模型和其他剪枝方法的模型响应。在第一个示例中未剪枝和基线剪枝模型关注外套而 ReDiPrune 正确识别了仅在两个帧中出现的手提包并生成了与真实答案一致的连贯答案。这一改进表明 ReDiPrune 能更好地保留与查询相关的视觉证据。在第二个示例中所有非 ReDiPrune 模型都预测为猫这可能是由于粗略的形状/颜色线索所致。相反ReDiPrune 准确地将实体识别为乌龟展示了其保留细微但语义重要的视觉指示物的能力。总的来说这些定性发现表明ReDiPrune 促进了增强的视觉基础和语义准确性产生的响应既更精确也更贴近查询的预期含义。表 1. 视频-语言基准测试结果使用 Video-LLaVA-7B [9] 和 LLaVA-NeXT-Video-7B [29]。左侧NextQA/EgoSchema保留比例 0.15TFLOPs 列 1。右侧ActivityNet-QA/Video-ChatGPT保留比例 0.10TFLOPs 列 2。ReDiPrune 实现了最佳的精度-效率权衡。方法NextQA [23]WUPS ↑EgoSchema [16]Acc ↑TFLOPs(比例 %)ActivityNet-QA [25]Acc / Score ↑Video-ChatGPT [15]Score ↑TFLOPs(比例 %)Video-LLaVA-7BOriginal*15.2238.212.177 (100)42.73 / 3.332.1311.606 (100)DivPrune* [1]15.6041.42.188 (17.86)44.63 / 3.372.181.174 (10.11)CDPruner* [28]15.4042.42.188 (17.86)44.86 / 3.372.121.174 (10.11)ReDiPrune15.9243.22.188 (17.86)45.69 / 3.402.241.174 (10.11)LLaVA-NeXT-Video-7BOriginal*26.3343.629.918 (100)44.76 / 3.042.52029.211 (100)DivPrune* [1]23.7038.84.429 (14.77)42.09 / 2.972.6372.712 (9.28)CDPruner* [28]23.5339.24.429 (14.77)41.19 / 2.912.6292.712 (9.28)ReDiPrune26.4245.64.429 (14.77)44.83 / 3.062.6632.712 (9.28)图 3. TGIF 数据集 [6] 上的定性示例使用 Video-LLaVA-7B [9] 模型。对于每个问题我们展示了真实答案以及原始模型、DivPrune [1]、CDPruner [28] 和 ReDiPrune 的响应。ReDiPrune 准确捕捉了动作线索与竞争的剪枝方法相比展示了更强的语义基础和时间理解能力。[图像描述第一组问题“金发女人捡起什么涂上涂层然后打开一扇门” 真实答案“手提包”。原始模型“金发女人捡起一件外套然后打开一扇门。” DivPrune“金发女人捡起一件白色外套并用一个透明塑料袋给它涂上涂层。然后她打开一扇门。” CDPruner“金发女人捡起一件外套并用一个喷雾瓶给它涂上涂层。然后她打开一扇门。” ReDiPrune“金发女人捡起一个白色手提包用一种透明物质给它涂上涂层然后打开一扇门。” 第二组问题“什么在木地板上骑着吸尘器” 真实答案“乌龟”。原始模型“一只猫在木地板上骑着吸尘器。” DivPrune“一只猫在木地板上骑着吸尘器。” CDPruner“一只猫在木地板上骑着吸尘器。” ReDiPrune“一只小乌龟在木地板上骑着吸尘器。”]4.3. 图像-语言理解我们使用 LLaVA-1.5-7B [12] 在五个基准测试上评估 ReDiPrune 的图像-语言理解能力GQA [5]、MMBench [13]、MME [10]、POPE [7] 和 ScienceQA-IMG [14]。比较对象包括未剪枝的 LLaVA-1.5-7B 和六个剪枝基线PruMerge [18]、PruMerge [18]、TRIM [19]、DART [21]、DivPrune [1] 和 CDPruner [28]。如表 2 所示ReDiPrune 在严格保持相同令牌预算的情况下在所有基准测试中都取得了强劲的性能。一些基线如 PruMerge使用更大的令牌预算因此在此约束下不能直接比较。在 POPE 数据集上ReDiPrune 获得了 85.39 的 F1 分数与 DivPrune 持平并且与未剪枝模型 (85.9) 的差距在 0.5 以内。在 SQA 数据集上它取得了最高的 EM 分数 (69.11)优于所有剪枝方法例如DivPrune 为 68.32CDPruner 为 68.52。ReDiPrune 还在 GQA EM (57.62) 上取得了最佳成绩在 MME P-score (1392.90) 上最高并在 MMBench (59.88) 上取得了有竞争力的准确率。尽管 DART 报告的 MMBench 分数略高 (60.90)但它使用了不同的自动评判器版本我们的版本是 gpt-3.5-turbo-0125而 DART 使用的是 gpt-3.5-turbo-0613这可能解释了差异。虽然 PruMerge 表现具有竞争力例如POPE 上 82.88MME 上 1439.12但它没有严格遵守相同的剪枝比例。它的结果依赖于除了主要选择之外还保留了所有空间采样和聚合的令牌使得有效令牌预算根据输入图像分辨率提升到大约 18-30%。相比之下原始的 PruMerge 遵循严格的r0.1设置并显示出相应较低的性能例如POPE 上 64.2MME 上 1218.13。对于 TRIM [19]我们报告了两种设置以区分指令微调与剪枝的影响。TRIM* 遵循原始的指令微调流程在r0.1下使用 TRIM而 TRIM** 是我们以相同保留比例实现的免训练版本。TRIM** 在 TRIM* 基础上持续改进并提供了一个更强的免训练基线但在表 2 中在相同严格的令牌预算下ReDiPrune 在每个基准测试上仍然取得了更高的准确率。特别是ReDiPrune 在所有五个图像数据集上都取得了最佳准确率同时匹配了 TRIM 的计算成本。总体而言ReDiPrune 在严格的令牌预算下实现了最强的精度-效率权衡展示了其在各种图像-语言任务中的鲁棒性能和泛化能力。表 2. 图像-语言基准测试结果使用 LLaVA-1.5-7B [12] 主干网络。结果显示即使在严格的保留比例r0.1下ReDiPrune 也能提供强大的准确率证明了其预投影剪枝策略的有效性。请注意PruMerge [18] 使用更大的有效令牌预算。TRIM** [19] 是我们自己设置中的免训练实现而 TRIM* [19] 是按照原始论文中描述的指令微调流程在r0.1下复现的。方法GQA [5]EM ↑MMB [13]Acc ↑MME [10]P-score ↑POPE [7]F1 ↑SQA [14]EM ↑视觉 TFLOPsOriginal*61.9664.71506.585.9669.5762.23 (100)PruMerge* [18]51.7954.891218.1364.2667.82580.53 (16.13)PruMerge* [18]59.4563.231439.1282.8867.722301.41 (43.53)TRIM* [19]39.0758.161074.3171.1567.65580.53 (16.13)TRIM** [19]54.1759.441261.3383.9968.17580.53 (16.13)DART* [21]55.7760.901378.5471.8568.96580.53 (16.13)DivPrune* [1]57.3659.451361.6285.3968.32580.54 (16.42)CDPruner* [28]57.2158.421355.8582.1468.52580.53 (16.13)ReDiPrune57.6259.881392.9085.3969.11580.53 (16.29)4.4. 效率分析表 3 报告了在 ActivityNet-QA [25] 上对两个视频主干网络Video-LLaVA-7B [9] 和 LLaVA-NeXT-Video-7B [29]以及在五个图像数据集上对 LLaVA-1.5-7B [12] 图像主干网络的平均效率进行的计算效率比较。我们比较了预填充时间、端到端E2E延迟和最大 GPU 内存使用量。在 ActivityNet-QA 上剪枝持续降低了预填充时间和端到端延迟同时也降低了两类视频主干网络的峰值 GPU 内存。对于 Video-LLaVA-7BE2E 延迟从 0.447 秒原始降至 0.124 秒DivPrune、0.166 秒CDPruner和 0.146 秒ReDiPrune对于 LLaVA-NeXT-Video-7B延迟从 0.526 秒降至 0.163 秒、0.250 秒和 0.205 秒。峰值内存从 Video-LLaVA-7B 的 29.92GB 降至 27.96GB从 LLaVA-NeXT-Video-7B 的 16.54GB 降至 13.76GB反映了剪枝后视觉令牌工作负载的减轻。DivPrune 实现了最低的预填充时间和 E2E 延迟因为它与文本无关避免了文本条件评分的开销。相比之下CDPruner 和 ReDiPrune 结合了文本引导的评分这引入了较小的运行时成本但更好地保留了语义相关的视觉证据。尽管有这种适度的开销ReDiPrune 仍然保持了高效在 Video-LLaVA-7B 上为 0.146 秒在 LLaVA-NeXT-Video-7B 上为 0.205 秒同时提供了更强的任务性能这反映在表 1 中更高的基准测试分数上。对于 LLaVA-1.5-7B报告的数字是 5 个图像数据集的平均值其中单图像输入的令牌冗余度低于视频。因此剪枝带来了较小但一致的延迟改进从 0.201 秒到 0.137 秒和适度的预填充减少从 0.069 秒到 0.053 秒而峰值内存在各方法间保持不变为 13.23GB。表 3 显示预投影剪枝主要通过减少预填充和总解码时间来加速推理在令牌冗余度高的视频模型中收益最大。ReDiPrune 实现了与 DivPrune/CDPruner 相当的效率同时在视频基准测试中提供了更强的准确性表 1支持了准确性和效率之间的权衡。表 3. 效率比较。ActivityNet-QA [25] 上 Video-LLaVA-7B [9] 和 LLaVA-NeXT-Video-7B [29] 的结果以及 LLaVA-1.5-7B [12] 在五个数据集上的平均结果。指标预填充时间、端到端E2E延迟和最大 GPU 内存。4.5. 消融研究与分析剪枝效果如表 1 所示与其他剪枝方法相比ReDiPrune 在所有基准测试上持续提高了准确率和 WUPS。相比之下在 LLaVA-NeXT-Video-7B 主干网络 [29] 上DivPrune 和 CDPruner 在 NextQA [23] 和 EgoSchema [16] 上的表现均不如未剪枝模型。这凸显了应用仅多样性或相关性条件的后投影剪枝可能会移除有用的上下文线索而我们的统一方法能更好地保留与任务相关的视觉语义。为了探究剪枝为何有帮助我们在 NextQA 的一个样本上检查了对视频帧的注意力查询见图 4。图 4 可视化了注意力图及其逐帧直方图。在原始模型中注意力广泛分布在冗余帧上包括婴儿保持静止或背景物体占主导的帧从而削弱了模型关注目标动作的能力。DivPrune 缩小了这种分布但缺乏语义引导有时会强调视觉上不同但无关的帧CDPruner 增加了文本条件但倾向于过度拟合局部相关区域忽略了全局时间线索。相比之下ReDiPrune 将更强的注意力分配到关键动作帧f0-f3即婴儿拿起并接触杯子的帧同时抑制了序列中后期的冗余帧。这种选择性关注将视觉注意力与语言查询对齐从而实现了更连贯的推理和更准确的预测。总的来说ReDiPrune 中的剪枝起到了隐式正则化的作用通过移除冗余或噪声的视觉令牌它增强了模型将视觉证据与查询对齐和关联的能力从而即使在减少令牌预算的情况下也能提高多模态推理性能。图 4. NextQA 样本上的注意力分布比较。查询“婴儿是捡起还是放下杯子” 原始模型左的注意力分布分散在冗余帧上。DivPrune中左缩小了分布但缺乏语义引导。CDPruner中右添加文本条件但过度拟合局部区域。ReDiPrune右将注意力集中在关键动作帧上f0-f3。[图像描述四个柱状图分别对应原始模型、DivPrune、CDPruner 和 ReDiPrune显示了每帧f0 到 f12的注意力权重。ReDiPrune 的柱状图在 f0-f3 帧上权重明显更高。]查询权重的影响表 4 检查了在 LLaVA-NeXT-Video-7B 上ActivityNet-QA 任务中生成查询嵌入qq的不同查询加权策略。移除文本条件导致性能明显下降表明视觉剪枝必须由问题引导。均匀和平均加权通过添加基本语义信号带来了小幅提升而中峰和自注意力方案通过强调提示中的关键部分如动词和名词表现得更好。指数加权我们论文中的默认策略获得了最佳结果44.8250 / 3.0636这表明逐渐增加查询末尾的权重有助于捕捉在指令式提示中出现在后面的关键动词和实体。总的来说结果表明指数加权能更好地突出信息丰富的词从而实现更清晰的文本引导剪枝和改进的多模态推理。5. 结论我们提出了 ReDiPrune一种用于多模态大语言模型的免训练预投影令牌剪枝方法。通过直接在视觉编码器特征空间中联合建模文本条件相关性和视觉多样性ReDiPrune 在跨模态投影之前选择了一个紧凑且具有代表性的视觉令牌子集。这种设计在保留细粒度语义的同时大幅减少了下游计算量。在多个视频和图像基准测试上ReDiPrune 在严格的令牌预算下持续实现了强大的精度-效率权衡通常在显著降低 TFLOPS 和延迟的同时提高了任务性能。局限性与未来工作我们的实验主要集中在 LLaVA 风格的架构和逐帧选择上。将 ReDiPrune 扩展到更多样化的多模态主干网络以及全局优化的时空剪枝仍是未来的工作。此外自适应令牌预算策略可能会进一步提高跨任务和输入复杂度的鲁棒性。

更多文章