2025_NIPS_HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models

张开发
2026/4/17 3:31:35 15 分钟阅读

分享文章

2025_NIPS_HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
一、文章主要内容总结该研究针对多模态大型语言模型(MLLMs)训练中存在的计算资源消耗巨大、视觉与文本模态多粒度对齐不足的问题,提出了一种基于双曲空间的高效训练范式HyperET。核心背景是现有MLLMs依赖CLIP、SAM等视觉编码器,这些编码器仅能在单一粒度(如像素级或对象级)与语言对齐,导致跨模态对齐效率低下,需海量GPU资源支撑训练。而双曲空间天然具备层级建模能力,可通过双曲半径量化粒度(原点附近为低粒度视觉特征,边界附近为高粒度语义特征),为解决粒度不匹配问题提供了理论基础。HyperET的核心设计是通过带莫比乌斯乘法运算的可学习矩阵,动态调整视觉表征的双曲半径,实现视觉与文本在任意粒度级别的对齐。具体提供了三种参数高效的矩阵配置:对角缩放矩阵、块对角矩阵和带状矩阵,同时支持扩展为稠密矩阵以提升灵活性。实验验证显示,HyperET在MLLM的预训练(如LLaVA-1.5、LLaVA-Next)和微调(如MemVP、LaVIN)场景中均表现优异,在12个标准多模态基准测试中持续提升模型性能,且仅引入不足1%的额外参数,有效降低了计算开销,同时减少了视觉幻觉问题。二、文章创新点双曲空间粒度建模:首次将双曲空间的层级特性用于解决MLLMs的跨模态粒度不匹配问题,通过双曲半径直接量化视觉表征的粒度级别,为任意粒度对齐提供了 principled 框架。高效半径调整机制:设计基于莫比乌斯乘法的可学习矩阵,实现视觉表征双曲半径的动态、精准调整,避免了传统欧氏空间训练中无约束更新导致的对齐低效问

更多文章