复旦大学与腾讯联手,让AI学会“看图说路“

张开发
2026/4/21 16:02:58 15 分钟阅读

分享文章

复旦大学与腾讯联手,让AI学会“看图说路“
这项研究由复旦大学、腾讯、厦门大学和上海交通大学联合完成论文于2026年4月挂载于预印本平台arXiv编号为arXiv:2604.09201v1分类为计算机视觉领域cs.CV。有兴趣深入了解的读者可以通过该编号查询完整论文。你有没有试过给视频编辑软件描述摄像机缓缓向前推进同时向右转然后发现软件完全不理你或者相反你想让视频自动生成一个电影感镜头却必须自己手动输入一堆枯燥的数字参数这正是当今视频生成技术面临的一个尴尬困境——要么给软件说话它听不懂要么软件能控制摄像机但你得像工程师一样手动填写坐标。这支由复旦大学和腾讯牵头的研究团队决心从根本上解决这个问题。他们提出了一个叫做CT-1Camera Transformer 1摄像机变换器第一代的全新模型让机器能够真正读懂用户的意图并自动规划出符合场景的摄像机运动路径最终生成高质量的可控视频。一、为什么摄像机控制这么难拍电影时摄影师的工作不只是按下录制键。他们要根据场景内容、故事氛围和导演意图精心设计摄像机的每一个动作——是缓慢推进营造紧张感还是快速平移跟踪奔跑的主角抑或是绕着一个建筑物弧形运动来展示宏大视角。这套技能需要多年经验积累而且和看图的能力密切相关同样是靠近拍摄对着一只猫的特写和对着一座摩天大楼的俯拍摄像机该怎么动完全不同。现有的AI视频生成方法大体分两类。第一类是用文字指令来控制比如直接告诉系统摄像机向左移但这类方法就像对着一个听觉不太好的人大声说话——它能模糊地感知你的意思但很难精确执行。研究团队测试了当时最先进的Wan2.2模型发现它经常对向右横移同时向后拉远这类复杂指令完全无动于衷生成的视频里镜头纹丝不动。第二类方法则要求用户直接输入精确的摄像机坐标参数这就好比你想让朋友帮你搬一把椅子却要先给他一份标注了厘米精度的工程图纸——门槛极高普通人根本无从下手。这两种方法之间有一条巨大的鸿沟一边是说了也没用另一边是太专业用不了。CT-1的目标就是在这两者之间架起一座桥梁。二、CT-1的核心思路让AI像摄影师一样看图规划路线研究团队提出了一个新颖的概念框架叫做视觉-语言-摄像机模型Vision-Language-Camera Model简称VLC模型。这个名字听起来有些绕但道理其实很直白给AI同时看一张参考图片再配合一段文字描述比如摄像机沿着街道向前移动慢慢靠近高楼让AI综合这两种信息自动推算出一条合理的摄像机运动路径然后再把这条路径交给视频生成系统驱动它输出对应的视频。可以用一个生活场景来理解这个过程。假设你要从家里导航去一个陌生的地方你会先看看地图对应看图再根据去市中心那个有大钟楼的广场这个描述对应理解文字然后规划出一条具体的行驶路线对应预测摄像机轨迹最后按照这条路线开车过去对应生成视频。CT-1做的正是这套导航员的工作只不过它导航的是摄像机在三维空间里的运动。这个思路之所以重要在于它解决了一个过去被忽视的问题摄像机该怎么动不只取决于你说了什么还取决于场景长什么样。在一条狭窄的胡同里和在一片开阔的草原上即使你给出同样的向前推进指令合理的摄像机路径也应该截然不同。CT-1通过同时处理图像和文字让这种场景感知成为可能。三、CT-1的内部构造三个紧密协作的部门CT-1的内部架构可以比作一家运作高效的制片公司里面有三个部门各司其职最终共同完成一部视频的制作。第一个部门是视觉语言理解组。这个组的任务是把输入的图片和文字转化为机器能处理的信息。图片部分他们同时使用了两套视觉识别工具一套叫DINOv2擅长捕捉图片里的细节纹理比如砖墙的缝隙、叶子的脉络另一套叫SigLIP更善于理解高层次的语义比如这是一个繁忙的十字路口。两套工具的结果拼合在一起就像同时用放大镜和望远镜观察场景——既看到了细节又看到了全局。文字部分团队采用了LLaMA-2这个强大的语言模型来理解用户的描述。最关键的设计是他们在文字序列里加入了一个特殊的摄像机感知标记用符号表示。这个标记就像一个专门负责摄像机事务的代理人它在处理过程中会从图片信息和文字信息中汇集与摄像机运动相关的核心内容形成一个浓缩的摄像机意图摘要传递给下一个部门。第二个部门是轨迹规划组也就是摄像机变换器本身。它的任务是根据前一个部门传来的摄像机意图摘要生成具体的摄像机运动轨迹——也就是摄像机在每个时间点的位置和朝向。这里有一个非常有意思的设计选择。过去很多类似的AI任务都是让模型直接输出一个固定的答案好比让人猜一个唯一正确的数字。但摄像机轨迹这件事本来就没有唯一正确答案同样是缓缓推进靠近主角摄像机可以从正面推也可以从左前方斜推甚至可以先稍微上升再推这些都是合理的选择。正因如此研究团队选择了一种叫扩散变换器的方法来生成轨迹。这种方法的工作原理类似于雕塑家从一块原石中逐步打磨出作品一开始先生成一个模糊、带噪声的轨迹然后一步步去噪、修正最终得到一条平滑、合理的摄像机路径。这种方法天然支持同一个输入每次可以生成不同但都合理的轨迹非常适合摄像机运动这种本质上多解的任务。第三个部门是视频生成组。它接收到规划好的摄像机轨迹之后以此为控制信号结合参考图片和文字描述生成最终的视频。研究团队在主要实验中使用了一个叫CameraNoise的视频扩散模型作为这个部门的主力工具同时也验证了把CT-1的轨迹输出接入CameraCtrl和MotionCtrl等其他模型同样有效。这三个部门之间采用了模块解耦的设计意思是CT-1负责规划路线视频生成模型负责开车两者可以灵活替换组合不需要改动彼此的核心结构。四、一个关键创新用音乐频率分析的思路来优化摄像机路径在训练CT-1的过程中研究团队发现了一个有趣的现象并由此发展出一项重要的技术创新。摄像机的运动轨迹其实和音乐信号有着相似的结构。音乐里有低频的基调比如大提琴的沉稳旋律和高频的装饰比如小提琴的快速颤音。摄像机轨迹同样如此低频部分代表摄像机的整体运动方向和大致路径高频部分则捕捉细微的抖动和快速的局部调整。研究团队对1000段摄像机轨迹做了系统分析发现了几个规律。低频成分主导了摄像机运动的能量分布也就是说轨迹的大方向基本由低频决定仅靠低频成分就能以很小的误差重建出原始轨迹的整体形状高频成分则对应那些快速、局部的运动变化如果高频成分过多过强往往意味着轨迹不够稳定出现了不必要的手抖感。基于这些发现他们设计了一种叫小波正则化损失WavReg的训练策略。小波是一种数学工具可以把一段信号分解成不同频率的成分类似于把一首乐曲拆解为不同乐器的声部。在训练过程中WavReg会额外检查模型生成的轨迹在各个频率层面是否合理低频成分应该准确捕捉整体运动趋势高频成分不应该出现无意义的剧烈波动。为了反映低频更重要这一事实低频成分在损失计算中被赋予更高的权重。这个策略的效果相当显著。实验数据显示在不同的权重参数β设置下β0.1时模型表现最佳。完全去掉WavRegβ0或者把它的权重调得过大β1.0都会导致性能下降。这说明WavReg提供的频率感知监督确实在引导模型学习更平滑、更物理合理的摄像机运动方面发挥了独特作用而不仅仅是一个普通的平滑约束。五、训练数据从哪来——CT-200K数据集的建造工程巧妇难为无米之炊。要训练一个能理解场景、理解语言、还能规划摄像机路径的模型必须有大量高质量的配对数据视频、对应的摄像机描述文字、以及精确的摄像机轨迹参数。而现有的公开数据集恰恰缺乏这种三位一体的标注。研究团队因此自己动手构建了一个叫CT-200K的大规模数据集包含超过20万个样本、累计超过4700万个视频帧。整个数据集分为两大类型各自有一套精心设计的构建流程。第一类是日常场景数据。团队从Pexels-400K和DynPose-100K等高质量视频数据集出发首先用光流分析过滤掉那些镜头基本不动的视频过于静态和镜头抖动过于剧烈的视频过于混乱保留摄像机运动适中、清晰的片段。随后他们用视频理解AI提取每段视频的摄像机运动描述用图像理解AI提取对应帧的画面内容描述然后用语言模型做一次交叉核验把画面里实际没有出现的内容从摄像机描述中删除。这一步看似简单却非常关键——视频AI经常会想象出一些实际没发生的内容这种过滤能确保描述的真实性和准确性。第二类是空间推理场景数据。这类数据专门用于训练模型在需要理解空间关系时做出正确的摄像机运动判断。数据来源是一些以第一人称视角拍摄的日常操作视频比如工人在工作台上移动工具的场景。一个典型例子是画面里有一个工具箱、一个圆罐、一把手工具和一把电钻当操作者把工具箱从桌子右下角移到左上角时头戴摄像机的视角也随之发生对应的位移。研究团队构建了这样的配对数据文字描述不直接说摄像机向左移而是用把工具箱移到电钻右边这样更贴近自然语言的表达。这样的数据让模型学会从场景中的物体关系去推断摄像机该怎么动大幅提升了模型在复杂场景下的空间推理能力。摄像机轨迹参数的标注则借助了一个叫VGGT的视觉几何模型来自动完成。VGGT在室内外场景中的摄像机姿态估计精度高达93.5%非常适合用来给没有标注的视频自动打上摄像机参数标签。整个CT-200K最终包含约12万个日常场景样本和约8万个空间推理场景样本。六、实验结果CT-1的实际表现如何研究团队在一个叫CameraBench100的标准评测集上进行了全面测试。这个评测集包含100个样本涵盖六种典型摄像机运动类型向前推进、向左平移、向右横移、向下倾斜、常规速度运动和复杂混合运动场景覆盖日常生活、电影拍摄和虚拟环境等多种类型。评测的核心指标是成功率——也就是由两位专业评估员各自独立打分当且仅当两人都认为生成的视频正确执行了指令中描述的摄像机运动时才算成功。这种双人一致性判断的方式既严格又贴近实际使用体验。结果相当亮眼。CT-1在六种摄像机运动类型上的平均成功率达到81.6%而当时表现最好的提示词输入类模型Wan2.2使用了专门扩展的提示词仅为64.9%CT-1相对提升了25.7个百分点。对于那些需要先用AI估计轨迹再生成视频的方法CT-1的提升幅度更是分别达到171.1%相对于最好的视觉语言模型方案和245.8%相对于最好的自回归方案。在视频质量方面研究团队同时用VBench工具评估了画面的美学质量、图像质量、运动平滑度和动态程度。CT-1在美学质量0.585、图像质量0.709和运动平滑度0.990上均超越了所有对比基线动态程度0.830也处于领先位置。这意味着CT-1生成的视频不仅摄像机运动更准确画面本身的质量也有保障不存在为了控制摄像机而牺牲画质的情况。在一些特别具有挑战性的场景中对比效果尤为明显。比如面对摄像机平稳向后退的同时向右横移这种复合运动指令CogVideoX和LTX-Video都生成了几乎静止的画面Wan2.2则产生了错误方向的摄像机运动而CT-1能够正确地同时执行后退和右移两个维度的运动。在面向非光写实风格的卡通场景时CT-1同样保持了良好的表现证明它不是只能处理特定类型的图像。七、让CT-1学会读心的深度推理实验除了标准的摄像机指令测试研究团队还专门设计了一组深度推理实验目的是验证CT-1是否真的理解了场景内容而不只是在机械地执行文字指令。在这组实验中文字描述刻意不直接说摄像机该往哪走而是给出需要结合画面才能理解的隐含线索。比如摄像机朝着画面中那面贴了海报的墙移动——要理解这句话并规划正确的轨迹模型必须先在图片里找到有海报的墙在哪里然后才能确定摄像机该往哪个方向运动。又比如摄像机沿着画面中那人的手指方向延伸——同样需要先识别人物、找到手的朝向再推断出摄像机运动的方向。这类推理任务对人类来说并不困难但对AI而言相当有挑战性因为它要求模型真正看懂画面而不是只会对文字做模式匹配。实验结果显示CT-1在这些场景中能够合理地推断出摄像机路径说明联合视觉和语言训练确实让模型具备了一定程度的空间推理能力。八、一系列消融实验每个设计选择都有依据研究团队并不满足于展示最终结果他们还做了大量如果去掉某个设计性能会怎么变的对比实验用来验证每个设计选择的必要性。关于模型规模团队训练了三个不同大小的CT-1版本Base3300万参数、Large1.3亿参数和Huge4.58亿参数。随着规模增大各项指标持续提升Huge版本的图像质量0.708和复杂运动成功率81.5%均明显优于Base版本0.623和64.8%。这种规律和大型语言模型、视觉模型的规模定律高度一致说明CT-1有继续扩大规模获得更好性能的潜力。关于轨迹生成方式团队对比了三种不同的轨迹生成范式。直接用高斯回归输出固定轨迹的方案在复杂运动上的成功率只有76.8%用自回归方式逐步预测轨迹的方案达到79.4%而CT-1采用的扩散变换器方案达到了81.5%同时美学质量也最高。扩散方式的优势在于它从不试图给出唯一答案而是从分布中采样出合理的解避免了回归方法容易产生的平均化和自回归方法容易出现的误差累积问题。关于摄像机感知标记的设计对比实验显示只用文字输入不用图片成功率仅41.7%只用图片不用文字成功率更低至40.4%同时使用图片和文字但不用特殊的标记成功率提升到82.8%而完整的标记设计达到了87.6%。这说明图像和文字的联合处理缺一不可而专门设计的摄像机感知聚合机制在此基础上还能进一步带来性能提升。关于数据组成CT-200K中日常场景和空间推理场景的组合使用比单独使用任何一类都要好。单用日常场景数据时复杂运动成功率为70.7%单用推理场景数据时为73.9%两类数据组合使用CT-200K完整版则达到77.8%。两类数据在训练信号上形成了互补日常场景提供了大量摄像机运动的多样性推理场景则强化了对空间关系的深度理解。关于频率正则化方法的比较研究团队把WavReg和其他几种常见的轨迹平滑方法做了对比速度正则化81.6→84.1、加速度正则化→85.7、抖动惩罚→86.5、低通滤波正则化→87.0以及WavReg→87.6。WavReg在所有对比中表现最优说明它比简单的平滑约束更能准确地区分有意义的运动变化和不必要的抖动噪声。九、计算成本CT-1到底需要多少资源对于实际应用而言一个方法再好如果计算成本高得离谱也难以落地。研究团队对此做了专门的分析。在单张英伟达GPU上进行推理时CT-1预测一段13步摄像机轨迹对应49帧视频需要约22.81秒、占用约28.91GB显存而后续的视频生成步骤则需要约429.02秒、占用39.48GB显存。CT-1的推理开销约占整个流程总时间的5.3%属于非常轻量的额外成本。换句话说绝大部分的计算资源仍然花在视频生成本身CT-1作为导航员的工作量相当精简高效。统计稳定性方面研究团队在CameraBench100上进行了自举重采样bootstrap和多次随机子集评估结果显示CT-1的81.6%成功率不是偶然——在20次不同随机子集测试中CT-1每次都超过了对比基线Wan2.2胜率为100%。在200个和300个样本的更大评测集上优势同样稳定保持。用户偏好研究也支持了这些定量结论。研究团队邀请人类评估员对CT-1与CogVideoX、LTX-Video和Wan2.2生成的视频进行配对比较从帧级画质、摄像机控制准确性、运动真实感和整体视频质量四个维度打分。CT-1在所有维度上均获得了最高的人类偏好得分。归根结底CT-1这项研究说明了一件很重要的事要让AI真正理解该怎么拍这个场景光靠文字理解或光靠图像理解都不够必须让两者深度结合并在此基础上建立一套能学习摄像机运动分布规律的生成机制。就像一个优秀的摄影师既要读懂导演的意图语言又要感知眼前的场景视觉才能规划出真正合适的镜头运动。这套方法目前已经可以处理日常场景、电影场景、虚拟场景甚至驾驶场景并且能接入多种不同的视频生成后端。随着模型规模进一步扩大、训练数据进一步丰富这条路线有望让用自然语言控制视频摄像机这件事变得像发一条语音消息一样简单。对于内容创作者、电影工作者和世界模型的开发者来说这无疑是一个值得持续关注的方向。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.09201查阅完整论文。QAQ1CT-1模型在实际使用中需要用户做什么A使用CT-1时用户只需提供两样东西一张参考场景图片以及一段描述摄像机运动意图的文字比如摄像机沿街道向前推进逐渐靠近远处的建筑。CT-1会自动分析图片内容和文字意图规划出摄像机轨迹再交由视频生成模型输出最终视频全程不需要用户手动填写任何坐标参数。Q2CT-200K数据集和普通视频数据集有什么区别A普通视频数据集通常只有画面内容缺少摄像机运动的文字描述和精确的轨迹参数标注。CT-200K特别针对这一缺口构建每个样本都包含视频帧、摄像机运动的自然语言描述以及由VGGT模型自动标注的摄像机位姿参数还专门加入了需要空间推理才能理解的场景数据总计超过20万样本、4700万帧。Q3小波正则化损失WavReg和普通的平滑约束有什么本质区别A普通的平滑约束比如对速度或加速度加惩罚会均匀地压制所有快速变化包括那些本来就应该有的快速转向。WavReg通过小波变换把轨迹分解成不同频率层次对低频整体运动趋势和高频细节抖动分别施加不同强度的约束低频部分权重更高从而在保留合理运动细节的同时有效抑制不必要的抖动比粗暴的全频平滑更精准。

更多文章