CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam:无4D数据训练下实现单视频精准相机控制,让短视频创作者轻松掌控“电影级”运镜。

张开发
2026/4/12 17:28:33 15 分钟阅读

分享文章

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam:无4D数据训练下实现单视频精准相机控制,让短视频创作者轻松掌控“电影级”运镜。
FaceCam仅需单个输入视频和目标相机轨迹即可生成具有精确相机控制的人像视频。我们引入了尺度感知相机条件化方法通过渲染的面部特征点来表示目标相机从而实现精确的相机姿态控制。我们的方法在保持高视觉质量的同时保留了主体身份和运动信息且无需任何4D合成数据进行训练。相关链接项目https://www.wlyu.me/FaceCam论文https://arxiv.org/pdf/2603.05506代码https://github.com/weijielyu/FaceCam论文介绍论文提出了一种名为FaceCam 的系统该系统能够根据可定制的相机轨迹生成单目人像视频输入。近年来基于大型视频生成模型的相机控制方法取得了显著进展但由于相机表示尺度模糊或 3D 重建误差人像视频中常常会出现几何畸变和视觉伪影。为了克服这些局限性我们提出了一种针对人脸的尺度感知 相机变换表示方法该方法无需依赖 3D 先验信息即可提供确定性的条件。我们使用多视角演播室拍摄视频和自然场景下的单目视频训练视频生成模型并引入了两种相机控制数据生成策略 合成相机运动和 多镜头拼接以便在推理时能够利用静态训练相机同时泛化到动态连续的相机轨迹。在 Ava-256 数据集和各种自然场景视频上的实验表明FaceCam 在相机可控性、视觉质量、身份保持和运动保持方面均表现出色。方法尺度感知相机调节尺度模糊的相机表示。现有的相机控制方法使用外部参数对相机进行编码。在单目图像捕捉中度量深度不可观测场景只能通过全局相似性来确定而尺度和平移均未知。因此同一幅图像可以呈现无限多种三维构型使得从目标姿态重新渲染成为欠定问题并导致漂移和控制性差。尺度感知相机表示。我们通过图像空间点对应关系对相机进行编码。利用二维对应关系可以估计两个未标定视图之间的基本矩阵并结合已知的相机内参恢复全局尺度范围内的相对位姿。人像视频自然地通过面部特征点提供了此类对应关系因此我们使用栅格化的二维特征点图作为相机表示。训练数据生成CVPR 2026使用仅包含静态摄像机的多视角人体视频数据集在演播室拍摄的数据集上训练我们的网络。为了在推理阶段实现动态摄像机轨迹我们引入了两种数据生成策略合成摄像机运动和多镜头拼接。我们发现训练阶段通过多镜头拼接产生的非连续摄像机姿态变化在推理阶段能够很好地泛化为连续的摄像机轨迹而无需依赖任何用于训练的4D合成数据。训练和推理流程训练过程。从目标视频的锚帧中提取面部特征点作为相机条件。源视频、目标视频和相机条件通过变分自编码器VAE编码成潜在变量然后输入到扩散变换器DTI中预测目标潜在变量并使用流匹配损失函数进行优化。推理过程。使用一个生成的通用头部三维模型将其沿目标摄像机轨迹渲染并检测面部特征点作为摄像机运动状态。扩散变换器的输出潜在值由变分自编码器VAE解码器解码从而获得摄像机控制的视频。我们观察到尽管该模型仅使用不连续的摄像机姿态变化进行训练但在推理过程中它能够泛化到连续的摄像机轨迹。结论FaceCam 是一种人像视频摄像机控制系统它用针对人脸定制的、尺度感知的特征点表示取代了与场景无关的外部摄像机表示。这种条件化解决了单目尺度歧义同时提供了对视角的直观、精确控制。论文进一步提出了一种数据生成流程该流程从静态多视角工作室拍摄的视频和未标记的自然场景视频中引导通过合成摄像机运动和多镜头拼接在推理过程中实现连续的摄像机轨迹而无需显式的 3D 监督。在 Ava-256 数据集和各种自然场景视频上的实验表明该系统具有最先进的摄像机可控性、更强的身份和运动保持能力以及更高的视觉质量验证了我们的表示和数据策略。

更多文章