CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

张开发

• 2026/4/12 17:28:33 • 15 分钟阅读

分享文章

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

FaceCam仅需单个输入视频和目标相机轨迹即可生成具有精确相机控制的人像视频。我们引入了尺度感知相机条件化方法通过渲染的面部特征点来表示目标相机从而实现精确的相机姿态控制。我们的方法在保持高视觉质量的同时保留了主体身份和运动信息且无需任何4D合成数据进行训练。相关链接项目https://www.wlyu.me/FaceCam论文https://arxiv.org/pdf/2603.05506代码https://github.com/weijielyu/FaceCam论文介绍论文提出了一种名为FaceCam 的系统该系统能够根据可定制的相机轨迹生成单目人像视频输入。近年来基于大型视频生成模型的相机控制方法取得了显著进展但由于相机表示尺度模糊或 3D 重建误差人像视频中常常会出现几何畸变和视觉伪影。为了克服这些局限性我们提出了一种针对人脸的尺度感知相机变换表示方法该方法无需依赖 3D 先验信息即可提供确定性的条件。我们使用多视角演播室拍摄视频和自然场景下的单目视频训练视频生成模型并引入了两种相机控制数据生成策略合成相机运动和多镜头拼接以便在推理时能够利用静态训练相机同时泛化到动态连续的相机轨迹。在 Ava-256 数据集和各种自然场景视频上的实验表明FaceCam 在相机可控性、视觉质量、身份保持和运动保持方面均表现出色。方法尺度感知相机调节尺度模糊的相机表示。现有的相机控制方法使用外部参数对相机进行编码。在单目图像捕捉中度量深度不可观测场景只能通过全局相似性来确定而尺度和平移均未知。因此同一幅图像可以呈现无限多种三维构型使得从目标姿态重新渲染成为欠定问题并导致漂移和控制性差。尺度感知相机表示。我们通过图像空间点对应关系对相机进行编码。利用二维对应关系可以估计两个未标定视图之间的基本矩阵并结合已知的相机内参恢复全局尺度范围内的相对位姿。人像视频自然地通过面部特征点提供了此类对应关系因此我们使用栅格化的二维特征点图作为相机表示。训练数据生成CVPR 2026使用仅包含静态摄像机的多视角人体视频数据集在演播室拍摄的数据集上训练我们的网络。为了在推理阶段实现动态摄像机轨迹我们引入了两种数据生成策略合成摄像机运动和多镜头拼接。我们发现训练阶段通过多镜头拼接产生的非连续摄像机姿态变化在推理阶段能够很好地泛化为连续的摄像机轨迹而无需依赖任何用于训练的4D合成数据。训练和推理流程训练过程。从目标视频的锚帧中提取面部特征点作为相机条件。源视频、目标视频和相机条件通过变分自编码器VAE编码成潜在变量然后输入到扩散变换器DTI中预测目标潜在变量并使用流匹配损失函数进行优化。推理过程。使用一个生成的通用头部三维模型将其沿目标摄像机轨迹渲染并检测面部特征点作为摄像机运动状态。扩散变换器的输出潜在值由变分自编码器VAE解码器解码从而获得摄像机控制的视频。我们观察到尽管该模型仅使用不连续的摄像机姿态变化进行训练但在推理过程中它能够泛化到连续的摄像机轨迹。结论FaceCam 是一种人像视频摄像机控制系统它用针对人脸定制的、尺度感知的特征点表示取代了与场景无关的外部摄像机表示。这种条件化解决了单目尺度歧义同时提供了对视角的直观、精确控制。论文进一步提出了一种数据生成流程该流程从静态多视角工作室拍摄的视频和未标记的自然场景视频中引导通过合成摄像机运动和多镜头拼接在推理过程中实现连续的摄像机轨迹而无需显式的 3D 监督。在 Ava-256 数据集和各种自然场景视频上的实验表明该系统具有最先进的摄像机可控性、更强的身份和运动保持能力以及更高的视觉质量验证了我们的表示和数据策略。

更多文章

前端开发 2026/4/12 16:53:12

别再纠结用卷积还是注意力了：手把手解读ACmix论文与PyTorch代码

ACmix：卷积与自注意力的优雅统一与技术实现深度解析在计算机视觉领域，卷积神经网络(CNN)和自注意力机制就像两位各有所长的武林高手——CNN凭借其局部感受野和参数共享特性，在图像处理中展现出强大的归纳偏置；而自注意力机制则通…

7个内存优化技巧让the-super-tiny-compiler性能提升30%：AST精简完全指南【免费下载链接】the-super-tiny-compiler :snowman: Possibly the smallest compiler ever 项目地址: https://gitcode.com/gh_mirrors/th/the-super-tiny-compiler the-super-tiny-c…

张开发

前端开发 2026/4/11 4:46:08

人工智能提示词案例篇：成功案例二解析

案例篇：成功案例二解析📝 本章学习目标：掌握案例篇：成功案例二解析中高效使用提示词的方法和技巧。一、引言案例篇：成功案例二解析是提示词应用的重要场景之一。本章将系统讲解如何在该领域高效使用提示词。 ✅ 核心应…

张开发

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

最新文章

AI 赋能软件测试：DeepSeek 智能测试用例生成实战解析

Kook Zimage真实幻想Turbo极速体验：10步生成高清幻想风格大片

告别轮询！用wx.request的onChunkReceived在微信小程序里实现打字机效果的AI聊天

2025届学术党必备的六大AI论文神器推荐

Android发广播的坑

.NET源码生成器基于partial范式开发和nuget打包怕

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

别再纠结用卷积还是注意力了：手把手解读ACmix论文与PyTorch代码

【声纳与人工智能融合——从理论前沿到自主系统实战（进阶篇）】第八章声纳NeRF与三维高斯溅射重建

hello-uniapp小程序分包优化：提升加载速度的关键

Symfony Monolog Bundle终极指南：如何快速搭建专业日志系统

老旧笔记本重生：OpenClaw+百川2-13B-4bits量化版轻量化部署

如何使用Fluxion进行网络安全测试：保护本地网络的完整指南

TypeScript聊天应用架构设计终极指南：观察者模式与中介者模式的完美实践

OpenClaw模型微调：Qwen3-14b_int4_awq适配特定任务的技巧

ESP8266 HTTPS OTA固件升级库R-Lib8266深度解析

跟着AI学java第4天：面向对象编程巩固

7个内存优化技巧让the-super-tiny-compiler性能提升30%：AST精简完全指南

人工智能提示词案例篇：成功案例二解析

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

最新文章

AI 赋能软件测试：DeepSeek 智能测试用例生成实战解析

Kook Zimage真实幻想Turbo极速体验：10步生成高清幻想风格大片

告别轮询！用wx.request的onChunkReceived在微信小程序里实现打字机效果的AI聊天

2025届学术党必备的六大AI论文神器推荐

Android发广播的坑

.NET源码生成器基于partial范式开发和nuget打包怕

推荐文章

VINS-fusion实战：从Euroc到KITTI，手把手教你配置与避坑（附EVO评估全流程）

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

【信息安全概论 实验报告1】隐写技术

明明知道该做什么，却总提不起劲？蕙兰瑜伽告诉你：不是你懒，是你忘了自己是谁

【2026奇点大会Prompt工程权威指南】：全球仅37位主讲人亲授的5大高阶提示范式与实战避坑清单

工业大模型≠智能工厂！SITS2026曝光的12个AI原生落地陷阱，第9个正在吞噬你的技改预算

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

【信息安全概论实验报告1】隐写技术