2026 年 6 月 5 日,拉斯维加斯。CVPR 2026 的 Welcome and Awards Ceremony 上,一篇论文从 16,092 篇投稿、4,089 篇接收论文中脱颖而出——D4RT(Dynamic 4D Reconstruction and Tracking)斩获了本届 CVPR 最佳论文奖。这篇由 Google DeepMind、牛津大学和伦敦大学学院(UCL)联合团队完成的论文,用一个统一的 feedforward Transformer,重新定义了动态 4D 场景重建的技术路线。
一、16,092 篇投稿中杀出重围
CVPR 2026 是计算机视觉领域历史上规模最大的一届会议。根据官方数据,本届共收到 16,092 篇投稿,较 2025 年增长 24%,最终 4,089 篇被接收,接收率约 25.4%。除主会论文外,会议还设有 153 个 workshop、19 个 tutorial 和 28 个演示环节。
奖项评选委员会从 74 篇 shortlist 候选论文中选出了两篇授予最高荣誉。CVPR 2026 程序委员会联合主席、伊利诺伊大学厄巴纳-香槟分校的 Alexander G. Schwing 教授在颁奖词中表示:
「今年的获奖论文体现了推动领域前进的创新与技术卓越。从动态场景重建的进步到 3D 生成建模的突破,这些工作解决了计算机视觉的基础挑战,同时为 AI、机器人等领域的应用打开了新的可能性。」
二、4D 重建的传统困境
要理解 D4RT 为什么重要,先要看清传统 4D 重建管线到底"重"在哪里。
所谓 4D 动态场景重建,本质上是回答一个问题:给定一段普通视频,如何还原出场景中每个点在任意时刻的三维位置?这个问题涉及几个相互依赖的子任务——深度估计(每个像素离相机多远)、时空对应(两帧之间的同一个点怎么对应)、相机参数估计(拍摄时相机怎么移动的),以及最终的 3D/4D 几何重建。
传统方法将这些问题拆成独立的阶段,分别用不同的模型或算法求解,再通过复杂的后处理拼接在一起。例如,先用 Structure from Motion(SfM)估计相机位姿,再用多视角立体匹配(MVS)生成深度图,最后结合光流做时空追踪。整个管线计算量大、步骤冗长,且每个阶段的误差会传递和放大。
这种"分而治之"的范式还有一个更根本的问题:不同子任务之间的信息无法共享。深度估计网络不知道光流的信息,相机标定模块也看不到点云重建的约束——它们各自为政,却试图描述同一个物理世界。
三、D4RT 的核心洞察:「一个查询接口」
D4RT 的创新,用一句话概括就是:用一个统一的 Transformer,把深度、时空对应和相机参数全部塞进同一个架构,通过一个"查询接口"按需输出。
D4RT 的架构是一个经典的 encoder-decoder Transformer。Encoder 首先将输入视频转化为一个压缩的全局场景表征(Global Scene Representation),随后一个轻量级 decoder 通过 cross-attention 从该表征中查询任意时空点的三维信息。
关键设计在于 query interface——你不再需要分别调用深度模型、光流模型和相机标定模型。你只需要向 D4RT 提一个问题:「在时间 t、源相机位置下看到的这个像素 (u,v),在目标时间 t' 的三维位置是什么?」模型直接从统一的全局表征中解码出答案。
这种设计的优势是多重的:
- 信息复用:视频中的所有时空信息被压缩进同一个表征,encoder 可以在全局范围内建模几何与运动的一致性,无须手工拼接。
- 按需解码:传统稠密重建方法对每一帧的每一个像素都进行计算,无论你是否需要。D4RT 的 query 机制意味着推理时你只需要对感兴趣的点做查询,稀疏或稠密、静态或动态——同一个模型,同一套接口。
- pipeline 简化:不再需要多个独立模型和复杂的后处理流程,训练和部署都大幅简化。
正如 Voxel51 的技术解读所指出的:「这种架构不做任何区分的统一性,本身就是洞察力所在。query 接口将你问什么与解码多少解耦——你可以在推理时只查询几个跟踪点,只为那些查询付出计算代价。」
四、从分钟到秒:速度的革命性提升
D4RT 的 feedforward 设计带来的不只是架构的优雅,更是推理速度的质变。
传统 4D 重建方法通常需要迭代优化——在测试时对每个场景反复调整参数、运行多次推理——这使得处理一段一分钟的视频可能需要数分钟甚至更长时间。D4RT 作为纯 feedforward 模型,推理时不需要任何迭代,一次前向传播即可输出结果。
根据 Google DeepMind 官方博客和 AlphaSignal 的报道,D4RT 在测试中比此前最优方法快 18 到 300 倍。具体而言:一段一分钟的视频,D4RT 在一块 TPU 芯片上约 5 秒即可处理完成,而此前的方法可能需要长达 10 分钟。在 A100 GPU 上,相机姿态估计的速度超过了 200 FPS。
论文在多个大规模基准数据集上取得了 state-of-the-art 结果,涵盖点云重建、点追踪和相机姿态估计等任务。值得注意的是,在 VGGT(CVPR 2025 最佳论文)无法有效追踪运动物体的场景中,D4RT 依然表现稳定——这是因为 D4RT 原生就将时间维度纳入建模,而非像 VGGT 那样主要面向静态多视角几何。
五、跨越学术界与工业界的作者阵容
D4RT 的作者名单共有 14 人,完整展现了 Google DeepMind、牛津大学和 UCL 三方的深度协作:
第一作者 Chuhan Zhang 在 Google DeepMind 实习期间主导了这项工作。合著者包括 Guillaume Le Moing、Skanda Koppula、Ignacio Rocco、Liliane Momeni、Junyu Xie、Shuyang Sun 等 Google DeepMind 研究员,以及 Rahul Sukthankar、Joëlle K. Barral、Raia Hadsell、Zoubin Ghahramani 等知名研究负责人。来自牛津大学的 Andrew Zisserman(计算机视觉领域泰斗级人物)和来自 UCL 的研究者也位列作者之中。
这种工业界与学术界的紧密合作,既保证了研究的计算资源与工程能力(DeepMind 的 TPU 集群和大规模训练基础设施),又引入了学术界的理论深度与严谨性。从作者机构的标注来看,多名研究者标注了"在 Google DeepMind 实习期间完成的工作",反映出 DeepMind 作为研究枢纽的吸引力。
六、荣誉之下的质疑:可复现性争议
在社区的热烈祝贺声中,也夹杂着不容忽视的质疑。
Digg 上的讨论帖指出,不少用户对 DeepMind 相关工作的可复现性表达了担忧。多位评论者批评 D4RT 及相关 DeepMind 论文缺乏可复现的代码和模型权重发布。截至 Voxel51 技术解读文章发表时,D4RT 的模型权重尚未公开,Voxel51 只能基于论文描述构建了一个使用模拟输出的 FiftyOne 可视化 notebook,并注明「一旦权重发布,只需修改一个函数即可切换为真实推理」。
这并非 DeepMind 第一次因可复现性问题受到关注。学术界对工业界研究机构"发表但不开放"的做法长期以来存在争议——拥有顶级计算资源的研究团队可以轻易跑出令人瞩目的结果,但若社区无法验证和复现,论文的科学价值就会打折扣。对于需要实际部署 4D 重建能力的机器人、自动驾驶等下游领域而言,这一问题的敏感性尤为突出。
值得注意的是,The Robotics Media 在其报道中评价 D4RT 的获奖标志着计算机视觉「从 2D 识别向 4D 世界模型的转折」。但如果这一转折依赖于难以复现的工业研究,其影响力将受到限制。
七、一个模型统一一切:CV 领域的新范式
跳出 D4RT 本身,更值得关注的是它所代表的方法论转向。
过去几年,计算机视觉领域逐步从「为每个任务设计专用模型」走向「用一个统一架构解决多个相关任务」。这一趋势在 NLP 领域早已成为主流(GPT 系列就是最好的例证),但在视觉领域,由于任务的异构性更强(像素级预测、几何推理、时序建模),统一的步伐一直较慢。
D4RT 是这一方向上的一次重要推进。它证明了一个 Transformer 可以同时完成深度估计、点追踪和相机标定——这三个传统上由不同模型家族承担的任务——且在每个子任务上都达到或超越专用模型的水平。
这种统一带来的不仅是工程上的便利。从更宏观的视角看,统一的 4D 世界模型是通往具身 AI 的关键基础设施。机器人需要理解周围环境的三维结构及其随时间的变化;自动驾驶系统需要从车载视频中实时推断场景几何和自身运动;AR/VR 设备需要精确追踪用户视角和场景深度。这些应用场景的共同需求——从视频到 4D 理解——恰好是 D4RT 试图解决的核心问题。
D4RT 的 feedforward 特性意味着这些能力可以实时运行,而不需要为每个新场景做耗时的在线优化。这为实际部署扫清了一个关键障碍。
八、展望:从重构到理解
D4RT 当前解决的是「从视频中重建 4D 几何」的问题,但它的架构设计暗示了更大的可能性。
论文指出,D4RT 的 query 接口天然支持扩展——未来可以嵌入物理先验以提高真实世界泛化能力,可以将查询扩展到语义和属性推理,可以整合多模态传感器(如 LiDAR、事件相机),甚至可以探索基于 Transformer 的元学习策略来实现实时系统的领域自适应。
从更长远的角度看,当一个模型能够从视频中重建出完整的 4D 场景表征时,它离「理解物理世界」的距离又近了一步。D4RT 的获奖不仅是单一论文的胜利,也是计算机视觉从 2D 像素理解走向 4D 世界建模这一宏大叙事的里程碑。

