D4RT：用单一 Transformer 统一解决 4D 动态场景重建——Google DeepMind 联手牛津、UCL 斩获 CVPR 2026 最佳论文

2026 年 6 月 5 日，拉斯维加斯。CVPR 2026 的 Welcome and Awards Ceremony 上，一篇论文从 16,092 篇投稿、4,089 篇接收论文中脱颖而出——D4RT（Dynamic 4D Reconstruction and Tracking）斩获了本届 CVPR 最佳论文奖。这篇由 Google DeepMind、牛津大学和伦敦大学学院（UCL）联合团队完成的论文，用一个统一的 feedforward Transformer，重新定义了动态 4D 场景重建的技术路线。

一、16,092 篇投稿中杀出重围

CVPR 2026 是计算机视觉领域历史上规模最大的一届会议。根据官方数据，本届共收到 16,092 篇投稿，较 2025 年增长 24%，最终 4,089 篇被接收，接收率约 25.4%。除主会论文外，会议还设有 153 个 workshop、19 个 tutorial 和 28 个演示环节。

奖项评选委员会从 74 篇 shortlist 候选论文中选出了两篇授予最高荣誉。CVPR 2026 程序委员会联合主席、伊利诺伊大学厄巴纳-香槟分校的 Alexander G. Schwing 教授在颁奖词中表示：

「今年的获奖论文体现了推动领域前进的创新与技术卓越。从动态场景重建的进步到 3D 生成建模的突破，这些工作解决了计算机视觉的基础挑战，同时为 AI、机器人等领域的应用打开了新的可能性。」

二、4D 重建的传统困境

要理解 D4RT 为什么重要，先要看清传统 4D 重建管线到底"重"在哪里。

所谓 4D 动态场景重建，本质上是回答一个问题：给定一段普通视频，如何还原出场景中每个点在任意时刻的三维位置？这个问题涉及几个相互依赖的子任务——深度估计（每个像素离相机多远）、时空对应（两帧之间的同一个点怎么对应）、相机参数估计（拍摄时相机怎么移动的），以及最终的 3D/4D 几何重建。

传统方法将这些问题拆成独立的阶段，分别用不同的模型或算法求解，再通过复杂的后处理拼接在一起。例如，先用 Structure from Motion（SfM）估计相机位姿，再用多视角立体匹配（MVS）生成深度图，最后结合光流做时空追踪。整个管线计算量大、步骤冗长，且每个阶段的误差会传递和放大。

这种"分而治之"的范式还有一个更根本的问题：不同子任务之间的信息无法共享。深度估计网络不知道光流的信息，相机标定模块也看不到点云重建的约束——它们各自为政，却试图描述同一个物理世界。

三、D4RT 的核心洞察：「一个查询接口」

D4RT 的创新，用一句话概括就是：用一个统一的 Transformer，把深度、时空对应和相机参数全部塞进同一个架构，通过一个"查询接口"按需输出。

D4RT 的架构是一个经典的 encoder-decoder Transformer。Encoder 首先将输入视频转化为一个压缩的全局场景表征（Global Scene Representation），随后一个轻量级 decoder 通过 cross-attention 从该表征中查询任意时空点的三维信息。

关键设计在于 query interface——你不再需要分别调用深度模型、光流模型和相机标定模型。你只需要向 D4RT 提一个问题：「在时间 t、源相机位置下看到的这个像素 (u,v)，在目标时间 t' 的三维位置是什么？」模型直接从统一的全局表征中解码出答案。

这种设计的优势是多重的：

信息复用：视频中的所有时空信息被压缩进同一个表征，encoder 可以在全局范围内建模几何与运动的一致性，无须手工拼接。
按需解码：传统稠密重建方法对每一帧的每一个像素都进行计算，无论你是否需要。D4RT 的 query 机制意味着推理时你只需要对感兴趣的点做查询，稀疏或稠密、静态或动态——同一个模型，同一套接口。
pipeline 简化：不再需要多个独立模型和复杂的后处理流程，训练和部署都大幅简化。

正如 Voxel51 的技术解读所指出的：「这种架构不做任何区分的统一性，本身就是洞察力所在。query 接口将你问什么与解码多少解耦——你可以在推理时只查询几个跟踪点，只为那些查询付出计算代价。」

四、从分钟到秒：速度的革命性提升

D4RT 的 feedforward 设计带来的不只是架构的优雅，更是推理速度的质变。

传统 4D 重建方法通常需要迭代优化——在测试时对每个场景反复调整参数、运行多次推理——这使得处理一段一分钟的视频可能需要数分钟甚至更长时间。D4RT 作为纯 feedforward 模型，推理时不需要任何迭代，一次前向传播即可输出结果。

根据 Google DeepMind 官方博客和 AlphaSignal 的报道，D4RT 在测试中比此前最优方法快 18 到 300 倍。具体而言：一段一分钟的视频，D4RT 在一块 TPU 芯片上约 5 秒即可处理完成，而此前的方法可能需要长达 10 分钟。在 A100 GPU 上，相机姿态估计的速度超过了 200 FPS。

论文在多个大规模基准数据集上取得了 state-of-the-art 结果，涵盖点云重建、点追踪和相机姿态估计等任务。值得注意的是，在 VGGT（CVPR 2025 最佳论文）无法有效追踪运动物体的场景中，D4RT 依然表现稳定——这是因为 D4RT 原生就将时间维度纳入建模，而非像 VGGT 那样主要面向静态多视角几何。

五、跨越学术界与工业界的作者阵容

D4RT 的作者名单共有 14 人，完整展现了 Google DeepMind、牛津大学和 UCL 三方的深度协作：

第一作者 Chuhan Zhang 在 Google DeepMind 实习期间主导了这项工作。合著者包括 Guillaume Le Moing、Skanda Koppula、Ignacio Rocco、Liliane Momeni、Junyu Xie、Shuyang Sun 等 Google DeepMind 研究员，以及 Rahul Sukthankar、Joëlle K. Barral、Raia Hadsell、Zoubin Ghahramani 等知名研究负责人。来自牛津大学的 Andrew Zisserman（计算机视觉领域泰斗级人物）和来自 UCL 的研究者也位列作者之中。

这种工业界与学术界的紧密合作，既保证了研究的计算资源与工程能力（DeepMind 的 TPU 集群和大规模训练基础设施），又引入了学术界的理论深度与严谨性。从作者机构的标注来看，多名研究者标注了"在 Google DeepMind 实习期间完成的工作"，反映出 DeepMind 作为研究枢纽的吸引力。

六、荣誉之下的质疑：可复现性争议

在社区的热烈祝贺声中，也夹杂着不容忽视的质疑。

Digg 上的讨论帖指出，不少用户对 DeepMind 相关工作的可复现性表达了担忧。多位评论者批评 D4RT 及相关 DeepMind 论文缺乏可复现的代码和模型权重发布。截至 Voxel51 技术解读文章发表时，D4RT 的模型权重尚未公开，Voxel51 只能基于论文描述构建了一个使用模拟输出的 FiftyOne 可视化 notebook，并注明「一旦权重发布，只需修改一个函数即可切换为真实推理」。

这并非 DeepMind 第一次因可复现性问题受到关注。学术界对工业界研究机构"发表但不开放"的做法长期以来存在争议——拥有顶级计算资源的研究团队可以轻易跑出令人瞩目的结果，但若社区无法验证和复现，论文的科学价值就会打折扣。对于需要实际部署 4D 重建能力的机器人、自动驾驶等下游领域而言，这一问题的敏感性尤为突出。

值得注意的是，The Robotics Media 在其报道中评价 D4RT 的获奖标志着计算机视觉「从 2D 识别向 4D 世界模型的转折」。但如果这一转折依赖于难以复现的工业研究，其影响力将受到限制。

七、一个模型统一一切：CV 领域的新范式

跳出 D4RT 本身，更值得关注的是它所代表的方法论转向。

过去几年，计算机视觉领域逐步从「为每个任务设计专用模型」走向「用一个统一架构解决多个相关任务」。这一趋势在 NLP 领域早已成为主流（GPT 系列就是最好的例证），但在视觉领域，由于任务的异构性更强（像素级预测、几何推理、时序建模），统一的步伐一直较慢。

D4RT 是这一方向上的一次重要推进。它证明了一个 Transformer 可以同时完成深度估计、点追踪和相机标定——这三个传统上由不同模型家族承担的任务——且在每个子任务上都达到或超越专用模型的水平。

这种统一带来的不仅是工程上的便利。从更宏观的视角看，统一的 4D 世界模型是通往具身 AI 的关键基础设施。机器人需要理解周围环境的三维结构及其随时间的变化；自动驾驶系统需要从车载视频中实时推断场景几何和自身运动；AR/VR 设备需要精确追踪用户视角和场景深度。这些应用场景的共同需求——从视频到 4D 理解——恰好是 D4RT 试图解决的核心问题。

D4RT 的 feedforward 特性意味着这些能力可以实时运行，而不需要为每个新场景做耗时的在线优化。这为实际部署扫清了一个关键障碍。

八、展望：从重构到理解

D4RT 当前解决的是「从视频中重建 4D 几何」的问题，但它的架构设计暗示了更大的可能性。

论文指出，D4RT 的 query 接口天然支持扩展——未来可以嵌入物理先验以提高真实世界泛化能力，可以将查询扩展到语义和属性推理，可以整合多模态传感器（如 LiDAR、事件相机），甚至可以探索基于 Transformer 的元学习策略来实现实时系统的领域自适应。

从更长远的角度看，当一个模型能够从视频中重建出完整的 4D 场景表征时，它离「理解物理世界」的距离又近了一步。D4RT 的获奖不仅是单一论文的胜利，也是计算机视觉从 2D 像素理解走向 4D 世界建模这一宏大叙事的里程碑。