Pim de Witte 与 General Intuition：用 20 亿游戏视频训练 AI 理解物理世界

在 AI 行业几乎全体押注大语言模型的时候，Pim de Witte 选择了一条截然不同的路。

这位 General Intuition 的创始人兼 CEO 认为，仅靠文本训练出来的模型永远无法真正理解世界——它们能生成流畅的句子，却无法判断一个杯子从桌上掉下来会摔成几片。他的解决方案是：用游戏视频训练 AI，让模型学会「看」和「预测」，而非仅仅「读」和「写」。

一场「后语言模型」运动

De Witte 的核心论断直指当前 AI 范式的根本局限：语言模型从文本中学习，而文本是对物理世界的抽象描述，缺失了空间关系、时间连续性和因果逻辑的直接经验。

「语言模型只学会了世界的符号表征，」De Witte 在多个场合表达过类似观点，「真正的通用智能需要一个世界模型——一个能够预测下一秒会发生什么、理解物体如何在三维空间中互动的系统。」

这种思路并非孤例。Yann LeCun 多年来一直倡导世界模型（World Model）作为通向 AGI 的关键路径，NVIDIA 的 Cosmos 项目也在探索类似方向。但 General Intuition 的差异化在于其数据来源——游戏视频。

General Intuition 从游戏剪辑平台 Medal 分拆而来，这赋予了它一项独一无二的资产：每年超过 20 亿条游戏视频的访问权。这些视频并非普通内容——它们记录了玩家在三维虚拟环境中的实时决策、物体交互和物理模拟，天然包含丰富的空间-时间信息。

与 YouTube 上的视频不同，游戏画面具有精确的几何一致性：物体的运动遵循物理引擎的规则，摄像机视角变化可追踪，场景中的因果关系清晰可辨。对于训练一个理解空间与时间的 AI 来说，这几乎是最理想的训练数据。

Medal 作为全球最大的游戏剪辑平台之一，日活跃用户数以百万计，每天产生海量的游戏高光时刻。当 De Witte 决定将公司的 AI 部门独立出来成立 General Intuition 时，他同时也获得了将这些数据用于训练世界模型的独家权利。

De Witte 的创业轨迹体现了一种罕见的战略耐心。Medal 最早只是一个帮助玩家记录和分享游戏精彩瞬间的工具，但 De Witte 在运营过程中逐渐意识到，这些视频数据的价值远超社交分享。

大约八个月前，General Intuition 完成了 1.34 亿美元的种子轮融资，正式从 Medal 分拆。对于一个尚在技术验证阶段的 AI 公司来说，这个数字本身就是一个信号——它表明顶尖投资者对「世界模型」这一方向的信心。

而据 TechCrunch 在 2026 年 6 月 18 日的独家报道，General Intuition 如今正在洽谈新一轮约 3 亿美元的融资，估值约为 20 亿美元，投资方包括 Jeff Bezos。如果这轮融资完成，这家成立不到一年的公司将在资本市场写下罕见的增长速度。

Jeff Bezos 的参与尤其值得关注。这位亚马逊创始人近年来在 AI 领域的投资布局广泛，从 Anthropic 到 Perplexity，但 General Intuition 代表了一种不同的赌注——不是更好的语言模型，而是一个能够理解物理世界的 AI 基础设施。

世界模型的市场想象空间巨大。如果 General Intuition 成功，它的技术可能应用于机器人、自动驾驶、增强现实、工业仿真等几乎所有需要 AI 理解物理环境的领域。这也解释了为什么投资者愿意在一家尚无公开产品的公司上押注数十亿美元。

尽管故事诱人，General Intuition 面临的挑战同样真实。从游戏视频中学习到的物理直觉能否迁移到真实世界，是一个未经验证的假设。合成环境中的物理规律与真实物理之间存在鸿沟，而弥合这道鸿沟可能需要额外的训练数据和架构创新。

此外，世界模型本身的技术路线仍在探索中。与语言模型已有清晰的 scaling law 不同，视频预测模型的扩展规律尚不明确，评估标准也缺乏共识。

但 De Witte 似乎并不着急。在最近的一次采访中，他暗示公司正在构建的不仅仅是一个模型，而是一个「可学习的物理引擎」——一个能够内化现实世界运行规律的基础设施。

在 AI 行业痴迷于更大参数量、更长上下文的当下，General Intuition 提供了一种不同的叙事：通向通用智能的路径，或许不止语言一条。