从 DeepMind 扑克 AI 到 $5 亿估值量化基金：三个研究员如何把博弈论搬进华尔街

2022 年，三个没有任何金融背景的博士做出了一个让硅谷侧目的决定：离开 Google DeepMind，回到故乡布拉格，用训练扑克 AI 的技术去炒股。

四年后，这笔赌注看起来押对了。

他们的公司 EquiLibre Technologies 刚刚完成由 Creandum 领投的 A 轮融资，估值超过 5 亿美元。这家只有 25 人的布拉格 AI 实验室，已经通过纽约自营交易巨头 Tower Research Capital，每天在标普 500 和纳斯达克市场上交易数十亿美元——并且声称自 2025 年在加密货币市场部署以来，"没有出现过任何一个亏损月份"。

从 Edmonton 到布拉格：三个博士的人物弧线

Martin Schmid、Rudolf Kadlec 和 Matej Moravcik 的故事始于 IBM 研究院，成熟于 DeepMind 的 Edmonton 办公室。

2017 年，当时还是访问博士生的三人，在 Edmonton 合作开发了 DeepStack——历史上第一个在无限注德州扑克中击败职业选手的 AI 系统。44,000 手牌的统计显著性测试中，DeepStack 证明了不完美信息博弈的 AI 解法是可行的。

随后，他们又共同参与了 Player of Games 的研发——一个能在完美信息游戏（如国际象棋、围棋）和不完美信息游戏（如扑克）中均表现出色的通用游戏 AI。这篇 2021 年的论文，至今仍是博弈论 AI 领域的里程碑。

三人均拥有博士学位，Schmid 专攻算法博弈论，Kadlec 和 Moravcik 在强化学习与多智能体系统方面各有建树。他们的共同点很鲜明：都不是金融出身，都对博弈论和强化学习抱有近乎偏执的热情。

2022 年，这个团队做了一个反常规的决定——不是留在伦敦或硅谷追逐下一轮大模型浪潮，而是回到捷克。"我们在 Edmonton 和伦敦有一大批捷克裔的朋友和同事，" Schmid 在接受 TechCrunch 采访时说，"所以我们告诉他们：嘿，我们要搬回布拉格了，要不要一起？"

这个选择在人才保留上带来了意外的好处。Schmid 直言："在布拉格留住优秀的人容易得多，因为这里不会每隔两个月就冒出一家新的性感 AI 公司。"

技术迁移：为什么扑克 AI 天然适合炒股？

EquiLibre 的核心技术洞见，用一句话就可以概括：股票市场本质上也是一个不完美信息博弈。

在德州扑克中，你知道自己的两张底牌，但不知道对手的手牌、也不知道接下来会翻出什么公共牌。你必须在不完整的信息下做出连续决策，每一步的结果取决于对手的策略——这与金融市场何其相似：你知道历史价格和公开信息，但不知道其他市场参与者的持仓、意图和私有信号。

"交易的美妙之处在于，评分标准极其简单：代理赚了多少钱？" Schmid 说。

这种反馈结构的简洁性，恰好是强化学习的理想场景。EquiLibre 的 AI 代理通过自我对弈和试错学习，不依赖标注数据，而是在市场中实时接收盈亏信号，不断调整策略。

技术栈的核心是 深度强化学习 + 博弈论推理：DeepStack 论文中的递归推理（处理信息不对称）、计算聚焦分解（将算力集中在关键决策点），以及通过自我对弈自动习得的"直觉"——这些方法论被系统性地迁移到了订单簿预测、执行优化和组合管理上。

这不是 EquiLibre 独有的思路。量化交易行业正在经历一场从传统统计方法向深度强化学习的范式转换。Jane Street 公开表示已在生产环境中使用 RL 和 LLM 训练模型，并声称拥有"数万块高端 GPU"。区别在于，EquiLibre 希望"用更少的芯片榨出更多性能"——"get more from less"，Schmid 如此表述公司的技术哲学。

融资轨迹：从 $1.4 亿到 $5 亿的估值跃迁

EquiLibre 的融资故事本身就是一篇合格的 VC 案例研究：

Pre-Seed 轮：由 Credo Ventures 领投——这家专注于中东欧的基金也是 ElevenLabs 和 UiPath 的早期投资者。
种子轮：Blossom Capital 领投的 $1000 万，估值约 $1.4 亿（€1.228 亿）。
A 轮：Creandum 领投，金额未披露，估值飙升至 $5 亿+（€4.38 亿+）。

Creandum 副总裁 Cameron Sellers 向 TechCrunch 确认，这是该机构"有史以来对一家公司最大的一笔单笔投资"。"交易的潜在总可寻址市场是地球上最大的市场之一，" Sellers 说，"多年来，无数基金创造的利润让大多数风投支持的成功案例相形见绌。"

但 Sellers 也特别指出，EquiLibre 将自己明确定义为"一个实验室，而非金融公司"。这种自我定位与其创始人的气质高度一致。"我做这件事不是因为我对提高市场效率感到兴奋，" Schmid 坦言，"我做这件事是因为我们都对构建前所未见的新事物感到兴奋，而这个过程本身就很有趣。"

值得注意的是，强化学习之父、2024 年图灵奖得主 Rich Sutton 不仅是 EquiLibre 的早期支持者，还担任公司的顾问委员会成员。Schmid 三人在 Edmonton 期间曾与 Sutton 密切合作，这段学术渊源如今转化为关键的背书。

与 Tower Research 的独家合作：算法变现的冷启动密码

2023 年底，EquiLibre 与 Tower Research Capital 达成独家合作协议。根据 Bloomberg 当时的报道，Tower 首席投资官 John Cogman 亲自确认了这一安排。

Tower Research 是纽约最老牌的自营交易公司之一，管理自有资金，不对外募资。这类公司的生存完全依赖于算法的实际盈利能力——没有营销预算可以掩盖一个亏损的策略。EquiLibre 能拿到这份协议本身，就是对技术成熟度的一次机构级认证。

合作模式据信与 Tower 一贯的 SMA（单独管理账户）结构类似：EquiLibre 授权算法给 Tower，Tower 以自有资金执行交易，利润按比例分成。对于一家 2022 年才成立、创始团队零金融背景的初创公司而言，这几乎是最高效的冷启动路径：直接获得机构级流动性和基础设施，同时用真实市场盈亏来迭代模型。

行业信号：量化交易的 RL 范式转换正在加速

EquiLibre 的 $5 亿估值不应被简单地视为又一个 AI 融资故事。它传递了一个更深的行业信号。

量化交易行业历史上经历了三次范式转换：从 1980 年代的统计套利，到 2000 年代的高频交易与市场微观结构，再到 2010 年代的机器学习因子模型。每一次转换都重塑了行业格局。

第四次转换正在发生——深度强化学习正在成为新的基础架构。与监督学习不同，RL 天然适合序列决策问题：何时进场、何时加仓、何时止损，这些本就是一个马尔可夫决策过程。再加上博弈论提供的多智能体建模框架——当你的交易对手也在使用 AI 时，问题就从"预测市场"变成了"在多人博弈中找到纳什均衡"。

EquiLibre 不是这条路上唯一的玩家。但它的估值跃迁——在两年内从 $1.4 亿到 $5 亿——反映了资本市场对这一范式转换的定价正在加速。

Schmid 对此保持清醒。当被问到来自 Jane Street 等巨头的竞争压力时，他的回答带着扑克牌手式的冷静："这不是一个赢家通吃的市场。"

或许正是这种心态，让他们在 DeepStack 的牌桌上赢了，现在又坐在了华尔街的牌桌上。