Subquadratic 声称突破了制约 LLM 近十年的注意力瓶颈——是自 Transformer 以来最大的架构突破，还是 AI 界的 Theranos？

那个"二次方瓶颈"到底是什么？

2017 年，Google 的研究者发表了一篇题为 "Attention Is All You Need" 的论文，Transformer 架构从此成为大语言模型的事实标准。但这套架构里埋着一颗成本炸弹：密集注意力（dense attention）。

密集注意力的工作原理可以简化成这样：模型处理一段文本时，先把每个 token（词或词的一部分）编码成一个数字向量，然后让每一个 token 与每一个其他 token 两两相乘，以此捕捉文本中所有词之间的关系。一段 10,000 词的文本，会触发近 5,000 万次独立的乘法运算 MIT Technology Review。

这种计算量随输入长度平方级增长——文本长度翻倍，计算量约翻四倍。这就是所谓的 O(n²) 或"二次方"瓶颈。它解释了为什么长上下文窗口如此昂贵，为什么大模型是出了名的电老虎，也解释了为什么大多数前沿模型目前把上下文窗口限制在 100 万 token 左右。

Subquadratic 的 CEO Justin Dangel 给出了一个直观的比喻："如果你想总结《了不起的盖茨比》，你必须把第一个词和最后一个词放在一起看，然后你还得看其他每一种组合。"

Subquadratic 的方案：用"稀疏"取代"密集"

2026 年 5 月，一家位于迈阿密的初创公司 Subquadratic 带着 2,900 万美元种子轮融资走出隐身模式，宣称自己解决了这个问题。

他们的方案在概念上并不复杂：抛弃密集注意力，改用稀疏注意力（sparse attention）。不对所有 token 对做乘法，只选择其中一部分进行计算。核心逻辑是——一句话里不是所有词之间的关系都重要。

Subquadratic 的联合创始人兼 CTO Alex Whedon 说得很直白："如果你在读一本书，你不会去看第一个和第二个词、第一个和第三个词——那是疯了。"

稀疏注意力本身并不是新概念。Longformer、BigBird、甚至 FlashAttention 本身（一种优化密集注意力计算的工程方法）都曾尝试过稀疏或近似稀疏的方案。但此前的尝试有一个共同问题：虽然节省了计算，却无法在模型质量上匹敌密集注意力。

Subquadratic 声称自己的差异在于动态选择。Whedon 说："历史上，大多数机制使用固定模式，比如总是比较第一个词和第五个词。那相当有限。语言太复杂了，不适用于那种方式。我们机制独特的一点在于，我们动态地选择哪些是重要的。"

具体怎么选？公司拒绝透露细节。"这就是我们的秘密配方所在，"Whedon 说 MIT Technology Review。

Appen 的独立评测：数字确实惊人

最初，Subquadratic 只发布了少量自测分数，立刻招来了大量质疑。AI 工程师 Dan McAteer 在 X 上的总结成了社区共识："SubQ 要么是自 Transformer 以来最大的突破……要么就是 AI 界的 Theranos。" TNW

为了回应质疑，Subquadratic 请来了第三方评测机构 Appen 对 SubQ 1.1 Small Preview 模型进行独立评估。Appen 是一家为前沿 AI 公司提供数据标注和模型评估服务的企业，其评测结果在 6 月中旬公布。

关键数据如下：

速度测试：在纯速度基准测试中，SubQ 比使用 FlashAttention 的模型快 56 倍 Appen。

长上下文检索：Needle-in-a-Haystack（大海捞针）测试中，SubQ 在 100 万和 200 万 token 上下文窗口下达到 100% 检索准确率；在 600 万和 1,200 万 token 下，nano 变体仍保持 98% 的精确匹配准确率——"在极少有模型被测试过的尺度上维持了近完美的长上下文检索" Appen。

代码生成：LiveCodeBench（一个从实时竞赛平台持续抽取编程题目的基准，题目不断更新以限制数据污染）上，SubQ 在 1,055 道题、每题 4 次补全的评估中取得 89.7% 的 pass@4 分数，与 Google DeepMind、OpenAI 和 Anthropic 的顶级模型处于同一梯队 Appen。

成本对比：Subquadratic 声称，用 Anthropic 的 Opus 4.6 运行 RULER 128（Nvidia 开发的长上下文检索测试）成本约 2,600 美元。而 SubQ？"花了我们八美元，"Dangel 说 MIT Technology Review。

Appen 生成式 AI 研究总监 Jeanine Sinanan-Singh 的评价是："这对我来说真的很兴奋，它验证了他们的架构。""哇，这可能是改变游戏规则的东西，因为模型在速度和效率方面一直很挣扎。"

四个争议点：为什么"AI Theranos"的标签还没摘掉

即便有 Appen 的背书，社区中的怀疑远未消除。以下是几个关键争议：

1. 权重来自 Qwen，而非从零训练

SubQ 并不是从零开始训练的全新模型。Subquadratic 承认，他们使用了中国开源模型 Qwen 的权重作为起点，然后替换了其中的注意力机制。这本身是行业常见做法（很多模型公司都从开源权重起步微调），但问题在于：这让你很难区分模型的能力到底来自新的注意力架构，还是来自 Qwen 本身已有的能力 MIT Technology Review。

正如 AI Weekly 所指出的："报道没有给你的是——去掉 Qwen 权重后的消融实验。那个数字才能区分真正的架构进步和一个非常高效适配的基线。" AI Weekly

2. 尚未广泛开放，无法独立验证

Subquadratic 声称已有数万人注册了等候名单，其中包括 500 多家企业客户。但截至目前，只有极少数人获得了访问权限。公司的解释是：作为一家新公司，资源有限，无法同时服务太多用户。独立研究者 Will Depue（前 OpenAI 员工）的评论代表了谨慎派的立场："他们可能确实构建了一些真实且有用的东西，但公开证据尚不足以支持他们解决了二次方注意力瓶颈这一更强的声明。" MIT Technology Review

3. Hacker News 上的"图表罪"与假账号疑云

在 Hacker News 上，SubQ 的发布引发了激烈讨论。有用户指出，公司官网曾出现一张严重误导性的图表：将 SubQ 在 SWE-bench 上的 81% 得分与 Claude Opus 的 87% 得分放在一起，但 Y 轴的比例尺被做了手脚，使得两者之间的差距看起来极小。Subquadratic 的团队成员在 HN 上回应称这并非故意，但该图表随后被移除 Hacker News。

此外，多位 HN 用户指出，讨论串中出现了大量创建时间极短的新账号为 SubQ 背书，部分评论甚至与 X 上的内容完全一致——疑似有组织的"草根营销" Hacker News。

4. 团队规模与融资的反差

Subquadratic 据报道仅有 4 人（也有说法称团队共 11 位 PhD），但获得了 2,900 万美元种子轮融资，投资者包括 Justin Mateen（Tinder 联合创始人）以及 Anthropic、OpenAI、Stripe 和 Brex 的早期投资人。据报道估值为 5 亿美元 TAMradar。CEO Justin Dangel 被认为是一位连续创业者但缺乏 AI 背景，而 CTO Alex Whedon 曾在 Meta 工作，毕业于杨百翰大学。

参照系：Magic.dev 的警示

要理解为什么社区对 Subquadratic 的怀疑如此之深，Magic.dev 是一个绕不开的参照物。

Magic.dev 是一家旧金山 AI 编码初创公司，累计融资约 4.66 亿美元，投资方包括 Eric Schmidt、Atlassian、Sequoia、Jane Street 等顶级机构。2024 年曾以 15 亿美元估值寻求融资，尽管当时"没有任何收入，也没有可供销售的产品" Reuters。该公司声称拥有 2 亿 token 上下文窗口的突破，但至今（2026 年 6 月）最后一次社交/博客活动停留在 2024 年，没有公开可用的产品 Tracxn。

Magic.dev 的故事让整个行业对"长上下文窗口 + 巨额融资 + 无公开产品"这一组合变得格外警惕。Subquadratic 目前的表现模式——惊人的声明、有限的公开访问、需要更多时间来"扩展基础设施"——与 Magic.dev 早期轨迹有相似之处。

但两者之间也有重要区别：Subquadratic 至少请来了 Appen 做独立第三方评测，而 Magic.dev 从未提供过任何可验证的第三方证据。另外，Subquadratic 的融资规模和估值（2,900 万美元 / 5 亿美元）远低于 Magic.dev（4.66 亿美元），这或许意味着投资者本身也在采取更审慎的态度。

如果 SubQ 为真：产业格局的深远影响

尽管存在诸多争议，但 SubQ 如果确实兑现了其承诺，对 AI 产业的影响将是结构性的：

GPU 需求逻辑可能被改写。如果注意力计算从 O(n²) 降至 O(n)，那么驱动大量 GPU 需求的长上下文推理场景（如代码库分析、法律文档审查、科学文献综述）将不再需要如此多的算力。Nvidia 的股价叙事中，"LLM 永远需要更多 GPU"这一隐含假设将受到挑战。

长上下文任务的经济可行性将彻底改变。当运行一次 RULER 128 的成本从 2,600 美元降至 8 美元，大量目前因成本过高而无法落地的企业应用场景——全库代码审查、整份合同集分析、大批量文档对勘——将变得可行。

稀疏注意力可能成为新的架构范式。Dangel 声称："我们不认为几年后还会有人基于 Transformer 构建模型。" MIT Technology Review 如果 SubQ 的路径被验证，整个行业的研究方向可能从"如何更高效地做密集注意力"转向"如何让稀疏注意力不损失质量"。

但这一切的前提是：SubQ 能够在公开、大规模、多样化场景下，持续复现 Appen 在受控测试环境中的表现。

结论：技术可验证性与炒作之间的张力

Subquadratic 的故事本质上是一面镜子，折射出当下 AI 行业的根本张力：对突破性进展的渴望，与对炒作和虚假承诺的疲惫，同时存在且同样强烈。

从积极面看，Subquadratic 比大多数声称"破解了注意力瓶颈"的公司走得更远：有第三方独立评测（Appen），有已发布的技术博客和模型卡，有正在进行的私人测试版，有愿意在 Hacker News 上与社区直接对话的团队。CTO Whedon 也坦承了教训："事后看来，在最初公告的同时发布第三方基准测试，本可以避免很多怀疑。" MIT Technology Review

从谨慎面看，核心问题一个都没解决：没有公开 API、没有消融实验证明架构本身的贡献、没有经过足够多样本的真实场景测试、团队的技术背景和过往产出尚不足以让人"先信了再说"。

Will Depue 将稀疏注意力的成功比作"跑进四分钟一英里"——并非不可能，但极少有人做到。Subquadratic 是不是那个破纪录的人，答案不在宣传稿里，也不在 Appen 的报告里，而在一个简单的问题上：你什么时候能让我自己试试？

本文基于 MIT Technology Review、TNW、Appen 白皮书、Hacker News 讨论、Reuters 等来源的公开信息撰写。截至发稿时，SubQ 模型尚未向公众开放。