2026 年 3 月前后,Google 向 Meta 传达了一条简短的坏消息:你要的 Gemini 推理算力配额,我们给不了。
这不是一场普通的企业采购谈判破裂。Meta 是全球市值排名前五的公司,2026 年资本支出预算高达 1250 亿到 1450 亿美元——比它 2024 和 2025 两年总和还多。但就是这样一个手握几乎无限支票簿的买家,依然被 Google 告知:产能不够,你得排队。据《金融时报》6 月 28 日率先披露,这一限制至今仍在生效,直接导致 Meta 部分内部 AI 项目的延误,并迫使公司要求工程师「节约使用 AI Token」。
这不是 AI 算力短缺第一次上头条,但这一次,信号完全不同。
从「Token 末日」到巨头之间的配给制
过去一年,「算力短缺」四个字频繁出现在中小企业与开发者的语境中。Uber、Walmart、Accenture 等大型企业客户曾被报道面临 AI 模型 API 的配额上限,开发者社区戏称为「Token 末日」——即当企业的 Token 调用量超过云厂商配额时,服务被降级甚至中断。
但 Google 限制 Meta 使用 Gemini,把这个叙事升了一个量级。这不是云厂商限制中小客户,而是一家市值超过 2 万亿美元的科技巨头对另一家市值超过 1.5 万亿美元的科技巨头说「不」。
据《金融时报》援引三位知情人士的说法,Google 大约在今年 3 月告知 Meta,无法满足后者计划采购的全部 Gemini 推理算力。Meta 受冲击尤其严重,原因是其需求量异常庞大——Meta 此前将 Gemini 用于内容审核等关键安全任务,因为在这些场景下,Gemini 的表现优于 Meta 自家开源的 Llama 系列模型。限制实施后,Meta 被迫加快了将工作负载迁回内部模型的节奏。
最富有买家也买不到的东西
让这件事真正具有冲击力的,是双方的数字。
先看需求方。Meta 在 2026 年 Q1 财报中将全年资本支出指引上调至 1250 亿至 1450 亿美元,较此前的 1150 亿至 1350 亿美元区间大幅跳升,接近 2025 年 722 亿美元的两倍。CFO Susan Li 将此归因于「组件价格上涨和新增数据中心成本」。与此同时,Meta 在 5 月裁撤了约 8000 个岗位,将释放出的数十亿美元重新导向 AI 基础设施。
再看供应方。Alphabet(Google 母公司)在 2026 年 Q1 同样将全年资本支出上调至 1800 亿至 1900 亿美元,CFO Anat Ashkenazi 还预告 2027 年 capex 将「显著增长」。CEO Sundar Pichai 在财报电话会上直言:「我们在短期内是算力受限的(compute constrained)。」「如果我们能满足需求,云收入本应更高。」
也就是说,两家公司合计 2026 年 capex 超过 3000 亿美元——但其中一家仍然买不到另一家的 AI 推理产能。
Google 自己的算力焦虑
更有意思的是 Google 自身的处境。今年 6 月,就在限制 Meta 的同时,Google 与 SpaceX 签署了一份令市场瞠目结舌的协议:以每月 9.2 亿美元的价格,租用约 11 万块 Nvidia GPU 的算力,合同期 32 个月,总价值约 300 亿美元。Google Cloud 发言人对 CNBC 表示,这是为了获取「桥接算力」(bridge capacity),以满足 Gemini Enterprise 产品「超出预期的激增需求」。
在这之前一个月,Anthropic 也与 SpaceX 签署了更大规模的协议——每月 12.5 亿美元,租用 SpaceX 位于孟菲斯的 Colossus 1 数据中心全部算力。
一个每年在自己 AI 基础设施上花费近 1900 亿美元的公司,需要向一家火箭公司每月支付近 10 亿美元来租赁 GPU——这个事实本身比任何分析报告都更能说明当前的算力短缺有多严重。
Pichai 在 Q1 财报会上透露了另一个关键数字:Google Cloud 的未履行合同义务(backlog)已接近翻倍至 4600 亿美元,其中预计约一半将在 24 个月内转化为收入。这意味着,仅仅是已签约的客户需求,就已经远超 Google 当前能够交付的产能。
连锁反应:从 GitHub Copilot 到 OpenAI Sora
Meta 被限只是冰山露出水面的一角。2026 年上半年,AI 算力短缺已经从「行业话题」演变为「系统性瓶颈」:
- Anthropic 的 Claude API 在截至 4 月 8 日的 90 天内正常运行时间仅为 98.95%,远低于企业级云服务 99.99% 的标准,导致部分企业客户流失到 OpenAI。
- OpenAI 在 4 月宣布关闭 Sora 视频生成应用,部分原因正是为了将宝贵的 GPU 算力重新分配给编程和企业级产品。其 API Token 用量从去年 10 月的每分钟 60 亿飙升至今年 3 月底的每分钟 150 亿。
- GitHub 在 4 月对 Copilot 引入了新的使用上限,明确将「快速增长」和「高强度使用」列为原因。
- GPU 现货价格大幅上涨:根据 Ornn Compute Price Index,一块最新 Blackwell 芯片的每小时使用费从两个月前的 2.75 美元涨至 4.08 美元,涨幅达 48%。
- CoreWeave 等 GPU 云厂商在 2025 年底提价超过 20%,并要求小客户签署三年而非一年的长约。美国银行分析师预计,需求超过供给的状态将至少持续到 2029 年。
结构的枷锁:芯片、电力与混凝土
算力短缺不是暂时的。它的根扎在物理世界,而非软件层。
GPU 的交货周期仍然漫长。数据中心的建设需要数年时间,且受到电力接入、选址审批和冷却系统的多重约束。Vultr CEO J.J. Kardwell 对《华尔街日报》表示,当前是他运营云基础设施业务五年多来从未见过的产能危机,2026 年全年的可用电力已经被预订一空。
这解释了为什么 Google 即使自己生产 TPU(张量处理单元),也仍然需要从外部租赁 GPU。也解释了为什么 Meta——这家正在部署超过 1GW 自研芯片(与 Broadcom 合作开发)并大量采购 AMD 和 Nvidia 芯片的公司——仍然需要依赖竞争对手 Google 的 Gemini 模型来处理内容审核。
正如 Forbes 专栏作者 Jon Markman 所写:「你不能在一个正在配给制运行的市场里吹起泡沫。」当全世界最富有的两家科技公司都在为算力争抢时,我们看到的不是 AI 投资泡沫,而是短缺的代价。
Meta 的出路:Muse Spark 与「去 Gemini 化」
对 Meta 而言,Gemini 限供既是危机也是催化剂。这家公司早已对依赖外部 AI 提供商感到不安,限制令加速了一个本就计划中的转型。
Meta 的 Superintelligence Labs 部门发布了 Muse Spark——一个原生多模态推理模型,支持工具调用、视觉思维链和多智能体编排。在《金融时报》报道引发的讨论中,Muse Spark 被反复提及为 Meta 摆脱外部依赖的关键一步。扎克伯格在 Q1 财报会上表示:「过去 10 个月,我们建立了业界最强的研究团队……现在我们有了强大的模型,可以开发更多新类型的产品。」
但这条路并不轻松。Meta 的 AI 用户基数庞大——Instagram、Facebook、WhatsApp 合计超过 30 亿月活用户——从 Gemini 迁出内容审核等核心任务,意味着 Muse Spark 必须在可靠性、准确性和吞吐量上经受住残酷的规模考验。对一家正在裁员的公司来说,一边裁员一边完成大规模模型迁移,这本身就是一场豪赌。
算力即权力
Google 限制 Meta 使用 Gemini 的深层含义,远不止于两个竞争对手之间的一次采购摩擦。它揭示了一个正在成型的产业秩序:在 AI 时代,拥有推理算力的公司,拥有定义游戏规则的能力。
Google 的 Gemini 推理算力优先服务于三类需求:自家产品(搜索、YouTube、Workspace)、Gemini Enterprise 付费客户、以及 Google Cloud 的大合同客户。对外 API 供给本质上是「剩余产能」——当连前两类需求都无法完全满足时,第三类和外部 API 自然首当其冲。换言之,Google 对 Meta 关上 Gemini 的大门,不是「不想卖」,而是「真的没有多余的了」。
这与云计算时代早期 AWS 的「按需无限扩展」叙事形成了鲜明对比。AI 时代的算力供给,更像是一种稀缺的自然资源——分布不均,扩张缓慢,且高度集中。当这种稀缺资源由少数几家同时又是彼此竞争对手的科技巨头控制时,「配给制」就不再是一种临时措施,而可能成为长期的市场结构。
Bank of America 分析师预计供需失衡将持续到 2029 年以后。如果这一预测成真,那么 Google 对 Meta 关上的这扇门,恐怕只是一个开始。

