摘要
亚马逊 AI 高级副总裁 Peter DeSantis 近日向彭博社确认,AWS 正在与多方谈判,计划将自研 Trainium AI 芯片出售给第三方数据中心运营商。这是亚马逊首次尝试将原本仅供内部使用的芯片推向外部市场。CEO Andy Jassy 此前在年度股东信中表示,如果把芯片业务视为独立公司,它代表约 500 亿美元的年收入机会。此举标志着全球 AI 芯片市场格局的重大转变:超大规模云厂商正从芯片的最大消费者,变成 Nvidia 的直接竞争对手。
从自用到外销:Trainium 的战略转折点
AWS 的芯片自研始于 2018 年,最初以 Graviton(基于 Arm 架构的 CPU)和 Inferentia(推理加速器)切入。2023 年,AWS 推出首款训练芯片 Trainium,2024 年底发布 Trainium2,而第三代 Trainium3 已在筹备中。
DeSantis 的表态确认了一个关键转折:AWS 不再满足于将 Trainium 作为内部云服务的降本工具,而是希望将其打造为独立产品线,直接卖给第三方数据中心。这意味着 Trainium 将从"成本中心"转向"利润中心"。
据 Bloomberg 报道,AWS 正在与包括 Equinix、Digital Realty 等在内的多家数据中心运营商进行初步谈判。谈判的核心是 Trainium 芯片的机架级部署方案——这恰好是 Trainium3 的优势所在。
Trainium3 vs Blackwell NVL72:硬件性能首次追平
Trainium3 最具战略意义的突破,在于其机架级性能首次与 Nvidia Blackwell NVL72 持平。Blackwell NVL72 是 Nvidia 2025 年发布的旗舰 AI 训练系统,将 72 块 Blackwell GPU 通过 NVLink 互联为一个巨型计算单元,代表了当前商用 AI 训练硬件的最高水平。
Trainium3 能在机架级与 NVL72 打平,背后是 AWS 在芯片架构、互连和散热三个维度的长期投入:
- NeuronLink 互连:Trainium3 采用自研的高带宽芯片间互连技术,在 16 芯片 Trn3 服务器内实现 3.2 TB/s 的双向带宽,逼近 Nvidia NVLink 的规格。
- 液冷散热:Trainium3 从设计之初就按液冷标准打造,允许更高的 TDP 和更密集的机架部署,这是风冷 NVL72 部署时的实际约束。
- 软件栈成熟度:经过三代迭代,AWS Neuron SDK 已支持 PyTorch、JAX 等主流框架,并适配了 HuggingFace 上超过 10 万个模型。
不过,硬件性能追平只是第一步。真正的壁垒在软件生态。
CUDA 的护城河:硬件可以追,生态难以复制
Nvidia 的统治地位并不完全建立在硬件性能上。自 2006 年推出 CUDA 以来,Nvidia 用近 20 年时间构建了一个深度嵌入 AI 研发生态的软件栈。全球超过 500 万开发者使用 CUDA,几乎所有的 AI 框架(PyTorch、TensorFlow、JAX)都以 CUDA 为第一等公民进行优化。
这意味着,即使 Trainium 在纸面性能上追平甚至超越 Nvidia,客户迁移的成本依然高昂。一个用 CUDA 编写的训练脚本,迁移到 AWS Neuron SDK 需要不同程度的代码改写——从简单的 import 替换到复杂的算子重写。
DeSantis 对此的策略是"渐进替代"而非"一刀切迁移"。AWS 的做法是:
- 通过 PyTorch 作为中间层:利用 PyTorch 的 XLA 编译器后端,让用户只需修改几行代码即可在 Trainium 上运行现有模型。
- 锚定大客户:Pinterest 今年 6 月承诺将使用 Trainium 芯片驱动其视觉发现引擎,并与 AWS 签订了 40 亿美元的多年合同。Snowflake 则在 5 月签署了 60 亿美元的五年协议,其中包括对 Graviton 和 Trainium 芯片的使用承诺。
- 开源生态策略:AWS 将 Neuron 编译器部分开源,允许社区贡献算子实现,加速长尾模型的支持。
正如一位业内人士所言:"CUDA 不是技术壁垒,是习惯壁垒。打破习惯需要比 Nvidia 便宜 30-50% 的 TCO(总拥有成本),AWS 恰好有能力做到这一点。"
超大规模云厂商:从芯片消费者到芯片供应商
AWS 的举动并非孤立事件。它代表了一个更广泛的行业趋势:超大规模云厂商正从 AI 芯片的最大买家,转变为芯片供应商。
Google 的 TPU(张量处理单元)是最早的先行者。自 2016 年推出 TPU v1 以来,Google 已在自有数据中心部署了超过 100 万块 TPU。虽然 Google 主要通过云服务(Google Cloud TPU)提供 TPU 算力,但它在 2024 年已开始向部分战略客户提供 TPU 的物理部署方案。
微软则在 2023 年发布了 Maia 100 AI 加速器,用于 Azure 数据中心,但目前尚未有对外销售的计划。
AWS 的差异化在于其双重策略:一方面通过 Bedrock、SageMaker 等平台继续提供 Nvidia GPU 实例(包括最新的 H200 和 B200),另一方面通过 Trainium 和 Inferentia 提供更低成本的替代方案。Trainium 芯片的对外销售,则是在这双重策略之上叠加了第三层——成为独立芯片供应商。
这种"亦敌亦友"的关系正在重塑 AI 芯片市场。Nvidia 仍然占据 AI 训练芯片市场约 80% 的份额,但其毛利率高达 70% 以上,这为 AWS 等挑战者留下了巨大的价格战空间。
500 亿美元的机会与风险
Andy Jassy 在股东信中提出的 500 亿美元年收入机会,并非空穴来风。据 Bloomberg 估算,全球 AI 芯片市场规模将在 2027 年达到 2000 亿美元以上,其中训练芯片约占 40%。如果 AWS 能分得其中 15-20% 的份额,500 亿美元的目标并非遥不可及。
但风险同样明显:
- 客户信任问题:数据中心运营商是否愿意将核心 AI 工作负载绑定在 AWS 的芯片上?如果 AWS 既是芯片供应商又是云服务竞争对手,利益冲突如何解决?
- 迭代速度:Nvidia 已承诺每年更新一代 AI GPU(Hopper → Blackwell → Rubin → Vera),AWS 能否跟上这一节奏?
- 地缘政治风险:AI 芯片出口管制日益收紧,AWS 的芯片销售范围可能受到限制。
Bloomberg 报道指出,AWS 目前主要瞄准美国本土的数据中心运营商,以避免出口管制带来的复杂性。
一场持久战
Peter DeSantis 的芯片外销战略,是 AWS 成立 20 年来最具雄心的硬件举措之一。它的成败不仅关乎 AWS 能否在 AI 基础设施市场分得一杯羹,更将决定超大规模云厂商能否真正打破 Nvidia 在 AI 训练领域的垄断。
DeSantis 曾在上一次 re:Invent 大会上说过一句话:"我们认为,客户应该拥有选择的权利。"这句看似平淡的表态,实则是对 Nvidia 统治地位的宣战。500 亿美元的目标很大,但 AI 芯片市场的蛋糕更大。问题不在于 AWS 能否卖出芯片,而在于它能否说服客户——用 Trainium 训练一个 GPT-4 级别的模型,和用 H200 一样好,但便宜 40%。
这是 AWS 的考题,也是整个 AI 芯片行业的下一章。

