Qualcomm HBC：把计算「埋」进内存下面，能打破 AI 的「内存墙」吗？

如果 AI 推理是一场高速公路上的物流运输，那么当前整个行业正遭遇的困境不是卡车不够快，而是仓库到高速公路的出口永远在堵车。这就是「内存墙」（Memory Wall）——芯片算力年复一年地翻倍，但内存带宽的增速远远跟不上，数据从 DRAM 搬运到计算单元的时间和能耗，正在成为整个系统最粗的那根瓶颈。

2026 年 6 月 24 日，Qualcomm 在纽约投资者日上给出了自己的答案。这家以手机芯片闻名的公司宣布了一个全新的数据中心品牌 Dragonfly，而其中最引人注目的核心技术叫做 HBC（High Bandwidth Compute，高带宽计算）：它不是简单地给芯片配更多 HBM，而是把专用计算加速器直接「埋」到 LPDDR 内存堆栈的正下方，用 3D 垂直互联替代传统的水平走线。

Qualcomm 执行副总裁兼数据中心业务总经理 Tony Pialis 用了一个生动的比喻：「想象你住在上班的同一栋楼里，只需要上下楼就行。那些连接郊区和市区的公路和高速公路呢？猜怎么着——路面全清了。」

内存墙：AI 推理的真正瓶颈

要理解 HBC 为什么重要，必须先理解内存墙为什么是当下 AI 基础设施最紧迫的问题。

随着 Agentic AI 的兴起，单次用户查询可能触发 50 到 100 次模型推理调用。推理已经从训练时代的「附带开销」变成了主体工作负载。而在大语言模型推理的两个阶段中，decode（逐 token 生成）阶段的算术强度极低——模型权重需要从内存中以自回归方式逐个 token 地流式读出，计算本身并不复杂，但数据搬运量极其庞大。这意味着 decode 阶段几乎完全受限于内存带宽。

与此同时，HBM 正在经历史无前例的供应危机。据 TrendForce 数据，HBM 需求在 2026 年将同比增长 70%。SK 海力士、三星和美光的 HBM 产能已售罄至 2026 年底，2027 年的分配额度正在被提前谈判。CNBC 年初即报道，即便是 Majestic Labs 这类 AI 芯片公司，也不得不因 HBM 短缺而转向低成本替代方案。

这个背景下，Qualcomm 的选择异常清晰：与其在一个供给紧张的市场上和 Nvidia、AMD 抢 HBM，不如彻底绕开 HBM 的技术路线。

HBC：把 XPU「埋」进 DRAM 下面

HBC 的技术原理并不复杂，但执行起来颇为激进。

传统 AI 加速器（无论是 GPU 还是专用 XPU）将计算芯片与 HBM 内存堆栈放在同一封装基板上，通过数万条导线和昂贵的硅中介层（silicon interposer，如台积电 CoWoS）水平连接。数据在计算 die 和内存 die 之间反复穿梭，每一步都消耗可观的功耗。

HBC 颠覆了这个范式：Qualcomm 将 AI 加速器从主 SoC 中分离出来，通过硅通孔（TSV）直接键合到 LPDDR 内存堆栈的正下方。整个结构使用标准的 2D 有机基板封装，不再需要 HBM 方案必备的硅中介层。

这个设计的核心逻辑有三层：

缩短数据路径：计算单元与内存垂直堆叠，数据只需「上下楼」而非「横穿城市」。
近存计算减少搬运量：带宽密集型操作在靠近内存的基 die 上完成，只有结果需要传输回主 SoC，从而实现 Qualcomm 所称的「有效带宽放大」。
用 LPDDR 替代 HBM：LPDDR 容量更大、成本更低、供应链更宽松，天生适合对容量敏感的推理场景。

性能数据方面，Qualcomm 宣称 HBC 相比 HBM 提供 6 倍带宽/瓦，相比片上 SRAM 提供 200 倍容量，并且能让 AI 推理中 decode 阶段的性能实现线性扩展。

「有效带宽」的魔法与玄学

不过，仔细审视 Qualcomm 披露的数据，一个反复出现的修饰词值得警惕：「有效」（effective）。

以 AI250 加速器为例，Qualcomm 宣称每卡提供 768 GB 内存容量和高达 133 TB/s 的「有效」内存带宽。作为对比，Nvidia 的 Groq 3 LPU 仅提供 500 MB SRAM 和 150 TB/s 带宽。

The Register 的 Tobias Mann 对此提出了尖锐质疑：Qualcomm 此前对基于 LPDDR5X 的 AI200 系统宣称 414 TB/s「有效」带宽（56 颗芯片合计），但要仅靠 8800 MT/s 的 LPDDR5X 实现这一数字，需要一颗芯片配备 6720 位宽的总线——这几乎不可能。

Qualcomm 坚持称这是「LPDDR 接口的纯物理带宽」，但拒绝提供具体实现细节。实际上，「有效带宽」的关键在于 HBC 在内存近端完成的那些带宽密集型操作——因为数据不需要全部搬运回主 SoC，等效来看可利用的带宽确实被放大了。这和 HBM 单纯靠堆更多物理引脚提升原始带宽的思路有本质区别。

Tech 媒体和分析师对此态度微妙：方向正确，但数字需要打折扣看。

Decode 才是真正的战场

Qualcomm 对 HBC 的定位还有一个重要细节：它并非试图在所有 AI 工作负载上击败 GPU。

Tony Pialis 对 The Register 表示，AI250 可以作为独立 AI 加速器使用，但它「高度优化于解决带宽瓶颈」。换句话说，HBC 的甜点区是 decode 阶段——即模型的全部活跃权重以自回归方式从内存中逐 token 流出的场景。Decode 计算强度低、带宽需求高，恰好规避了将计算单元埋在 DRAM 下面带来的热约束问题。

这意味着 Qualcomm 瞄准的是一种分离式推理架构：用 GPU 或其它 Qualcomm 芯片处理 prompt 的 prefill 阶段（计算密集型），用 AI250 的 HBC 处理 decode（带宽密集型），两者按需混合配比。在 Agentic AI 的语境下——一个请求触发数十上百次模型调用，且大部分时间花在 token 生成上——这种架构的经济学优势可能相当显著。

Qualcomm 声称，相比传统 GPU 配置，HBC 每瓦可多产生最多 8 倍的 token。而 Forbes 分析师 Steve McDowell 指出，「AI 的下一阶段由推理经济学定义，Qualcomm 的进入时机恰好利用了其数十年积累的高效计算、系统集成和连接技术」。

Dragonfly 路线图与客户背书

HBC 并非孤立的实验室项目，而是嵌入了 Qualcomm 一个完整的、多代际的数据中心产品规划。

AI200（2026 年下半年出货）：基于 LPDDR5X，每 rack 提供 43 TB 内存，是 Dragonfly 加速器家族的起点。

AI250（2027 年中）：首个集成 HBC Gen1 的产品。每卡 768 GB 内存、133 TB/s 有效带宽，带宽为 AI200 的 18 倍。这代产品是 HBC 技术的首次商业化验证。

AI300（2028 年）：搭载 HBC Gen2。有效带宽达 AI200 的 54 倍，带宽/瓦相比 HBM 提升 7 倍。支持 UALink 和 ESUN 进行 scale-up，铜缆和光互联进行 scale-out。

Dragonfly C1000 CPU（2028 年）：基于自研 Oryon 架构，250+ 核心、5 GHz 以上频率，面向 Agentic AI 编排和通用服务器负载。Meta 已签署多代际 CPU 采购协议。

除了 Meta 的 CPU 订单，Microsoft CEO Satya Nadella 也确认 Azure 将部署 HBC 芯片。两家超大规模客户的早期承诺，加上超过 35 家生态系统合作伙伴（包括 Arista、Lenovo、Micron、Samsung SDS、SK hynix、Supermicro、VAST Data 等）的支持，为 HBC 路线图提供了相当分量的行业背书。

Qualcomm 同步宣布了对 Modular 的收购——由 LLVM 和 Swift 语言之父 Chris Lattner 创立的 AI 软件公司。Modular 的 Mojo 编程语言和 MAX 推理服务平台提供了一种跨硬件（Nvidia、AMD、Qualcomm）的统一软件栈，这意味着 Qualcomm 不必要求客户抛弃 CUDA 生态，而是可以在异构环境中渐进渗透。

竞争格局：绕开 HBM 军备竞赛

Qualcomm 的 HBC 策略必须放在更广泛的产业竞争棋盘上理解。

Nvidia 拥有最成熟的 GPU + HBM 体系，但面临着 HBM 供应链瓶颈和功耗天花板。据 TrendForce 报道，Nvidia 和 AMD 据传都在与 HBM 供应商和台积电合作开发定制化的 HBM 基 die，可能集成有限的计算能力——但这目前仍处于早期阶段。

三星和 SK 海力士 在推动 PIM（Processing-in-Memory，内存内处理）路线：将计算引擎集成到内存 die 内部，实现真正的「存内计算」。SK 海力士的 AiM 加速器已经在实际应用中部署。但 PIM 的问题在于：它要求修改 DRAM 制造工艺，而 DRAM 厂商的核心商业模式是标准化大规模生产，定制化 PIM 的成本和良率挑战巨大。

d-Matrix 和 GUC：前者在开发使用 3D 堆叠 DRAM 的近存计算加速器；后者的 DRAM-on-Logic（DoL）技术可在逻辑层上放置 1–4 层 DRAM，实现约 5 TB/s 的内存带宽。

Qualcomm 的差异化在于：它选择 LPDDR 而非 HBM，采用 标准有机基板封装而非 CoWoS，使用的是消费电子供应链中极其成熟的 LPDDR 产能。这意味着它不仅绕开了 HBM 的供给瓶颈，也绕开了先进封装（CoWoS）的产能瓶颈——这两个恰恰是当前 AI 芯片行业最紧绷的环节。

正如 Forbes 所分析的，Qualcomm 每年消耗超过一百万片先进制程晶圆、出货四百亿颗元器件，「这种规模让它能够在供应受限的市场中承诺产能和保证良率，而小型设计公司无法做到」。

未解之谜：热约束、FLOPS 与执行风险

HBC 的故事虽然诱人，但仍有几个关键问题悬而未决。

热约束：将计算单元埋在数层 DRAM 下面是热力学的噩梦。硅是热的不良导体，而 DRAM 对温度高度敏感——高温会迫使内存提高刷新率，消耗更多带宽和功耗，形成负反馈循环。这也是 Qualcomm 谨慎地将 HBC 定位在 decode 场景的原因：decode 计算强度低，发热可控。但如果 HBC 试图扩展到更广泛的工作负载，散热将是绕不开的挑战。

从未披露的 FLOPS：Qualcomm 拒绝公开 AI250 和 AI300 的峰值算力数据。The Register 直接向 Qualcomm 询问后也未能得到答复。没有 FLOPS 数据，外界几乎无法独立评估 HBC 加速器在真实世界混合负载下的表现。

执行时间线：AI250 要到 2027 年中才送样，AI300 和 C1000 更是要等到 2028 年。而在这两年间，Nvidia 的 Rubin 平台、AMD 的下一代 MI 系列以及各家超大规模企业的自研芯片都将迭代——Qualcomm 当前的宣传优势能否保持到产品真正上市，存在巨大的不确定性。

「有效」数字的可比性：如前所述，Qualcomm 严重依赖「有效带宽」这个概念，而行业缺乏统一的衡量标准来对比不同架构的「有效」性能。投资者和客户在 2027 年拿到实际硬件之前，只能选择相信 Qualcomm 的叙事。

结语：AI 芯片竞赛的下一个战场

Qualcomm 的 HBC 不应被简单理解为一款新芯片的发布。它代表了一种思路上的转向——AI 芯片的竞争焦点正在从「谁能堆更多计算单元」转向「谁能更聪明地管理数据和内存」。

在训练时代，算力是王。在推理时代，带宽和功耗才是王。这正是 Qualcomm 敢于以 150 亿美元（2029 财年数据中心营收目标）下注的底层逻辑。

HBC 能否成为 AI 芯片的「下一个范式转移」？答案将取决于 2027 年 AI250 的实际表现。如果它能兑现 6 倍带宽/瓦和线性 decode 扩展的承诺，且热管理不成为致命短板，那么 HBC 有潜力重新定义 AI 推理基础设施的成本结构——尤其在 Agentic AI 推动推理需求指数级增长的背景下。

但如果「有效带宽」最终被证明只是巧妙的营销话术，或者 3D 堆叠的热问题无法解决，那么 HBC 可能会和此前的近存计算尝试一样，成为一份技术上有趣但商业上无果的实验记录。

有一点可以确定：在 HBM 售罄、DRAM 短缺和 Agentic AI 爆发的三重压力下，Qualcomm 选择在这个时间点「把计算埋进内存下面」，至少为 AI 芯片军备竞赛写下了不一样的剧本。