如果 AI 推理是一场高速公路上的物流运输,那么当前整个行业正遭遇的困境不是卡车不够快,而是仓库到高速公路的出口永远在堵车。这就是「内存墙」(Memory Wall)——芯片算力年复一年地翻倍,但内存带宽的增速远远跟不上,数据从 DRAM 搬运到计算单元的时间和能耗,正在成为整个系统最粗的那根瓶颈。
2026 年 6 月 24 日,Qualcomm 在纽约投资者日上给出了自己的答案。这家以手机芯片闻名的公司宣布了一个全新的数据中心品牌 Dragonfly,而其中最引人注目的核心技术叫做 HBC(High Bandwidth Compute,高带宽计算):它不是简单地给芯片配更多 HBM,而是把专用计算加速器直接「埋」到 LPDDR 内存堆栈的正下方,用 3D 垂直互联替代传统的水平走线。
Qualcomm 执行副总裁兼数据中心业务总经理 Tony Pialis 用了一个生动的比喻:「想象你住在上班的同一栋楼里,只需要上下楼就行。那些连接郊区和市区的公路和高速公路呢?猜怎么着——路面全清了。」
内存墙:AI 推理的真正瓶颈
要理解 HBC 为什么重要,必须先理解内存墙为什么是当下 AI 基础设施最紧迫的问题。
随着 Agentic AI 的兴起,单次用户查询可能触发 50 到 100 次模型推理调用。推理已经从训练时代的「附带开销」变成了主体工作负载。而在大语言模型推理的两个阶段中,decode(逐 token 生成)阶段的算术强度极低——模型权重需要从内存中以自回归方式逐个 token 地流式读出,计算本身并不复杂,但数据搬运量极其庞大。这意味着 decode 阶段几乎完全受限于内存带宽。
与此同时,HBM 正在经历史无前例的供应危机。据 TrendForce 数据,HBM 需求在 2026 年将同比增长 70%。SK 海力士、三星和美光的 HBM 产能已售罄至 2026 年底,2027 年的分配额度正在被提前谈判。CNBC 年初即报道,即便是 Majestic Labs 这类 AI 芯片公司,也不得不因 HBM 短缺而转向低成本替代方案。
这个背景下,Qualcomm 的选择异常清晰:与其在一个供给紧张的市场上和 Nvidia、AMD 抢 HBM,不如彻底绕开 HBM 的技术路线。
HBC:把 XPU「埋」进 DRAM 下面
HBC 的技术原理并不复杂,但执行起来颇为激进。
传统 AI 加速器(无论是 GPU 还是专用 XPU)将计算芯片与 HBM 内存堆栈放在同一封装基板上,通过数万条导线和昂贵的硅中介层(silicon interposer,如台积电 CoWoS)水平连接。数据在计算 die 和内存 die 之间反复穿梭,每一步都消耗可观的功耗。
HBC 颠覆了这个范式:Qualcomm 将 AI 加速器从主 SoC 中分离出来,通过硅通孔(TSV)直接键合到 LPDDR 内存堆栈的正下方。整个结构使用标准的 2D 有机基板封装,不再需要 HBM 方案必备的硅中介层。
这个设计的核心逻辑有三层:
- 缩短数据路径:计算单元与内存垂直堆叠,数据只需「上下楼」而非「横穿城市」。
- 近存计算减少搬运量:带宽密集型操作在靠近内存的基 die 上完成,只有结果需要传输回主 SoC,从而实现 Qualcomm 所称的「有效带宽放大」。
- 用 LPDDR 替代 HBM:LPDDR 容量更大、成本更低、供应链更宽松,天生适合对容量敏感的推理场景。
性能数据方面,Qualcomm 宣称 HBC 相比 HBM 提供 6 倍带宽/瓦,相比片上 SRAM 提供 200 倍容量,并且能让 AI 推理中 decode 阶段的性能实现线性扩展。
「有效带宽」的魔法与玄学
不过,仔细审视 Qualcomm 披露的数据,一个反复出现的修饰词值得警惕:「有效」(effective)。
以 AI250 加速器为例,Qualcomm 宣称每卡提供 768 GB 内存容量和高达 133 TB/s 的「有效」内存带宽。作为对比,Nvidia 的 Groq 3 LPU 仅提供 500 MB SRAM 和 150 TB/s 带宽。
The Register 的 Tobias Mann 对此提出了尖锐质疑:Qualcomm 此前对基于 LPDDR5X 的 AI200 系统宣称 414 TB/s「有效」带宽(56 颗芯片合计),但要仅靠 8800 MT/s 的 LPDDR5X 实现这一数字,需要一颗芯片配备 6720 位宽的总线——这几乎不可能。
Qualcomm 坚持称这是「LPDDR 接口的纯物理带宽」,但拒绝提供具体实现细节。实际上,「有效带宽」的关键在于 HBC 在内存近端完成的那些带宽密集型操作——因为数据不需要全部搬运回主 SoC,等效来看可利用的带宽确实被放大了。这和 HBM 单纯靠堆更多物理引脚提升原始带宽的思路有本质区别。
Tech 媒体和分析师对此态度微妙:方向正确,但数字需要打折扣看。
Decode 才是真正的战场
Qualcomm 对 HBC 的定位还有一个重要细节:它并非试图在所有 AI 工作负载上击败 GPU。
Tony Pialis 对 The Register 表示,AI250 可以作为独立 AI 加速器使用,但它「高度优化于解决带宽瓶颈」。换句话说,HBC 的甜点区是 decode 阶段——即模型的全部活跃权重以自回归方式从内存中逐 token 流出的场景。Decode 计算强度低、带宽需求高,恰好规避了将计算单元埋在 DRAM 下面带来的热约束问题。
这意味着 Qualcomm 瞄准的是一种分离式推理架构:用 GPU 或其它 Qualcomm 芯片处理 prompt 的 prefill 阶段(计算密集型),用 AI250 的 HBC 处理 decode(带宽密集型),两者按需混合配比。在 Agentic AI 的语境下——一个请求触发数十上百次模型调用,且大部分时间花在 token 生成上——这种架构的经济学优势可能相当显著。
Qualcomm 声称,相比传统 GPU 配置,HBC 每瓦可多产生最多 8 倍的 token。而 Forbes 分析师 Steve McDowell 指出,「AI 的下一阶段由推理经济学定义,Qualcomm 的进入时机恰好利用了其数十年积累的高效计算、系统集成和连接技术」。
Dragonfly 路线图与客户背书
HBC 并非孤立的实验室项目,而是嵌入了 Qualcomm 一个完整的、多代际的数据中心产品规划。
AI200(2026 年下半年出货):基于 LPDDR5X,每 rack 提供 43 TB 内存,是 Dragonfly 加速器家族的起点。
AI250(2027 年中):首个集成 HBC Gen1 的产品。每卡 768 GB 内存、133 TB/s 有效带宽,带宽为 AI200 的 18 倍。这代产品是 HBC 技术的首次商业化验证。
AI300(2028 年):搭载 HBC Gen2。有效带宽达 AI200 的 54 倍,带宽/瓦相比 HBM 提升 7 倍。支持 UALink 和 ESUN 进行 scale-up,铜缆和光互联进行 scale-out。
Dragonfly C1000 CPU(2028 年):基于自研 Oryon 架构,250+ 核心、5 GHz 以上频率,面向 Agentic AI 编排和通用服务器负载。Meta 已签署多代际 CPU 采购协议。
除了 Meta 的 CPU 订单,Microsoft CEO Satya Nadella 也确认 Azure 将部署 HBC 芯片。两家超大规模客户的早期承诺,加上超过 35 家生态系统合作伙伴(包括 Arista、Lenovo、Micron、Samsung SDS、SK hynix、Supermicro、VAST Data 等)的支持,为 HBC 路线图提供了相当分量的行业背书。
Qualcomm 同步宣布了对 Modular 的收购——由 LLVM 和 Swift 语言之父 Chris Lattner 创立的 AI 软件公司。Modular 的 Mojo 编程语言和 MAX 推理服务平台提供了一种跨硬件(Nvidia、AMD、Qualcomm)的统一软件栈,这意味着 Qualcomm 不必要求客户抛弃 CUDA 生态,而是可以在异构环境中渐进渗透。
竞争格局:绕开 HBM 军备竞赛
Qualcomm 的 HBC 策略必须放在更广泛的产业竞争棋盘上理解。
Nvidia 拥有最成熟的 GPU + HBM 体系,但面临着 HBM 供应链瓶颈和功耗天花板。据 TrendForce 报道,Nvidia 和 AMD 据传都在与 HBM 供应商和台积电合作开发定制化的 HBM 基 die,可能集成有限的计算能力——但这目前仍处于早期阶段。
三星和 SK 海力士 在推动 PIM(Processing-in-Memory,内存内处理)路线:将计算引擎集成到内存 die 内部,实现真正的「存内计算」。SK 海力士的 AiM 加速器已经在实际应用中部署。但 PIM 的问题在于:它要求修改 DRAM 制造工艺,而 DRAM 厂商的核心商业模式是标准化大规模生产,定制化 PIM 的成本和良率挑战巨大。
d-Matrix 和 GUC:前者在开发使用 3D 堆叠 DRAM 的近存计算加速器;后者的 DRAM-on-Logic(DoL)技术可在逻辑层上放置 1–4 层 DRAM,实现约 5 TB/s 的内存带宽。
Qualcomm 的差异化在于:它选择 LPDDR 而非 HBM,采用 标准有机基板封装而非 CoWoS,使用的是消费电子供应链中极其成熟的 LPDDR 产能。这意味着它不仅绕开了 HBM 的供给瓶颈,也绕开了先进封装(CoWoS)的产能瓶颈——这两个恰恰是当前 AI 芯片行业最紧绷的环节。
正如 Forbes 所分析的,Qualcomm 每年消耗超过一百万片先进制程晶圆、出货四百亿颗元器件,「这种规模让它能够在供应受限的市场中承诺产能和保证良率,而小型设计公司无法做到」。
未解之谜:热约束、FLOPS 与执行风险
HBC 的故事虽然诱人,但仍有几个关键问题悬而未决。
热约束:将计算单元埋在数层 DRAM 下面是热力学的噩梦。硅是热的不良导体,而 DRAM 对温度高度敏感——高温会迫使内存提高刷新率,消耗更多带宽和功耗,形成负反馈循环。这也是 Qualcomm 谨慎地将 HBC 定位在 decode 场景的原因:decode 计算强度低,发热可控。但如果 HBC 试图扩展到更广泛的工作负载,散热将是绕不开的挑战。
从未披露的 FLOPS:Qualcomm 拒绝公开 AI250 和 AI300 的峰值算力数据。The Register 直接向 Qualcomm 询问后也未能得到答复。没有 FLOPS 数据,外界几乎无法独立评估 HBC 加速器在真实世界混合负载下的表现。
执行时间线:AI250 要到 2027 年中才送样,AI300 和 C1000 更是要等到 2028 年。而在这两年间,Nvidia 的 Rubin 平台、AMD 的下一代 MI 系列以及各家超大规模企业的自研芯片都将迭代——Qualcomm 当前的宣传优势能否保持到产品真正上市,存在巨大的不确定性。
「有效」数字的可比性:如前所述,Qualcomm 严重依赖「有效带宽」这个概念,而行业缺乏统一的衡量标准来对比不同架构的「有效」性能。投资者和客户在 2027 年拿到实际硬件之前,只能选择相信 Qualcomm 的叙事。
结语:AI 芯片竞赛的下一个战场
Qualcomm 的 HBC 不应被简单理解为一款新芯片的发布。它代表了一种思路上的转向——AI 芯片的竞争焦点正在从「谁能堆更多计算单元」转向「谁能更聪明地管理数据和内存」。
在训练时代,算力是王。在推理时代,带宽和功耗才是王。这正是 Qualcomm 敢于以 150 亿美元(2029 财年数据中心营收目标)下注的底层逻辑。
HBC 能否成为 AI 芯片的「下一个范式转移」?答案将取决于 2027 年 AI250 的实际表现。如果它能兑现 6 倍带宽/瓦和线性 decode 扩展的承诺,且热管理不成为致命短板,那么 HBC 有潜力重新定义 AI 推理基础设施的成本结构——尤其在 Agentic AI 推动推理需求指数级增长的背景下。
但如果「有效带宽」最终被证明只是巧妙的营销话术,或者 3D 堆叠的热问题无法解决,那么 HBC 可能会和此前的近存计算尝试一样,成为一份技术上有趣但商业上无果的实验记录。
有一点可以确定:在 HBM 售罄、DRAM 短缺和 Agentic AI 爆发的三重压力下,Qualcomm 选择在这个时间点「把计算埋进内存下面」,至少为 AI 芯片军备竞赛写下了不一样的剧本。

