x86 ACE：AMD 和 Intel 联手为 CPU 注入 AI 矩阵加速，正面迎战 Apple Neural Engine

2024 年 10 月，AMD 和 Intel 做了一件让整个半导体行业侧目的事：共同发起 x86 生态系统顾问小组（EAG），承诺在指令集层面结束长达数十年的各自为战。一年多后，这项合作的第一枚重磅果实落地——**AI Compute Extensions（ACE）**规范正式发布。

这不是一次普通的 ISA 扩展更新。ACE 是 x86 历史上第一次由两家竞争对手联合定义、面向 AI 推理的矩阵乘法加速指令集。它试图解决一个日益紧迫的问题：当 Apple 的 Neural Engine、Arm 的 SME 和高通的 NPU 在端侧 AI 领域攻城略地时，x86 阵营的软件生态仍然被碎片化的加速方案所困扰。

ACE 是什么：为 x86 注入原生矩阵加速

ACE 全称 AI Compute Extensions，是一组面向 x86 架构的矩阵乘法加速扩展指令。它的核心设计思路是：在 AVX10 向量引擎之上叠加一层 tile 寄存器架构，用外积（outer product）运算替代传统的逐元素乘加，在相同输入向量宽度下实现数量级更高的计算密度。

根据已发布的规范文档，ACE 引入了以下关键组件：

ACE 寄存器状态：包括 tile 寄存器和 block scale 寄存器，专门用于矩阵运算
数据处理操作：消费 AVX 寄存器输入，在 tile 寄存器上执行矩阵乘加
数据搬运操作：在 ACE 寄存器状态和 AVX 寄存器之间高效移动数据
系统管理状态与操作：用于上下文切换和电源管理

ACE 并非要取代 AVX10，而是与 AVX10 紧密耦合。AMD 和 Intel 在联合白皮书中将其定位为 "x86 标准矩阵加速架构"（Standard Matrix Acceleration Architecture for x86），强调它"与 AVX10 无缝集成，为 x86 生态提供低摩擦、无处不在的矩阵加速能力"。

16 倍密度提升：外积运算的威力

ACE 最引人注目的性能指标是：在消耗相同数量输入向量的条件下，ACE 的外积操作相较等效的 AVX10 乘加操作提供 16 倍的计算密度提升。

这一差距的根源在于两种运算模式的天壤之别。传统 SIMD 的乘加操作本质上是逐元素运算——每个向量 lane 独立计算，适合常规数值计算但在矩阵乘法中效率低下。外积操作则不同：它将两个向量中所有元素的组合一次性计算，天然匹配矩阵乘法的数据流，能够在单条指令中完成 SIMD 需要多次循环迭代才能做完的工作。

ACE 同时支持从笔记本电脑到超级计算机的广泛实现规模，开发者无需针对不同硬件规格重新优化代码。这种"一次编写，跨平台加速"的承诺，直指 x86 生态长期以来的最大痛点。

低精度 AI 格式的全覆盖

ACE 的数据格式支持表几乎覆盖了当前 AI 推理所需的所有精度层级：

格式	描述	备注
INT8	8 位整数	经典量化推理
FP32	IEEE-754 单精度	训练与高精度推理
BF16	Brain Float 16	流行的大模型训练格式
FP16	IEEE-754 半精度	通用推理
FP8	OCP 8 位浮点	高效推理
MX FP8	SE5M2 / SE4M3	OCP 微缩放格式
MX FP6	SE3M2 / SE2M3	6 位浮点，极致压缩
MX FP4	SE2M1	4 位浮点，存储优先
E8M0	8 位无符号指数	用于 2 的幂次 block scale

值得注意的是，ACE 原生支持 OCP（Open Compute Project）的 Microscaling Formats（MX）系列——包括 MXFP8、MXFP6 和 MXFP4。这些格式通过 block-wise 共享指数来实现低于 8 位的极端精度，是大模型推理中压缩权重和激活值的关键技术。ACE 对 MX 格式的硬件原生支持，意味着未来 x86 CPU 可以在不依赖 dequantization 开销的情况下直接执行极低精度推理。

结束碎片化：AVX-512 的教训

ACE 的战略意义远不止于技术指标。它标志着 x86 阵营终于正视了一个多年来避而不谈的尴尬现实：两个 x86 厂商在 AI 加速上的各自为战，正在削弱整个生态的竞争力。

AVX-512 的历史就是最好的反面教材。Intel 从 2013 年的 Xeon Phi 开始推广 AVX-512，但不同代际的实现方式（AVX-512F、AVX-512BW、AVX-512DQ、AVX-512VL……）令人眼花缭乱；AMD 在 Zen 4 中通过两个 256 位单元拼接实现 AVX-512，与 Intel 的原生 512 位实现存在微架构差异。软件开发者被迫面对一个困境：要么放弃 AVX-512 的可移植性，要么为每个目标平台单独优化。

ACE 的诞生改变了游戏规则。作为 EAG 框架下的联合规范，它由 AMD 和 Intel 共同起草、共同承诺实现。TIRIAS Research 首席分析师 Jim McGregor 对此评价道："我很高兴看到两家公司的合作终于结出果实。指令集的变更通常需要一到两代产品周期才能渗透到双方的产品线中，但携手合作对 x86 架构而言是一个巨大的优势。"

这种合作带来的直接红利是：应用开发者只需编写一次 ACE 加速代码，就能在两家厂商的 CPU 上运行，无需重新编译或修改。Network World 指出，这一举措"确保了应用能够在任一平台上运行，无需重新编译或更改"。

ACE 与 Intel AMX：继承与超越

ACE 并非凭空诞生。它在设计理念上承袭了 Intel 在 2023 年随 Sapphire Rapids（第四代 Xeon）引入的 AMX（Advanced Matrix Extensions）——两者都采用 tile 寄存器架构来加速矩阵乘法。但 ACE 与 AMX 之间存在关键区别：

AMX 是 Intel 的专有扩展，仅存在于 Intel 服务器平台上，且指令编码和状态管理与其他 x86 扩展（如 AVX-512）的交互方式由 Intel 单方面定义。ACE 则是一份跨厂商的标准化规范，从零开始重新设计了 tile 寄存器模型、指令编码格式以及与 AVX10 的集成方式，确保在 AMD 和 Intel 硬件上行为一致。

这意味着 ACE 并不向后兼容 AMX：现有的 AMX 优化代码不能直接在 ACE 硬件上运行。但 ACE 吸收了 AMX 的核心设计智慧——特别是 tile 外积运算的高密度计算范式——并将其提升为整个 x86 生态的公共基础设施。从长远看，这种"不兼容但更统一"的策略，远比两家厂商各自维护互不兼容的矩阵加速方案更可持续。

竞争格局：多方挤压下的 x86 突围

ACE 的发布必须放在一个更大的竞争背景下理解。

Apple Neural Engine 自 2017 年 A11 芯片起就被深度整合进 Apple Silicon 的 SoC 架构中，与 CPU、GPU 共享统一内存，在 M 系列芯片上实现了从图像处理到大语言模型推理的端侧 AI 全覆盖。Apple 的策略是"垂直整合 + 统一内存"，让 Neural Engine 和 CPU 之间几乎零拷贝开销。

Arm SME（Streaming Matrix Extensions） 在 2022 年随 Armv9-A 架构发布，为 Arm 处理器提供了原生的矩阵乘法加速能力。随着高通 Snapdragon X Elite 等 Arm PC 芯片在 Windows 生态中崛起，以及 AWS Graviton、Ampere 等 Arm 服务器芯片在数据中心蚕食 x86 份额，Arm SME 对 x86 构成了从端到云的双向压力。

高通 NPU / 其他端侧 NPU 则代表了另一种路线：用专用 AI 加速器而非通用 CPU 指令集来处理 AI 负载。AMD 和 Intel 自身也在 CPU 中集成了 NPU（如 Ryzen AI 和 Intel AI Boost），但这些 NPU 同样面临碎片化问题——不同厂商的 NPU 编程模型互不兼容。

NVIDIA GPU 在 AI 训练和推理领域的主导地位无需赘述。ACE 的目标不是让 CPU 替代 GPU——正如 McGregor 坦率指出的："CPU 永远不会比 GPU/AI 加速器更高效。"但 ACE 让 CPU 能够在没有 GPU 或 NPU 的场景中承担有意义的 AI 推理任务。

NVIDIA CEO 黄仁勋本人也公开表示，Intel 和 AMD 的 x86 联盟对保持 x86 架构的活力是"必要的"。这一评价从最大的竞争对手口中说出，分量不言自明。

实际意义：边缘 AI 和嵌入式场景的新选项

ACE 最直接的受益领域是边缘计算和嵌入式 AI。在这些场景中，系统往往没有独立 GPU 或专用 NPU，CPU 是唯一可用的计算资源。

McGregor 的分析切中要害："ACE 允许你将部分 AI 负载卸载到 CPU，或者在那些可能没有 GPU 或 AI 加速器的应用中使用 CPU 执行 AI 负载，比如嵌入式/边缘应用。"

考虑以下典型场景：工业视觉检测中的轻量级推理、智能家居设备的语音识别、零售终端的实时推荐系统。这些场景的共同特点是：推理延迟要求中等、模型规模可控、功耗预算有限、硬件成本敏感。ACE 让这些场景可以在标准 x86 CPU 上实现可接受的 AI 推理性能，无需额外硬件。

从软件生态角度看，ACE 的推动力同样不容小觑。规范文档明确指出，ACE 的软件使能工作已经在进行中，覆盖范围包括：

深度学习与 HPC 库：低精度 GEMM、LLM 推理原语
Python 数值计算库：NumPy、SciPy
主流机器学习框架：PyTorch、TensorFlow

这意味着当 ACE 硬件上市时，上层软件栈已经准备就绪。开发者无需学习新的编程模型，只需升级框架版本即可获得加速。

产品落地仍需时日

需要冷静看待的是，AMD 和 Intel 目前均未宣布任何搭载 ACE 的具体产品，也没有给出产品上市时间表。McGregor 提醒，"指令集的变更通常需要一到两代产品周期才能渗透到双方的产品线中"。考虑到现代 CPU 从架构定义到流片再到量产通常需要 3–4 年，ACE 进入消费者手中的时间点可能落在 2028 年之后。

此外，ACE 只是 x86 复兴路线图中的一步。EAG 同步推进的其他三项标准化工作——FRED（灵活中断模型）、AVX10（下一代向量引擎）和 ChkTag（内存标记安全）——共同构成了 x86 架构现代化的基础。即将到来的 **APX（Advanced Performance Extensions）**还将进一步扩展 x86 的寄存器文件和指令能力。

结语

ACE 的意义不在于它能否让 CPU 在矩阵乘法上跑赢 GPU——那从来就不是它的目标。它的真正价值在于：为 x86 生态提供了一套统一的、可移植的、面向 AI 的硬件加速基线，让 CPU 在 AI 计算版图中不再缺席。

在 Apple Neural Engine 和 Arm SME 持续压缩 x86 生存空间的当下，AMD 和 Intel 选择搁置竞争、联手制定标准，这本身就是 x86 历史上值得记录的一笔。正如黄仁勋所言，这个联盟对 x86 的存续是"必要的"。ACE 的发布证明，这种必要性正在转化为实际行动。