从逐 token 到并行去噪：扩散语言模型如何重写大模型推理规则

摘要

2026 年 6 月 10 日，Google DeepMind 发布了 DiffusionGemma——一个 26B 参数的扩散语言模型，以 Apache 2.0 许可证开源，并在 vLLM 中获得原生支持。这标志着扩散语言模型（dLLM）从学术实验走向了生产级推理基础设施。与传统的逐 token 自回归生成不同，dLLM 以 256 个 token 为一块并行去噪，在单卡 H100 上达到 1000+ tokens/s，约为同规格自回归模型的 4–6 倍。本文从架构瓶颈、训练路线、推理加速栈三个维度，深度梳理 dLLM 的技术演进与产业意义。

自回归的「阿喀琉斯之踵」

几乎所有主流大语言模型——GPT-5.2、Claude Opus 4.6、Gemini 3.1——都遵循同一个范式：逐 token 自回归生成。这一机制在云端高并发场景下效率尚可——服务器可以批量处理数千请求，将内存带宽压力分摊到大量并发用户上。但在单用户本地推理场景中，情况完全不同。

自回归解码是内存带宽受限的（memory-bandwidth bound）。 GPU 每生成一个 token，都需要将全部模型权重从 HBM 搬运到计算单元。以现代 GPU 每字节内存带宽仅产生约 1 FLOP 的实际计算量来看，而硬件设计目标是 100+ FLOP/byte——这意味着 GPU 中绝大多数的 Tensor Core 处于闲置状态。换句话说，自回归模型在本地推理时，GPU 并不是在「计算」，而是在「等待数据」。

第二个结构性问题被称为反转诅咒（reversal curse）：模型在训练中见过「A 是 B」，但无法可靠地推断「B 是 A」——除非该顺序也出现在训练数据中。这是左到右的因果注意力机制固有的不对称性。

这两个瓶颈共同指向一个结论：大语言模型的智能并非源自自回归机制本身，而是源自生成式建模的核心——通过最大似然估计逼近真实语言分布。 如果存在另一种生成范式，既能保持这一核心，又能打破内存带宽瓶颈和因果注意力的单向性，那么它就有潜力成为下一代架构的基础。

扩散如何进入语言领域

扩散模型在图像生成领域（Stable Diffusion、DALL-E）的成功已无需赘述：从随机高斯噪声开始，通过一个去噪网络逐步精炼，最终输出清晰图像。但将这一思想移植到文本生成面临根本性困难：图像像素是连续的，可以加高斯噪声；文本 token 是离散的，无法对「cat」加微量噪声得到有意义的结果。

掩码扩散：离散空间的噪声

学术界最终收敛到**掩码扩散（Masked Diffusion）**作为离散 token 的正确噪声过程。其核心思想简单而优雅：

前向过程：以概率 t 将 token 替换为 [MASK]，t 从 0 逐渐增加到 1。
反向过程：训练一个 Transformer（使用双向注意力）预测被掩码的原始 token，损失函数使用 ELBO 推导出的 1/t 加权因子——正确考虑了不同掩码率下预测难度的差异。

正是这个 ELBO 保证，将 dLLM 与 BERT 从根本上区分开来：前者是原则性的生成模型，后者只是掩码语言模型的判别式训练。

从 LLaDA 到规模化

2025 年 2 月，Nie 等人发布了 LLaDA 8B——首个从头训练的扩散语言模型。它在 2.3 万亿 token 上预训练，消耗 13 万 H800 GPU 小时。在 MMLU（65.9 vs 65.4）、TruthfulQA（46.4 vs 44.0）等基准上，LLaDA 与同规模的 LLaMA3 8B 持平，并在反转诗歌补全任务上超越 GPT-4o。LLaDA 被 NeurIPS 2025 接收为口头报告。

关键洞察：从头训练一个 dLLM 的成本与同规模自回归模型大致相当。计算节省体现在推理端，而非训练端。

训练路线图：从转换到 100B 规模

dLLM 在 2025–2026 年间形成了一条清晰的训练技术路线。

路径一：AR 模型转换

从头训练百亿参数模型成本高昂，更实用的方案是将已有自回归模型转换为扩散模型。

DiffuLLaMA（ICLR 2025）通过两项关键技术实现这一转换：

注意力掩码退火（Attention Mask Annealing）：训练过程中，注意力掩码从因果（三角形）逐步过渡到完全双向，在保留预训练知识的同时改变生成范式。
目标函数切换：从下一 token 预测切换到掩码扩散目标。

仅需不到 200B token 的持续预训练，DiffuLLaMA 即可将 LLaMA2 7B 转换为功能完整的扩散模型，并天然获得中间填充（fill-in-the-middle）能力——无需专门的 FIM 训练。

Dream 7B 在此基础上进一步创新：以 Qwen2.5 7B 为初始化权重，辅以上下文自适应噪声调度——不同 token 根据其局部上下文获得不同的噪声水平，功能词（如「the」）比内容词（如「quantum」）需要更少的去噪精炼。Dream 在规划任务（Countdown、Sudoku）上显著超越同规模 AR 模型，甚至在 Countdown 上击败了 DeepSeek V3（671B 参数）。

路径二：100B 规模的工程突破

2025 年 12 月，LLaDA 2.0 成为首个百亿参数 dLLM。它采用三阶段训练方案（WSD）：

预热阶段：从小块（block）尺寸开始逐步增大，平滑过渡
稳定阶段：全序列扩散训练，消耗大部分计算
衰减阶段：回归紧凑块尺寸（如 32 token/block），优化部署效率

LLaDA 2.0 采用 MoE 架构，发布了 16B（mini）和 100B（flash）两个变体。MoE 在 dLLM 上的扩展方式与 AR 模型完全相同——专家并行、负载均衡、路由策略等全套工具链可直接迁移。

路径三：商业验证

Mercury Coder（Inception Labs，2025 年 2 月）是首个商业化 dLLM，在 H100 上达到 1,109 tokens/s。
Gemini Diffusion（Google I/O，2025 年 5 月）达到 1,479 tokens/s，在 HumanEval 上 89.6% vs AR 对照 90.2%，几乎无质量损失。

推理加速栈：弥合理论与实践的鸿沟

dLLM 的理论优势（计算受限而非内存带宽受限）在早期开源实现中并未兑现——LLaDA 和 Dream 的实际推理速度甚至慢于自回归模型。三道关键技术弥合了这一鸿沟。

块级 KV 缓存

纯双向注意力与 KV 缓存天然不兼容——AR 模型一旦生成 token，其 KV 状态就被缓存复用；但双向注意力中每个 token 都能看到所有其他 token，缓存策略失效。

块扩散（Block Diffusion） 是实用化的解决方案：将序列切分为固定大小的块（如 32 或 256 token），块内使用双向注意力进行扩散去噪，块间使用因果注意力顺序推进。每个块完成后，其 KV 状态被写入缓存，供后续块使用。这实现了块内并行与块间顺序的折中。

Fast-dLLM（NVIDIA/HKU/MIT，ICLR 2026）在此基础上提出了块级近似 KV 缓存机制，在双向扩散模型中复用注意力 KV 激活值，实现 2–3.6 倍加速。

置信度感知并行解码

标准扩散解码逐个揭示 token，一次一个。Fast-dLLM 提出置信度感知并行解码：每步中只有置信度超过阈值的 token 才被并行揭示，不确定的 token 保持掩码状态等待后续步骤。

这一策略的理论基础是「高置信度预测的并行解码定理」——当模型对某位置的预测足够确定时，该位置的 token 依赖关系可以被安全地近似忽略。在 LLaDA 上，KV 缓存与并行解码联合使用，吞吐量提升高达 11 倍（GSM8K，长度 512）和 9.2 倍（MBPP，长度 512）。

Fast-dLLM v2：极致高效的转换

Fast-dLLM v2（ICLR 2026）将转换效率推向极致：仅需 约 10 亿 token 的微调数据（相比 Dream 的 5800 亿 token，减少了 500 倍），即可将预训练 AR 模型转换为块扩散模型，实现 2.5 倍解码加速，且不损失生成质量。

DiffusionGemma：生产级里程碑

2026 年 6 月 10 日，Google DeepMind 发布 DiffusionGemma，标志着 dLLM 进入生产级部署阶段。

架构设计

26B 总参数 / 3.8B 激活参数（MoE），量化后仅需 18GB VRAM（NVFP4 格式）
构建在 Gemma 4 架构之上，共享同一套权重，但以两种模式运行：
- 编码器模式（因果注意力）：预填充 prompt 和提交完成的块，写入 KV 缓存
- 解码器模式（双向注意力）：在 256-token 画布上迭代去噪
使用 熵受限去噪（Entropy-bound Denoising）：每步重采样所有画布位置，但只保留模型置信度高的 token（低熵），其余被替换为随机 token 重新去噪。随着锚点 token 锁定，上下文传播到相邻位置，整个块在数步内快速收敛
自条件化（Self-conditioning）：每步将上一步的完整 softmax 分布通过门控 MLP 注入画布嵌入，为模型提供「记忆」

vLLM 集成

vLLM 团队与 Google DeepMind 合作，利用 Model Runner V2 的 ModelState 抽象实现了 DiffusionGemma 的原生支持。关键创新包括：

复用推测解码路径：扩散画布在每一步可被视为一组「草稿 token」，被全部接受或拒绝
动态逐序列因果注意力：单个 batch 中混合 prefill、denoise、commit 三种请求，每条请求独立设置因果/双向注意力掩码
Triton Attention 和 FlashAttention 4 双后端支持

性能数据

硬件	扩散吞吐	对比自回归基准
H200 (FP8)	1,288 tok/s	~6×
H100 (FP8)	1,008 tok/s	~5×
RTX 5090	700+ tok/s	~4×
DGX Station	2,000 tok/s	~4×

双向注意力的「杀手级应用」

DiffusionGemma 在 Sudoku 求解任务上展示了双向注意力的独特价值。基础模型未经 Sudoku 训练，成功率接近 0%；经简单 SFT 微调后，成功率跃升至 80%，且推理步数大幅减少。传统自回归模型在 Sudoku 上天然受限——它们无法「回头」评估未来格子的约束。

dLLM 的定位与局限

扩散语言模型并非万能替代方案。理解其适用边界至关重要：

优势场景（低并发、单用户、本地推理）：

交互式聊天、代码补全、实时编辑
需要全局约束的任务（Sudoku、数学证明、结构化输出）
本地 Agent 工作流，延迟敏感且无高并发需求

劣势场景（高并发、云端服务）：

在高 QPS 云服务中，自回归模型可通过批处理充分利用 GPU 计算能力，扩散模型的并行优势递减
输出质量目前仍低于同规格自回归模型（Google 明确推荐生产环境优先使用标准 Gemma 4）
生态成熟度（微调工具、对齐技术、多模态支持）仍落后于 AR 模型

2026 年 5 月的一项综述调查明确指出，dLLM 与 AR-LLM 的推理加速之间存在「没有免费午餐」的权衡——不同场景下最优方案不同，而非一种范式全面取代另一种。

展望：架构融合与推理优先

dLLM 的崛起指向一个更宏大的趋势：AI 基础设施正从「训练优先」转向「推理优先」。正如 SuperAI Singapore（2026 年 6 月 11 日）的「推理规模化」专题讨论所指出的，推理已取代训练成为成本、延迟和吞吐量的决定性瓶颈。

扩散语言模型的价值不仅在于加速——它证明了语言智能可以在自回归范式之外被构建。双向注意力带来的全局上下文能力、自纠正能力和非顺序生成能力，为 Agent 工作流、结构化输出和推理密集型任务开辟了新的设计空间。

值得关注的方向包括：

架构融合：NVIDIA Nemotron 3 等模型已开始混合 Mamba 状态空间层与 Transformer 注意力层，扩散机制可能成为第三种融合组件
扩散推理模型：将扩散架构与 chain-of-thought 推理结合，利用双向注意力实现更高效的搜索和回溯
多模态扩散：文本、图像、视频的统一扩散建模（Fast-dVLM 等工作已开始探索）
端侧部署：DiffusionGemma 在消费级 GPU 上的可运行性，预示了本地 Agent 的低延迟未来

自 2025 年初 LLaDA 8B 的学术验证，到 2026 年 6 月 DiffusionGemma 在 vLLM 中的原生支持，扩散语言模型仅用 18 个月便完成了从「不可能」到「已部署」的跨越。它或许不会完全取代自回归模型，但已经不可逆转地扩展了我们对语言模型架构的想象边界。

本文基于 2026 年 6 月 10–19 日期间公开的一手技术博客、学术论文和产品发布信息撰写。

摘要