摘要
2026 年 6 月 10 日,Google DeepMind 发布了 DiffusionGemma——一个 26B 参数的扩散语言模型,以 Apache 2.0 许可证开源,并在 vLLM 中获得原生支持。这标志着扩散语言模型(dLLM)从学术实验走向了生产级推理基础设施。与传统的逐 token 自回归生成不同,dLLM 以 256 个 token 为一块并行去噪,在单卡 H100 上达到 1000+ tokens/s,约为同规格自回归模型的 4–6 倍。本文从架构瓶颈、训练路线、推理加速栈三个维度,深度梳理 dLLM 的技术演进与产业意义。
自回归的「阿喀琉斯之踵」
几乎所有主流大语言模型——GPT-5.2、Claude Opus 4.6、Gemini 3.1——都遵循同一个范式:逐 token 自回归生成。这一机制在云端高并发场景下效率尚可——服务器可以批量处理数千请求,将内存带宽压力分摊到大量并发用户上。但在单用户本地推理场景中,情况完全不同。
自回归解码是内存带宽受限的(memory-bandwidth bound)。 GPU 每生成一个 token,都需要将全部模型权重从 HBM 搬运到计算单元。以现代 GPU 每字节内存带宽仅产生约 1 FLOP 的实际计算量来看,而硬件设计目标是 100+ FLOP/byte——这意味着 GPU 中绝大多数的 Tensor Core 处于闲置状态。换句话说,自回归模型在本地推理时,GPU 并不是在「计算」,而是在「等待数据」。
第二个结构性问题被称为反转诅咒(reversal curse):模型在训练中见过「A 是 B」,但无法可靠地推断「B 是 A」——除非该顺序也出现在训练数据中。这是左到右的因果注意力机制固有的不对称性。
这两个瓶颈共同指向一个结论:大语言模型的智能并非源自自回归机制本身,而是源自生成式建模的核心——通过最大似然估计逼近真实语言分布。 如果存在另一种生成范式,既能保持这一核心,又能打破内存带宽瓶颈和因果注意力的单向性,那么它就有潜力成为下一代架构的基础。
扩散如何进入语言领域
扩散模型在图像生成领域(Stable Diffusion、DALL-E)的成功已无需赘述:从随机高斯噪声开始,通过一个去噪网络逐步精炼,最终输出清晰图像。但将这一思想移植到文本生成面临根本性困难:图像像素是连续的,可以加高斯噪声;文本 token 是离散的,无法对「cat」加微量噪声得到有意义的结果。
掩码扩散:离散空间的噪声
学术界最终收敛到**掩码扩散(Masked Diffusion)**作为离散 token 的正确噪声过程。其核心思想简单而优雅:
- 前向过程:以概率 t 将 token 替换为
[MASK],t 从 0 逐渐增加到 1。 - 反向过程:训练一个 Transformer(使用双向注意力)预测被掩码的原始 token,损失函数使用 ELBO 推导出的 1/t 加权因子——正确考虑了不同掩码率下预测难度的差异。
正是这个 ELBO 保证,将 dLLM 与 BERT 从根本上区分开来:前者是原则性的生成模型,后者只是掩码语言模型的判别式训练。
从 LLaDA 到规模化
2025 年 2 月,Nie 等人发布了 LLaDA 8B——首个从头训练的扩散语言模型。它在 2.3 万亿 token 上预训练,消耗 13 万 H800 GPU 小时。在 MMLU(65.9 vs 65.4)、TruthfulQA(46.4 vs 44.0)等基准上,LLaDA 与同规模的 LLaMA3 8B 持平,并在反转诗歌补全任务上超越 GPT-4o。LLaDA 被 NeurIPS 2025 接收为口头报告。
关键洞察:从头训练一个 dLLM 的成本与同规模自回归模型大致相当。计算节省体现在推理端,而非训练端。
训练路线图:从转换到 100B 规模
dLLM 在 2025–2026 年间形成了一条清晰的训练技术路线。
路径一:AR 模型转换
从头训练百亿参数模型成本高昂,更实用的方案是将已有自回归模型转换为扩散模型。
DiffuLLaMA(ICLR 2025)通过两项关键技术实现这一转换:
- 注意力掩码退火(Attention Mask Annealing):训练过程中,注意力掩码从因果(三角形)逐步过渡到完全双向,在保留预训练知识的同时改变生成范式。
- 目标函数切换:从下一 token 预测切换到掩码扩散目标。
仅需不到 200B token 的持续预训练,DiffuLLaMA 即可将 LLaMA2 7B 转换为功能完整的扩散模型,并天然获得中间填充(fill-in-the-middle)能力——无需专门的 FIM 训练。
Dream 7B 在此基础上进一步创新:以 Qwen2.5 7B 为初始化权重,辅以上下文自适应噪声调度——不同 token 根据其局部上下文获得不同的噪声水平,功能词(如「the」)比内容词(如「quantum」)需要更少的去噪精炼。Dream 在规划任务(Countdown、Sudoku)上显著超越同规模 AR 模型,甚至在 Countdown 上击败了 DeepSeek V3(671B 参数)。
路径二:100B 规模的工程突破
2025 年 12 月,LLaDA 2.0 成为首个百亿参数 dLLM。它采用三阶段训练方案(WSD):
- 预热阶段:从小块(block)尺寸开始逐步增大,平滑过渡
- 稳定阶段:全序列扩散训练,消耗大部分计算
- 衰减阶段:回归紧凑块尺寸(如 32 token/block),优化部署效率
LLaDA 2.0 采用 MoE 架构,发布了 16B(mini)和 100B(flash)两个变体。MoE 在 dLLM 上的扩展方式与 AR 模型完全相同——专家并行、负载均衡、路由策略等全套工具链可直接迁移。
路径三:商业验证
- Mercury Coder(Inception Labs,2025 年 2 月)是首个商业化 dLLM,在 H100 上达到 1,109 tokens/s。
- Gemini Diffusion(Google I/O,2025 年 5 月)达到 1,479 tokens/s,在 HumanEval 上 89.6% vs AR 对照 90.2%,几乎无质量损失。
推理加速栈:弥合理论与实践的鸿沟
dLLM 的理论优势(计算受限而非内存带宽受限)在早期开源实现中并未兑现——LLaDA 和 Dream 的实际推理速度甚至慢于自回归模型。三道关键技术弥合了这一鸿沟。
块级 KV 缓存
纯双向注意力与 KV 缓存天然不兼容——AR 模型一旦生成 token,其 KV 状态就被缓存复用;但双向注意力中每个 token 都能看到所有其他 token,缓存策略失效。
块扩散(Block Diffusion) 是实用化的解决方案:将序列切分为固定大小的块(如 32 或 256 token),块内使用双向注意力进行扩散去噪,块间使用因果注意力顺序推进。每个块完成后,其 KV 状态被写入缓存,供后续块使用。这实现了块内并行与块间顺序的折中。
Fast-dLLM(NVIDIA/HKU/MIT,ICLR 2026)在此基础上提出了块级近似 KV 缓存机制,在双向扩散模型中复用注意力 KV 激活值,实现 2–3.6 倍加速。
置信度感知并行解码
标准扩散解码逐个揭示 token,一次一个。Fast-dLLM 提出置信度感知并行解码:每步中只有置信度超过阈值的 token 才被并行揭示,不确定的 token 保持掩码状态等待后续步骤。
这一策略的理论基础是「高置信度预测的并行解码定理」——当模型对某位置的预测足够确定时,该位置的 token 依赖关系可以被安全地近似忽略。在 LLaDA 上,KV 缓存与并行解码联合使用,吞吐量提升高达 11 倍(GSM8K,长度 512)和 9.2 倍(MBPP,长度 512)。
Fast-dLLM v2:极致高效的转换
Fast-dLLM v2(ICLR 2026)将转换效率推向极致:仅需 约 10 亿 token 的微调数据(相比 Dream 的 5800 亿 token,减少了 500 倍),即可将预训练 AR 模型转换为块扩散模型,实现 2.5 倍解码加速,且不损失生成质量。
DiffusionGemma:生产级里程碑
2026 年 6 月 10 日,Google DeepMind 发布 DiffusionGemma,标志着 dLLM 进入生产级部署阶段。
架构设计
- 26B 总参数 / 3.8B 激活参数(MoE),量化后仅需 18GB VRAM(NVFP4 格式)
- 构建在 Gemma 4 架构之上,共享同一套权重,但以两种模式运行:
- 编码器模式(因果注意力):预填充 prompt 和提交完成的块,写入 KV 缓存
- 解码器模式(双向注意力):在 256-token 画布上迭代去噪
- 使用 熵受限去噪(Entropy-bound Denoising):每步重采样所有画布位置,但只保留模型置信度高的 token(低熵),其余被替换为随机 token 重新去噪。随着锚点 token 锁定,上下文传播到相邻位置,整个块在数步内快速收敛
- 自条件化(Self-conditioning):每步将上一步的完整 softmax 分布通过门控 MLP 注入画布嵌入,为模型提供「记忆」
vLLM 集成
vLLM 团队与 Google DeepMind 合作,利用 Model Runner V2 的 ModelState 抽象实现了 DiffusionGemma 的原生支持。关键创新包括:
- 复用推测解码路径:扩散画布在每一步可被视为一组「草稿 token」,被全部接受或拒绝
- 动态逐序列因果注意力:单个 batch 中混合 prefill、denoise、commit 三种请求,每条请求独立设置因果/双向注意力掩码
- Triton Attention 和 FlashAttention 4 双后端支持
性能数据
| 硬件 | 扩散吞吐 | 对比自回归基准 |
|---|---|---|
| H200 (FP8) | 1,288 tok/s | ~6× |
| H100 (FP8) | 1,008 tok/s | ~5× |
| RTX 5090 | 700+ tok/s | ~4× |
| DGX Station | 2,000 tok/s | ~4× |
双向注意力的「杀手级应用」
DiffusionGemma 在 Sudoku 求解任务上展示了双向注意力的独特价值。基础模型未经 Sudoku 训练,成功率接近 0%;经简单 SFT 微调后,成功率跃升至 80%,且推理步数大幅减少。传统自回归模型在 Sudoku 上天然受限——它们无法「回头」评估未来格子的约束。
dLLM 的定位与局限
扩散语言模型并非万能替代方案。理解其适用边界至关重要:
优势场景(低并发、单用户、本地推理):
- 交互式聊天、代码补全、实时编辑
- 需要全局约束的任务(Sudoku、数学证明、结构化输出)
- 本地 Agent 工作流,延迟敏感且无高并发需求
劣势场景(高并发、云端服务):
- 在高 QPS 云服务中,自回归模型可通过批处理充分利用 GPU 计算能力,扩散模型的并行优势递减
- 输出质量目前仍低于同规格自回归模型(Google 明确推荐生产环境优先使用标准 Gemma 4)
- 生态成熟度(微调工具、对齐技术、多模态支持)仍落后于 AR 模型
2026 年 5 月的一项综述调查明确指出,dLLM 与 AR-LLM 的推理加速之间存在「没有免费午餐」的权衡——不同场景下最优方案不同,而非一种范式全面取代另一种。
展望:架构融合与推理优先
dLLM 的崛起指向一个更宏大的趋势:AI 基础设施正从「训练优先」转向「推理优先」。正如 SuperAI Singapore(2026 年 6 月 11 日)的「推理规模化」专题讨论所指出的,推理已取代训练成为成本、延迟和吞吐量的决定性瓶颈。
扩散语言模型的价值不仅在于加速——它证明了语言智能可以在自回归范式之外被构建。双向注意力带来的全局上下文能力、自纠正能力和非顺序生成能力,为 Agent 工作流、结构化输出和推理密集型任务开辟了新的设计空间。
值得关注的方向包括:
- 架构融合:NVIDIA Nemotron 3 等模型已开始混合 Mamba 状态空间层与 Transformer 注意力层,扩散机制可能成为第三种融合组件
- 扩散推理模型:将扩散架构与 chain-of-thought 推理结合,利用双向注意力实现更高效的搜索和回溯
- 多模态扩散:文本、图像、视频的统一扩散建模(Fast-dVLM 等工作已开始探索)
- 端侧部署:DiffusionGemma 在消费级 GPU 上的可运行性,预示了本地 Agent 的低延迟未来
自 2025 年初 LLaDA 8B 的学术验证,到 2026 年 6 月 DiffusionGemma 在 vLLM 中的原生支持,扩散语言模型仅用 18 个月便完成了从「不可能」到「已部署」的跨越。它或许不会完全取代自回归模型,但已经不可逆转地扩展了我们对语言模型架构的想象边界。
本文基于 2026 年 6 月 10–19 日期间公开的一手技术博客、学术论文和产品发布信息撰写。

