Sumi：首个从零训练的 7B 统一扩散语言模型开源，挑战自回归模型的垄断地位

自回归（autoregressive, AR）语言模型统治了当今的大语言模型版图——从 GPT 到 Llama，几乎所有主流模型都遵循"逐 token 从左到右生成"的范式。但这一范式并非没有短板：生成过程严格串行、无法回溯修改已生成的内容、推理速度受限于 token 级别的逐步解码。近年来，扩散模型（diffusion models）作为替代方案逐渐进入视野，而最近来自日本东北大学的一项工作，将这一方向推向了一个关键里程碑。

扩散语言模型 vs 自回归：两种范式的根本差异

自回归模型的核心思想简单而强大：给定上文，预测下一个 token。这一公式催生了当前几乎所有大语言模型，但它天然地将生成过程锁定为单向、不可逆的序列——一旦某个 token 被输出，就再无修正机会。

扩散语言模型则走了另一条路。它将文本生成建模为"从噪声中逐步恢复信号"的过程：从一个完全随机的 token 序列出发，模型在多个去噪步骤中逐步将所有位置的 token 精炼为有意义的文本。与自回归模型不同，扩散模型可以在任意位置、任意步骤进行修改——至少在理论上，这赋予了模型"三思而后行"的能力。

然而，扩散语言模型内部也存在重要分歧。掩码扩散模型（masked diffusion language models, MDLMs）——以 LLaDA-8B 为代表——在每一个去噪步中填完某些被掩码的 token，但一旦填完就不可再修改。这就像用改正液涂改草稿：涂上去的答案无法擦除。而统一扩散模型（uniform diffusion language models, UDLMs）则彻底解除了这一限制：任何 token 在任何步骤都可以被覆盖——理论上支持真正意义上的自校正（self-correction）。

Sumi：填补统一扩散的规模化空白

尽管掩码扩散模型已经出现了 LLaDA-8B 这样在 2.3T token 上训练的规模化作品，统一扩散模型长期处于"小打小闹"的状态。此前最大的 UDLM 要么是计算最优的小规模检查点，要么虽在数据丰富区训练但参数量仅有 1.7B。Google DeepMind 的 DiffusionGemma 虽然采用了统一扩散范式，但它是从预训练好的自回归模型改造而来，并非从零训练。社区缺少一个"干净的参考点"来研究统一扩散在规模化下的行为。

日本东北大学的研究团队——叶梦宇、工藤慧人、池田航、松田亮介、坂口慶祐、铃木润——发布的 Sumi（日语中的"墨"，取意文本从噪声中逐渐浮现，犹如墨迹在纸上晕开）填补了这一空白。Sumi 是一个 7B 参数的统一扩散语言模型，在 1.5T token 上完全从零训练，使用 288 块 NVIDIA H100 GPU，总计 43,308 GPU 小时。

Sumi 的完全开放性是其另一大亮点。团队不仅发布了模型权重，还公开了中间检查点、完整训练配方，以及基于公开语料库的数据混合方案。在训练数据方面，Sumi 构建于 LLM-jp 语料库之上：预训练阶段约 1.3T token，以教育评分筛选和重排后的网页数据为主（69.6%），辅以代码（12.9%）、通用文本（7.6%）、学术文献（6.5%）和数学（3.5%）；中段训练约 250B token，大幅加权代码（32.5%）和数学（29.7%）。

技术架构上，Sumi 采用 LLaMA 风格的 36 层双向 Transformer（隐藏维度 4096，SwiGLU MLP，分组查询注意力 32 头/8 KV 组），基于 GIDD（Generalized Interpolating Discrete Diffusion）框架及其 SNR 重参数化改进版本进行训练。

性能：知识/推理/编码比肩自回归，常识推理是短板

在 13 个基准测试上，Sumi 与同等 token 预算的自回归模型（Falcon-7B、Llama 2-7B、OLMo-7B）进行了公平对比（统一使用 lm-evaluation-harness，仅针对扩散模型修改评分方式）：

通用知识方面，Sumi 在 MMLU（51.1）、RACE（41.4）和 TruthfulQA（46.6）上均取得同组最优，显著优于 Falcon-7B（MMLU 27.2）和 OLMo-7B（MMLU 28.0）。
编码能力方面，Sumi 在 HumanEval（22.6）和 MBPP（26.6）上同样领先同组模型，Falcon-7B 在 HumanEval 上甚至得了 0 分。
推理与数学方面，Sumi 在 GSM8K（32.8）上大幅领先 Falcon-7B（5.3）和 OLMo-7B（3.8），与 Llama 2-7B（13.5）相比也有明显优势。
常识推理则是 Sumi 的阿克琉斯之踵。在 PIQA（66.4 vs 同组最优 80.5）、HellaSwag（60.0 vs 76.3）和 WinoGrande（60.0 vs 74.7）上，Sumi 与自回归模型之间存在约 10-20 个百分点的显著差距。

研究团队坦承，教育导向的数据混合是常识推理弱的可能原因——教育评分过滤已知会提升知识密集型基准但损害常识任务——但差距之大无法仅用数据组成解释，完整归因留待未来工作。

超越基准：统一扩散的生成行为初探

除了基准测试，团队还对 Sumi 的生成行为进行了四项探索性分析（每任务 30 道题，以 Falcon-7B 困惑度作为流畅度代理指标），这些发现虽非定论，但为理解原生统一扩散模型提供了宝贵的方向性线索：

Canvas 长度敏感。 Sumi 在训练序列长度范围内生成流畅，但一旦超出范围——尤其是短 canvas——困惑度会急剧爆炸，模型输出近乎随机文本。GSM8K 对此最为敏感，而编码任务则相对稳健，甚至在 2.5 倍最长训练序列长度下仍保持或改善流畅度。

置信度采样塑造提交顺序。 尽管统一扩散的训练目标本身对 token 提交顺序完全不可知，但基于置信度的自适应采样会在生成过程中自发形成结构化的提交顺序——模型倾向于先"敲定"它有把握的位置，将困难位置推迟到后续去噪步。相比之下，祖先采样（ancestral sampling）几乎不产生任何结构。

并行解码呈现任务依赖。 在编码任务（HumanEval、MBPP）上，每步同时提交最多 4 个 token 几乎不影响准确率——这与掩码扩散模型"每步一个 token 才能保证最优"的报告形成鲜明对比。但 GSM8K 在 k=2 时准确率就开始下降，表明多步算术推理对生成顺序高度敏感。

自校正并未出现。 这是最引人深思的发现。团队给予模型明确的修订预算（额外 1-7 轮去噪），发现虽然 58%-100% 的修订步确实覆盖了已提交 token，但净效果微乎其微：最终仅有不到 1% 的 token 与首轮提交不同，提取的答案几乎从未翻转，准确率不变。检查覆盖轨迹后发现，绝大多数覆盖是 A→B→A 的"往返旅行"而非定向编辑。统一扩散在理论上允许自校正，但在 Sumi 当前的设置下并未显现。

为什么这很重要？

Sumi 的意义不在于它是否在某个基准上超越了 Llama 3 或 GPT-4——它显然没有，也无意于此。它的价值在于：

填补了研究空白。 此前没有统一扩散模型在如此规模上从零训练。自回归有 Llama、Falcon、OLMo，掩码扩散有 LLaDA，统一扩散却没有一个可用的规模化参考点。Sumi 提供了这个参考点。
完全开源。 权重、检查点、训练配方、数据混合方案全部公开，为社区提供了一个可复现、可研究的实验平台。在这个意义上，Sumi 之于统一扩散，犹如 OLMo 之于自回归——它不仅是一个模型，更是一个研究基础设施。
揭示而非掩盖问题。 常识推理的显著差距、自校正的缺失、canvas 长度的敏感性——这些"负面"发现恰恰是 Sumi 最有价值的部分。它们为后续研究指明了方向：数据混合如何影响扩散模型的常识推理？自校正需要怎样的训练或推理策略才能激活？并行解码的极限在哪里？

扩散语言模型的潜在优势——并行生成、可控性、自校正——尚未被充分理解，更远未被充分挖掘。Sumi 的意义在于，它终于给了社区一个足够大、足够干净、足够开放的模型，来认真研究这些问题。也许下一次突破，就诞生于某个研究者在 Sumi 的检查点上发现的一个意料之外的行为。