噪声稳定性正则化：让 Transformer 训练加速 75% 的简单方法

摘要

深度学习中的「简单性偏置」（simplicity bias）——神经网络倾向于收敛到能解释训练数据的最简单函数——被视为理解泛化、可解释性和鲁棒性的统一框架。然而，现有的简单性度量工具，尤其是从布尔函数分析借来的「平均敏感度」（average sensitivity），在用于现代 Transformer 时暴露出两个关键缺陷：难以自然推广到实值域，且无法解释 LLM 中观察到的「junta-like」输入依赖现象。

在 ICLR 2026 上发表的一篇论文中，来自波士顿大学和日本国立信息学研究所（NII）的研究者提出了噪声稳定性（noise stability）作为替代度量，并基于此构建了一个实用的噪声稳定性正则化方法。在算法任务上，该方法将训练加速约 35%；在语言建模任务上，加速幅度高达约 75%。更引人注目的是，该方法还能催化 grokking——即模型在长时间过拟合后突然实现泛化的现象。

从布尔函数分析到噪声稳定性：一条完整的理论链条

要理解噪声稳定性正则化，需要回溯一条从理论数学到工程实践的完整路径。

布尔函数分析与平均敏感度

布尔函数分析研究从超立方体 {±1}ⁿ 到实数的函数，其核心工具是傅里叶展开：任何布尔函数都可表示为多线性多项式 f = Σ f̂ᵤ χᵤ，其中 χᵤ(x) = ∏ᵢ∈ᵤ xᵢ 是基函数。这一框架下，坐标 i 的「影响力」定义为翻转该坐标时期望输出变化的平方：Infᵢ[f] = E[(f(x) - f(x⊕ⁱ))/2)²]。所有坐标影响力之和即为平均敏感度 I[f]。

平均敏感度之所以重要，是因为它与函数的「谱集中度」密切相关：低平均敏感度意味着傅里叶质量集中在低阶项上，而根据 Friedgut 的 Junta 定理，这类函数在结构上必然接近一个仅依赖少数变量的 junta 函数。

平均敏感度的两大局限

Haris、Zhang 和 Yoshida 在论文中指出，平均敏感度作为简单性度量存在两个根本性问题。

理论局限：平均敏感度根植于布尔域，其定义依赖「翻转单个比特」的操作。尽管可以通过几何影响力（geometric influence）推广到连续空间——定义为 Iᴳ[f] = Σ ||∂ᵢf||_{L¹(μ)}——但这一推广在实践中仍显笨拙。

经验局限：研究者对 GPT-2、Gemma-2b 和 RoBERTa 在 256 个 token 序列上的几何影响力进行了分析。Friedgut 定理预测影响力超过 0.1·I[f] 的变量不超过 1024 个，但实际只观察到 5–10 个。这意味着现代 LLM 的输入依赖远比理论预测更集中，呈现「junta-like」特征——模型输出实际上仅依赖极少数关键 token，且首尾 token 始终最具影响力，这与 KV Cache 压缩文献中关于「attention sinks」的观察一致。

噪声稳定性：一种更全面的度量

为克服上述局限，研究者转向了布尔函数分析中另一个经典概念——噪声稳定性。与平均敏感度逐坐标扰动不同，噪声稳定性衡量函数对同时施加于所有输入坐标的相关噪声的鲁棒性。

形式化地，对于 ρ ∈ (0,1)，给定 X ~ γ（标准高斯测度）和 Y = ρX + Z√(1-ρ²)（Z 独立于 X 且 Z ~ γ），噪声稳定性定义为：

Stab_ρ(f) = E_{(X,Y)}[f(X)·f(Y)]

这一概念的关键优势在于，通过 Ornstein-Uhlenbeck 半群理论，它可以自然地推广到实值域。在 Hermite 多项式基下，噪声稳定性与函数谱有直接联系：Stab_ρ(f) = Σ ρ^{|α|} f̃(α)²。这使得研究者能够形式化地证明：若函数具有高噪声稳定性，其傅里叶质量必然集中在低阶系数上——这比平均敏感度提供了更精细的谱集中度刻画。

论文中的实验表明，对于 GPT-2 等模型，基于噪声稳定性的谱集中度估计比基于平均敏感度的估计更为准确，特别是在高阶傅里叶尾部分布（≥15 阶）的预测上。

理论分析：从单层到多层 Transformer

论文对 Transformer 核心组件的噪声稳定性进行了系统分析。

单层 ReLU MLP

对于一对 ρ-相关的标准高斯输入 (X, Y)，ReLU 激活函数的噪声稳定性可以精确计算：

E[ReLU(X)·ReLU(Y)] = (1/(2π))·(√(1-ρ²) + ρ(π - arccos ρ))

这一结果与 arc-cosine 核理论密切相关。在 ρ ≈ 0 附近，其二阶泰勒展开为 1/(2π) + ρ/4 + ρ²/(4π)，表明 ReLU MLP 对噪声稳定性具有弱衰减效应。

单层注意力层

注意力层的分析取决于 W = W_Q W_K^T 的结构：

恒等情形（W = I_d）：在高维极限下，注意力矩阵 σ(XX^T) 收敛到单位矩阵，层退化为线性变换，稳定性与 ρ 成线性关系。
非结构化情形（W ~ N(0, I)）：注意力矩阵集中到随机置换矩阵，每个输出 token 关注单一随机输入 token。稳定性取决于两个相关输入上的注意力模式是否一致，引入了概率因子 s(ρ)。

多层传播：协方差区间传播

对于多层网络，研究者提出了协方差区间传播方法。对于 ReLU FFN，若忽略层间分布偏移，稳定性遵循递推关系 ρ_L ≈ 1/(2π) + ρ_{L-1}/4，收敛到不动点 2/(3π)，展现出弱衰减行为。对于更复杂的 Transformer，研究者推导了严格的上下界，用于追踪噪声稳定性在多层网络中的传播。

噪声稳定性正则化：从理论到实践

基于上述理论分析，论文提出了一个实用的正则化方法。给定模型 M 和输入序列 X，S-定向噪声稳定性正则化器定义为：

R_{M,S,ρ}(X) = (-1)^S · Σᵢ M(X)ᵢ · M(Y)ᵢ

其中 Y 以概率 (1+ρ)/2 保持 Xᵢ 不变，否则替换为均匀随机 token。设置 S=1 鼓励模型学习噪声稳定的函数。正则化损失为 ℓ_reg = ℓ + γ·R，其中 γ 控制正则化强度。

实现成本极低：计算该正则化器仅需一次额外的模型前向传播。它直接作用于训练数据的模型输出，而非模型参数，且对模型架构完全无侵入。

Grokking 催化效应

Grokking——模型在长时间过拟合后突然实现泛化——是近年来深度学习中最令人困惑的现象之一。论文发现，噪声稳定性正则化是 grokking 的催化剂。

在模加法任务（modular addition, K=113）上，正则化将泛化所需的迭代次数从约 4500 降至约 3300，即约 36% 的加速。在噪声稀疏奇偶校验（noisy k-sparse parity）任务上，观察到相似的约 35% 加速。

研究者还观察到，在训练过程中，Transformer 的噪声稳定性会自然下降以匹配目标函数，且稳定性下降发生在泛化之前——这意味着噪声稳定性可以作为泛化的先行指标。

更重要的是，噪声稳定性可能是理解 grokking 现象的关键线索。此前的研究将 grokking 与「数值稳定性边缘」、权重范数等联系起来，而噪声稳定性提供了一个更直接的理论框架：grokking 对应于模型从高噪声稳定性（简单函数）向更低噪声稳定性（能拟合训练数据的更复杂函数）的过渡，正则化则加速了这一结构转变。

语言建模实验：75% 训练加速

论文在 WikiText-2-v1 上进行了 next-token-prediction 实验。结果显示，正则化训练在减少约 75% 迭代次数的情况下达到与基线相同的高验证准确率。同时，正则化模型的噪声稳定性在训练过程中保持较高水平，而非正则化模型则变得越来越不稳定。

这一结果的意义在于：噪声稳定性正则化不仅在合成任务上有效，在真实语言建模任务中同样展现出显著的加速效果。考虑到该方法仅需一次额外前向传播，其性价比极高。

实用性与展望

噪声稳定性正则化的突出优势在于其实用性：

实现简单：仅需在训练循环中增加一次额外前向传播，可无缝集成到现有训练流程中。
无架构侵入：不需要修改模型结构或初始化策略。
可微分：正则化器对模型参数可微，与标准梯度下降完全兼容。
数据依赖：正则化基于训练数据的模型输出，而非仅基于参数范数。

论文还建立了一个引人注目的新连接：信号传播理论与可解释性之间的桥梁。噪声稳定性在概念上类似于信号传播文献中的 C-map（相关性映射），但前者从谱集中度和简单性偏置出发，后者从初始化稳定性出发——这一交汇暗示了未来统一两个理论框架的可能性。

在 LLM 训练成本日益攀升的当下，一个能在语言建模任务上减少 75% 训练迭代的简单正则化方法，值得每一位关注高效训练的研究者和工程师认真对待。论文作者已承诺将代码开源，这将进一步推动该方法的实际应用和后续研究。