「我们真的需要 Adam 吗？」——ICML 2026 最叛逆论文用 SGD 挑战十年优化器共识

2026 年 7 月 6 日，机器学习领域年度盛会 ICML 将在首尔 COEX 会展中心开幕。本届大会收到 23,918 篇投稿，创下历史新高，其中 6,352 篇被接收（接受率 26.6%），536 篇获 Spotlight（2.2%），而仅有约 168 篇论文进入代表最高荣誉的 Oral 口头报告环节——不到全部投稿的 0.7%。

在这批顶尖论文中，一篇标题直白到近乎挑衅的研究正在引发热议：「Do We Need Adam?」（我们真的需要 Adam 吗？）。这篇由伊利诺伊大学厄巴纳-香槟分校的 Sagnik Mukherjee、Lifan Yuan、Pavan Jayasinha 以及导师 Dilek Hakkani-Tür 和 Hao Peng 共同完成的论文，于 2 月在 arXiv 发布（arXiv:2602.07729），被 ICML 2026 接收为 Oral，并将于 7 月 7 日上午在主会场上进行口头报告。

它的核心结论足以让许多从业者停下手中的实验重新思考：在 LLM 的强化学习阶段（如 RLHF/RLVR），经典的 SGD 不仅能匹配 AdamW 的表现，甚至常常更优——而且它只更新不到 0.02% 的模型参数。

挑战一个十年「默认选项」

Adam 优化器自 2014 年由 Kingma 和 Ba 提出以来，几乎已成为深度学习训练的标配。其变体 AdamW（Loshchilov & Hutter, 2019）通过解耦权重衰减进一步巩固了这一地位——从 GPT 系列到 Llama、从 Qwen 到 DeepSeek，几乎所有主流 LLM 的训练管线都将 AdamW 作为默认优化器。

这种「默认」并非毫无道理。大量研究反复证明：在 Transformer 的监督学习场景下，SGD 表现远逊于 Adam。Zhang 等人（2020）将其归因于随机梯度噪声的重尾分布，Pan 和 Li（2023）指向方向锐度（directional sharpness）的优势，Zhang 等人（2024）则从 Hessian 矩阵的块异质性角度给出了解释。一个被广泛接受的共识是：Transformer 引入了高度异质、曲率变化剧烈的损失景观，因此逐参数自适应学习率是必需的。

然而，这篇论文的作者提出了一个简单但被忽视的问题：这些结论都是在监督学习（预训练/SFT）阶段得出的——RL 阶段的优化动力学是否根本不同？

RL 与 SFT：两种截然不同的优化世界

论文的分析从两个关键差异切入。

第一，RL 的优化景观是非稳态的。 在线 RL 中，训练数据从最新版本的策略中采样生成，数据分布和损失景观随策略更新而共同演化。这与 SFT 中固定数据集的静态优化景观有本质区别。

第二，RL 每步获得的信息量极度稀疏。 在 SFT 中，每个 token 都提供监督信号，信息量为 O(#tokens)；而在 RLVR 中，每个 episode 仅从环境获得 O(1) 比特的奖励信号。

这两个差异导致 AdamW 的两个核心组件——动量和自适应学习率——在 RL 阶段的作用被显著削弱。

自适应学习率：SFT 需要，RL 未必

AdamW 通过维护梯度二阶矩的指数移动平均 √v 来为每个参数调整有效步长。当 √v 在不同参数间差异很大时，这种逐参数调整才有意义。

论文作者对比了同一模型在 SFT 和 RLVR 阶段使用 AdamW 时 √v 的分布。结果令人惊讶：SFT 阶段 √v 的标准差（σ=5.11×10⁻⁶）是 RLVR 阶段（σ=2.29×10⁻⁷）的约 22 倍。这意味着在 RL 阶段，不同参数的历史梯度量级高度一致，自适应学习率的必要性大幅降低。

动量：在非稳态景观中可能帮倒忙

动量本质上是对历史梯度方向的记忆。但在策略快速更新的 RL 中，上一步的梯度方向可能与当前方向已经大相径庭。论文作者计算了 AdamW 中累积动量 m_{t-1} 与当前梯度 g_t 之间的余弦相似度：SFT 中高达 0.997，RL 中骤降至 −0.007——几乎正交，甚至略微负相关。

这一发现意味着，在 RLVR 中，动量不仅没有加速收敛，反而可能在把优化引向错误的方向。

实验结果：SGD 的惊人逆袭

基于上述分析，作者提出了一个大胆的假设：动量和自适应学习率在 RLVR 中远不如在 SFT 中重要。 如果假设成立，那么最简单的 SGD（既不用动量也不用自适应学习率）应该能与 AdamW 匹敌。

实验设计覆盖了三个验证域（数学推理、代码生成、RLVE）、两个模型家族（Qwen3-1.7B/8B 和 Llama-3.1-8B-Instruct）、两种 RL 算法（GRPO 和 PPO），结果一致得惊人：

在数学推理任务上，SGD 在多个基准（MATH-500、AMC、AIME、OlympiadBench、GPQA Diamond）上与 AdamW 持平或更优。在 3K rollout 设定下，SGD 在所有配置中均优于 AdamW。

在代码生成任务上，SGD 的优势更加明显：在 HumanEval、HumanEval+、MBPP、MBPP+ 基准上，SGD 的 pass@1 平均比 AdamW 高出 8.7%。

更关键的是消融实验：从 AdamW 中分别移除动量（得 RMSProp）或自适应学习率（得 SGD with Momentum），或者同时移除两者（得纯 SGD），结果发现两种组件都没有一致性地提升性能。SGD with Momentum 甚至在大多数情况下比纯 SGD 更差，印证了动量在非稳态优化中的负面影响。

论文还提供了上述发现对 PPO 的泛化验证，以及在 RLVE 环境下延长训练至 500 步的耐久性测试——SGD 的表现始终稳健。

令人震撼的稀疏性

但全篇最令人瞠目的发现或许是更新稀疏性。

作者定义「更新稀疏度」为训练前后未发生变化的参数比例。在 Qwen3-8B 上，AdamW 更新了约 10% 的参数（90% 稀疏度），而 SGD 仅更新了 0.01% 的参数（99.99% 稀疏度）——相差近 1000 倍。在三个域、两个模型家族中，SGD 的更新比例始终在 0.02%–0.46% 之间。

更值得注意的是，这种稀疏性未使用任何稀疏性正则化，完全是 SGD 在 RLVR 中的自然行为。分析表明，稀疏性的来源部分在于 SGD 缺乏自适应学习率：AdamW 和 RMSProp 的自适应机制会放大微小更新（使其突破浮点舍入阈值），而 SGD 则让这些更新自然归零。

从工程角度看，这意味着巨大的内存节省：以 Qwen3-1.7B 为例，SGD 比 AdamW 减少约 15.7 GB 的峰值 GPU 内存占用（AdamW 需要 12 字节/参数的优化器状态，SGD 仅需 4 字节/参数）。对于资源受限的研究团队和需要扩大 batch size 的场景，这 15.7 GB 的差距可能就是「能不能跑」的区别。

什么变了？RLVR 为什么不同？

论文将 SGD 在 RLVR 中的成功归因于 RL 优化问题的本质特征。此前已有研究表明，RL 微调仅更新模型中约 20% 的参数（Mukherjee et al., 2025），远少于 SFT；且 RL 的更新集中在参数空间的非主成分方向上，引发的谱漂移极小（Zhu et al., 2025）。这两项发现暗示：RLVR 中的有效优化问题是低维且几何受限的，学习被限制在参数空间的一个子空间内。

在一个低维、受限的优化问题中，复杂的逐参数自适应机制反而可能是多余甚至有害的——这正是 SGD 能够胜出的深层原因。

ICML 2026 的「叛逆」精神

这篇论文之所以被冠以「叛逆」之名，不仅因为其结论挑战了一个近十年的工程共识，更因为它示范了一种值得珍视的科学态度：对默认假设的重新审视。

正如论文引言所引用的爱因斯坦名言：「重要的是永不停止提问。」当整个行业习惯性地在 RL 训练中沿用 SFT 阶段的优化器配置时，这篇论文选择追问一个最基本的问题——我们真的需要 Adam 吗？

答案似乎是：在某些场景下，不需要。而且正是这个「不需要」，打开了一扇通往更高效、更稀疏、更省内存的 LLM 训练范式的大门。

论文作者也已将完整代码开源至 GitHub（github.com/SagnikMukherjee/sgd_adam_rlvr），供社区复现和进一步探索。

7 月 7 日上午 10 点，首尔 COEX，这场关于优化器「王位」的辩论将正式登上 ICML 的主舞台。无论最终结论是否被全面接受，它已经完成了一件重要的事：让整个领域重新开始思考一个被忽略了太久的问题。