2026 年 7 月 6 日,机器学习领域年度盛会 ICML 将在首尔 COEX 会展中心开幕。本届大会收到 23,918 篇投稿,创下历史新高,其中 6,352 篇被接收(接受率 26.6%),536 篇获 Spotlight(2.2%),而仅有约 168 篇论文进入代表最高荣誉的 Oral 口头报告环节——不到全部投稿的 0.7%。
在这批顶尖论文中,一篇标题直白到近乎挑衅的研究正在引发热议:「Do We Need Adam?」(我们真的需要 Adam 吗?)。这篇由伊利诺伊大学厄巴纳-香槟分校的 Sagnik Mukherjee、Lifan Yuan、Pavan Jayasinha 以及导师 Dilek Hakkani-Tür 和 Hao Peng 共同完成的论文,于 2 月在 arXiv 发布(arXiv:2602.07729),被 ICML 2026 接收为 Oral,并将于 7 月 7 日上午在主会场上进行口头报告。
它的核心结论足以让许多从业者停下手中的实验重新思考:在 LLM 的强化学习阶段(如 RLHF/RLVR),经典的 SGD 不仅能匹配 AdamW 的表现,甚至常常更优——而且它只更新不到 0.02% 的模型参数。
挑战一个十年「默认选项」
Adam 优化器自 2014 年由 Kingma 和 Ba 提出以来,几乎已成为深度学习训练的标配。其变体 AdamW(Loshchilov & Hutter, 2019)通过解耦权重衰减进一步巩固了这一地位——从 GPT 系列到 Llama、从 Qwen 到 DeepSeek,几乎所有主流 LLM 的训练管线都将 AdamW 作为默认优化器。
这种「默认」并非毫无道理。大量研究反复证明:在 Transformer 的监督学习场景下,SGD 表现远逊于 Adam。Zhang 等人(2020)将其归因于随机梯度噪声的重尾分布,Pan 和 Li(2023)指向方向锐度(directional sharpness)的优势,Zhang 等人(2024)则从 Hessian 矩阵的块异质性角度给出了解释。一个被广泛接受的共识是:Transformer 引入了高度异质、曲率变化剧烈的损失景观,因此逐参数自适应学习率是必需的。
然而,这篇论文的作者提出了一个简单但被忽视的问题:这些结论都是在监督学习(预训练/SFT)阶段得出的——RL 阶段的优化动力学是否根本不同?
RL 与 SFT:两种截然不同的优化世界
论文的分析从两个关键差异切入。
第一,RL 的优化景观是非稳态的。 在线 RL 中,训练数据从最新版本的策略中采样生成,数据分布和损失景观随策略更新而共同演化。这与 SFT 中固定数据集的静态优化景观有本质区别。
第二,RL 每步获得的信息量极度稀疏。 在 SFT 中,每个 token 都提供监督信号,信息量为 O(#tokens);而在 RLVR 中,每个 episode 仅从环境获得 O(1) 比特的奖励信号。
这两个差异导致 AdamW 的两个核心组件——动量和自适应学习率——在 RL 阶段的作用被显著削弱。
自适应学习率:SFT 需要,RL 未必
AdamW 通过维护梯度二阶矩的指数移动平均 √v 来为每个参数调整有效步长。当 √v 在不同参数间差异很大时,这种逐参数调整才有意义。
论文作者对比了同一模型在 SFT 和 RLVR 阶段使用 AdamW 时 √v 的分布。结果令人惊讶:SFT 阶段 √v 的标准差(σ=5.11×10⁻⁶)是 RLVR 阶段(σ=2.29×10⁻⁷)的约 22 倍。这意味着在 RL 阶段,不同参数的历史梯度量级高度一致,自适应学习率的必要性大幅降低。
动量:在非稳态景观中可能帮倒忙
动量本质上是对历史梯度方向的记忆。但在策略快速更新的 RL 中,上一步的梯度方向可能与当前方向已经大相径庭。论文作者计算了 AdamW 中累积动量 m_{t-1} 与当前梯度 g_t 之间的余弦相似度:SFT 中高达 0.997,RL 中骤降至 −0.007——几乎正交,甚至略微负相关。
这一发现意味着,在 RLVR 中,动量不仅没有加速收敛,反而可能在把优化引向错误的方向。
实验结果:SGD 的惊人逆袭
基于上述分析,作者提出了一个大胆的假设:动量和自适应学习率在 RLVR 中远不如在 SFT 中重要。 如果假设成立,那么最简单的 SGD(既不用动量也不用自适应学习率)应该能与 AdamW 匹敌。
实验设计覆盖了三个验证域(数学推理、代码生成、RLVE)、两个模型家族(Qwen3-1.7B/8B 和 Llama-3.1-8B-Instruct)、两种 RL 算法(GRPO 和 PPO),结果一致得惊人:
在数学推理任务上,SGD 在多个基准(MATH-500、AMC、AIME、OlympiadBench、GPQA Diamond)上与 AdamW 持平或更优。在 3K rollout 设定下,SGD 在所有配置中均优于 AdamW。
在代码生成任务上,SGD 的优势更加明显:在 HumanEval、HumanEval+、MBPP、MBPP+ 基准上,SGD 的 pass@1 平均比 AdamW 高出 8.7%。
更关键的是消融实验:从 AdamW 中分别移除动量(得 RMSProp)或自适应学习率(得 SGD with Momentum),或者同时移除两者(得纯 SGD),结果发现两种组件都没有一致性地提升性能。SGD with Momentum 甚至在大多数情况下比纯 SGD 更差,印证了动量在非稳态优化中的负面影响。
论文还提供了上述发现对 PPO 的泛化验证,以及在 RLVE 环境下延长训练至 500 步的耐久性测试——SGD 的表现始终稳健。
令人震撼的稀疏性
但全篇最令人瞠目的发现或许是更新稀疏性。
作者定义「更新稀疏度」为训练前后未发生变化的参数比例。在 Qwen3-8B 上,AdamW 更新了约 10% 的参数(90% 稀疏度),而 SGD 仅更新了 0.01% 的参数(99.99% 稀疏度)——相差近 1000 倍。在三个域、两个模型家族中,SGD 的更新比例始终在 0.02%–0.46% 之间。
更值得注意的是,这种稀疏性未使用任何稀疏性正则化,完全是 SGD 在 RLVR 中的自然行为。分析表明,稀疏性的来源部分在于 SGD 缺乏自适应学习率:AdamW 和 RMSProp 的自适应机制会放大微小更新(使其突破浮点舍入阈值),而 SGD 则让这些更新自然归零。
从工程角度看,这意味着巨大的内存节省:以 Qwen3-1.7B 为例,SGD 比 AdamW 减少约 15.7 GB 的峰值 GPU 内存占用(AdamW 需要 12 字节/参数的优化器状态,SGD 仅需 4 字节/参数)。对于资源受限的研究团队和需要扩大 batch size 的场景,这 15.7 GB 的差距可能就是「能不能跑」的区别。
什么变了?RLVR 为什么不同?
论文将 SGD 在 RLVR 中的成功归因于 RL 优化问题的本质特征。此前已有研究表明,RL 微调仅更新模型中约 20% 的参数(Mukherjee et al., 2025),远少于 SFT;且 RL 的更新集中在参数空间的非主成分方向上,引发的谱漂移极小(Zhu et al., 2025)。这两项发现暗示:RLVR 中的有效优化问题是低维且几何受限的,学习被限制在参数空间的一个子空间内。
在一个低维、受限的优化问题中,复杂的逐参数自适应机制反而可能是多余甚至有害的——这正是 SGD 能够胜出的深层原因。
ICML 2026 的「叛逆」精神
这篇论文之所以被冠以「叛逆」之名,不仅因为其结论挑战了一个近十年的工程共识,更因为它示范了一种值得珍视的科学态度:对默认假设的重新审视。
正如论文引言所引用的爱因斯坦名言:「重要的是永不停止提问。」当整个行业习惯性地在 RL 训练中沿用 SFT 阶段的优化器配置时,这篇论文选择追问一个最基本的问题——我们真的需要 Adam 吗?
答案似乎是:在某些场景下,不需要。而且正是这个「不需要」,打开了一扇通往更高效、更稀疏、更省内存的 LLM 训练范式的大门。
论文作者也已将完整代码开源至 GitHub(github.com/SagnikMukherjee/sgd_adam_rlvr),供社区复现和进一步探索。
7 月 7 日上午 10 点,首尔 COEX,这场关于优化器「王位」的辩论将正式登上 ICML 的主舞台。无论最终结论是否被全面接受,它已经完成了一件重要的事:让整个领域重新开始思考一个被忽略了太久的问题。

