大推理模型(Large Reasoning Models, LRMs)正陷入一个尴尬的悖论:它们靠"想得多"变强,却也因"想得太多"而浪费。OpenAI o1、DeepSeek-R1 等模型通过数千 token 的链式思维(Chain-of-Thought, CoT)推理在数学竞赛和复杂编程任务上逼近人类顶尖水平,但当用户问一句"2+3 等于几"时,它们照样洋洋洒洒写几百字的推导过程。这种"过度思考"不仅是计算资源的挥霍——在某些简单任务上,冗长的推理反而会引入噪音,降低准确率。
一场矫正正在行业内发生。OpenAI 为 GPT-5 系列引入了 reasoning_effort 参数(minimal / low / medium / high / xhigh),让开发者手动指定推理深度;Anthropic 则更进一步——在 Claude Sonnet 5 上彻底取消了手动推理预算,改为"自适应思考"(Adaptive Thinking),让模型自行判断何时需要深度推理,且始终开启、不可关闭。从"开/关"的二元开关到连续可调的思考努力,前沿实验室正在重新设计推理模型的行为模式。
但问题在于:这些控制机制大多停留在工程层面——在推理时调节超参、路由分发或提示工程——缺乏对为什么效率优化总是以牺牲推理质量为代价这一根本问题的回答。一篇来自复旦大学数据科学学院、华东师范大学和蚂蚁集团的研究者联合提交的论文,被 ACL 2026 Findings 收录,恰好从训练机制层面给出了一个优雅的解答。他们提出的 ADaPT(Adaptive Dual-Process Thinking)框架,通过在 Token 级别解耦效率信号与正确性信号,让单个模型既能"快"又能"慢",且训练后无需重新训练即可在效率-性能 Pareto 前沿上平滑移动。
效率困境的根源:序列级耦合
现有提升推理效率的方法大致分为两条路线:长度压缩——通过惩罚长输出来迫使模型简洁;混合推理——让模型在快慢模式间切换。尽管设计各异,它们共享一个致命缺陷:效率奖励与正确性奖励在序列级别被耦合。
问题的本质可以通过一个强化学习的视角来理解。在标准的 MDP 框架下,推理模式的选择只发生在第一个动作(决定用快模式还是慢模式)。一旦模式确定,后续所有 token 只能影响答案正确性,无法再改变效率结果。然而,序列级效率奖励将效率压力均匀分布在所有 token 上——那些负责生成正确答案的 token 也被迫承担"缩短长度"的优化目标。当多条回答都能答对时,较短的答案同时获得正确性奖励和效率奖励,而较长但同样正确的推理只获得正确性奖励,从而在训练梯度中处于劣势。 长此以往,模型被系统性地训练为"倾向于短的推理",即使它知道某些问题需要更深的思考。
这一诊断解释了为什么现有方法——TLMRE、ARM、R-4B 等——总在提高效率的同时牺牲性能,尤其是在困难任务上。长度压缩方法直接制造了效率与准确率之间的此消彼长;混合推理方法虽然意图自适应选择模式,但序列级奖励使得路由决策不稳定,常常退化为"始终选慢模式以追求最高正确率"的保守策略。
ADaPT 的核心创新:Token 级解耦
ADaPT 的洞见简洁而深刻:效率只取决于推理模式的选择,不取决于推理内容本身。基于这一观察,ADaPT 引入了一个专门的模式选择 Token——在推理开始时由模型生成的第一个 token,决定接下来走"慢思考"(<think> 模式,完整 CoT 推理)还是"快回答"(<answer> 模式,简短说明或直接输出答案)。效率相关的奖励仅施加于这个模式选择 token,而正确答案的优化仍通过常规的序列级奖励作用于全部 token。
这一设计巧妙之处在于:一旦模式选定,后续的内容生成 token 不再承担任何效率压力——它们只需专注于产出正确答案。这意味着,即使模型选择了一条很长的推理链,也不会因为"长"而被惩罚,只要它最终答对了。效率信号从此不再污染正确性信号。
训练分两阶段进行。第一阶段是监督微调(ADaPT-SFT):用带标注的 <think> 和 <answer> 格式数据让模型学会两种推理行为模式。第二阶段是强化学习(ADaPT-GRPO):基于 GRPO(Group Relative Policy Optimization)框架,引入 Token 级别的模式奖励。模式奖励的设计由两项组成:一是绝对质量阈值——只有当快回答模式的准确率超过阈值 γ 时才鼓励使用快模式,否则鼓励触发慢思考;二是相对优势项——当慢思考相对快回答有显著性能提升时,增加触发 <think> 的激励。
在技术实现上,ADaPT-GRPO 还引入了平衡双起点采样策略——每批样本中一半强制以 <think> 开头、一半以 <answer> 开头——防止模式坍缩。对于首个 token 的梯度裁剪问题(由于行为策略固定导致重要性比率频繁被 clip),研究团队采用了类似 MiniMax-M1 的 CISPO 约束专门处理。
实验结果:降本不降智
在 Qwen2.5-7B 和 Qwen2.5-3B 两个模型规模上的实验覆盖了从 CommonsenseQA、GSM8K、ARC 等"简单"任务到 MATH500、MMLU-Pro、Olympiad、AIME24 等"困难"任务的多层次基准。
核心结果令人印象深刻:
在 Qwen2.5-7B 上,ADaPT 将平均生成长度从 SFT+GRPO 的 1540 token 压缩到 1031 token(减少约 33%),而平均准确率仅从 63.3% 微降至 62.7%。对比之下,TLMRE(1299 token / 61.0%)、ARM(1131 token / 61.7%)和 R-4B(1044 token / 60.9%)虽然在 token 使用上接近或更低,但准确率损失更为显著。ADaPT 在效率与性能之间找到了目前最均衡的点。
更值得关注的是模式分解实验。当强制模型始终使用快模式(ADaPTanswer)时,在简单任务上的平均长度仅 24 token(7B 模型),准确率却达到 86.1%——几乎与最优结果持平。当强制始终使用慢模式(ADaPTthink)时,在 AIME24 竞赛数学题上准确率达到 15.1%,超过 SFT+GRPO 的 14.4%。这两组数据说明:ADaPT 的两种模式各自保有对应场景下的最优能力,未因解耦而受损。
"推理旋钮":连续可控的 Pareto 前沿
ADaPT 最引人注目的能力发生在推理时。训练完成后,用户可以通过调节模式选择 token 的生成概率阈值,在效率-性能的 Pareto 前沿上连续移动,无需重新训练或切换模型。
论文中的图 3 清晰地展示了这一性质:随着 <think> token 触发阈值的升高,模型在简单任务上先快速提升准确率然后饱和,在困难任务上则持续获得性能提升。将其他基线方法投射到同一准确率-长度空间中,它们几乎全部位于 ADaPT 定义的 Pareto 前沿内部——即在相同 token 预算下准确率更低,或在相同准确率下消耗更多 token。
这一特性赋予了 ADaPT 一种此前只存在于产品愿景中的能力:一个模型,一个 checkpoint,覆盖从"极速轻量回答"到"深度竞赛级推理"的全部场景。开发者不再需要维护多个模型版本或设计复杂的路由系统——调整一个阈值参数即可。
行业正在走向同一方向
将 ADaPT 的学术贡献放在 2026 年中的行业背景下,会发现一条清晰的趋势线。
OpenAI 的 reasoning_effort 参数从 GPT-5 的 low/medium/high 三档发展到 GPT-5.2 的 minimal/low/medium/high/xhigh 五档,并专门在官方文档中提示"默认 medium,但应根据任务难度进行缩放"。这是一种粗粒度的外部控制——用户告诉模型"多想"或"少想",但模型内部并不真正理解何时该想、何时该停。
Anthropic 的路线更为激进。从 Claude 3.7 Sonnet 引入 Extended Thinking(手动设定推理 token 预算),到 Claude Sonnet 5 彻底废除手动预算、改为 Adaptive Thinking 默认开启且不可关闭,Anthropic 实际上在说:让模型自己决定推理深度比让用户猜测更有效。但这一转变在开发者社区引发了争论——API 用户失去了对推理成本的控制权。
ADaPT 提供了一个第三种路径的可能性:模型自主学习推理模式的选择策略,但为用户保留连续调节的接口。阈值参数不像 reasoning_effort 那样是一个不透明的提示,也不像 Anthropic 的 Adaptive Thinking 那样完全黑盒——它直接对应于模型内部的决策概率,是可解释的、可调控的。
当然,ADaPT 目前仍有局限。实验仅在 7B 和 3B 模型上进行,快慢模式采用二元划分(<think> / <answer>),且在更大规模模型和更复杂推理场景(如长上下文、多轮交互)下的表现有待验证。但其核心贡献——Token 级解耦——指向了一个重要的方向:未来的推理模型训练不应再将效率视为附加的"约束项",而应将其作为独立于正确性的正交维度进行优化。
从"过度思考"到"适度思考"
回过头看,ADaPT 的理论直觉其实非常朴素。认知心理学中的双过程理论早已指出,人类思维存在"系统 1"(快速、直觉)和"系统 2"(缓慢、分析)两种模式,而成熟的思考者懂得在二者之间灵活切换。大推理模型目前的尴尬恰恰在于——它们只有"系统 2 常开"模式,不懂何时该调用"系统 1"。
ADaPT 的价值不仅仅是提出了一种新的训练技巧。它通过将"效率"从序列级解放到 Token 级,从根本上重新定义了推理效率问题的边界条件:效率优化不应以惩罚正确的深度推理为代价。这个洞察一旦被广泛接受,将深刻影响下一代推理模型的训练范式。
前沿实验室的产品团队或许已经在实践中察觉到了同样的方向——从 OpenAI 的温度旋钮消失到推理努力参数的引入,从 Anthropic 的 Extended Thinking 到 Adaptive Thinking 的跃迁——但 ADaPT 用严谨的实验和清晰的理论框架,为这条直觉找到了学术层面的支撑。当行业从"推理 on/off"走向"推理深度连续调节",ADaPT 提供了一份有说服力的路线图。

