TMax：一个简单的 RL 配方，让 9B 模型在终端 Agent 任务上击败 3 倍大的对手

终端 Agent——能在命令行环境中自主规划、执行命令、读取输出并迭代修正的语言模型——已经成为大模型最主流的落地形态之一。无论是 Anthropic 的 Claude Code 还是各类终端原生编程产品，背后都是同一个范式：模型在 Shell 中反复试错，直到完成任务。然而，尽管需求旺盛，开源社区在终端 Agent 的强化学习（RL）训练上一直缺乏一个可复现的强基线。

2026 年 6 月 22 日，华盛顿大学与 Allen AI 联合发布了 TMax——迄今为止最强的开源终端 Agent RL 训练方案。它的核心发现出人意料地简单：不需要复杂的奖励塑形、不需要多阶段课程学习，一个 outcome-only 的 GRPO 变体配合大规模多样化的训练环境，就能让小模型在终端任务上取得显著突破。

摘要

TMax 由两个组件构成：一个包含 14,600 个 RL 环境的数据集 TMax-15k（比此前最大开源终端数据集大 2.5 倍以上），以及一个极简的 RL 训练配方（GRPO + 少量稳定性修复）。基于 Qwen 3.5 系列模型训练后：

TMax-9B 在 Terminal-Bench 2.0 上达到 27.2%，是官方设定下 10B 参数以下最强的开源模型，超越了 32B 的 Nemotron-Terminal 和 TerminalTraj 等先前工作，逼近 Claude Haiku 4.5（29.8%）。
TMax-27B 进一步提升至 42.7%，接近 1T 参数的 Kimi K2.5（43.2%）和 230B 的 MiniMax M2.7（45.1%）。
收益不仅限于终端任务：TMax-9B 在 SWE-Bench Verified 上从 44.0% 提升至 53.5%，AIME 数学基准从 73.3% 跃升至 91.1%。

所有模型权重、训练代码、数据集均已开源。

为什么这件事重要

在 TMax 之前，开源终端 Agent 训练存在三个明显缺口。

第一，基准难。 Terminal-Bench 2.0 包含 89 个精心设计的长周期、多步骤终端任务，覆盖软件工程、机器学习、安全、数据科学等领域。前沿闭源模型在该基准上的得分也不到 65%，而此前开源工作的 RL 收益通常只有 1 个百分点左右，几乎不构成有效信号。

第二，数据缺。 真实的终端操作轨迹稀缺且多为专有数据，而现有的合成数据集要么规模小、要么领域单一（例如 SWE-smith 的 95% 任务集中在软件工程），要么根本不公开完整的 RL 环境。TMax-15k 以 14,600 个环境填补了这一空白，领域平衡度达到 0.998（满分 1.0），远超此前数据集的 0.146–0.646。

第三，配方无。 大多数数据生成论文止步于监督微调（SFT），尝试 RL 的工作也因缺乏稳定的训练配方而收效甚微。正如 Nathan Lambert 在其解读中所言："这个领域需要的是'配方工作'（recipe work）——解释清楚数据、算法、代码库、坑点等所有必要步骤的论文类型。"

TMax-15k：组合式数据生成的威力

TMax 的数据生成策略核心是一个简单的想法：通过分层采样九个结构化轴来组合每个任务。

这九个轴包括领域（domain）和技能（skills）——参考了 Nemotron-Terminal 的分类体系——以及六个正交的新轴，如任务复杂度（从几个命令到 30–60 个命令的复杂工作流）、命令复杂度（从纯 bash 到 bash + 代码 + 系统服务）、领域特定的角色设定（persona，每个领域 6–18 个），以及多模态附属文件（PNG、音频、视频、二进制等）。模型本身仍然是纯文本的，但可以通过 OCR、音频转录、ffmpeg 等终端工具与这些文件交互。

三个设计选择使该流水线兼具可扩展性与可控性：

软过滤替代硬验证：此前流水线需要用强模型对每个任务进行多次 rollout 验证，成本高昂。TMax 跳过这一步——RL 训练本身会自然过滤掉所有 rollout 获得相同奖励的任务（这些任务不贡献梯度）。实际运行中，全零率很低（每批不到 8 个样本被过滤）。
分层采样保证多样性：组合式采样本身即多样性机制，辅以角色设定和多模态附属文件，确保生成的任务在领域、难度和风格上均匀分布。
显式难度校准：通过两个复杂度轴（任务复杂度和命令复杂度）均匀采样，并引入分级验证器（graded verifiers）——如指标阈值、对抗语料库、模糊等价性检查等——提供连续的学习信号。

最终生成的 TMax-15k 是现有数据集中最难之一：Gemini-3-Flash 的 Pass@1 仅 42%，Pass@8 也仅 53%（对比 Endless Terminals 的 92%/95%），且与 Terminal-Bench 的 13-gram 滑动窗口重叠检测结果为 0%，排除了数据污染的可能。

训练配方：极简主义的胜利

TMax 的训练配方刻意保持简洁。算法基于 GRPO（Group Relative Policy Optimization），outcome-only，不使用学习奖励模型。在此基础上叠加了四项稳定性修复：

DPPO（Divergence PPO）替代 vanilla GRPO：DPPO 在推理（vLLM）和训练 logprob 不一致的 token 上进行掩码，使用总变分距离的二元近似。这一小改动显著抑制了训练崩溃。
Token 级损失：遵循 DAPO 的做法，对每个 token 独立计算损失。
FP32 LM head：将语言模型头保持在全精度，以最小化训练/推理之间的数值不匹配。这对 Qwen 3.5 的混合架构尤为重要——论文中的消融实验显示，FP32 LM head 消除了训练早期的 logprob 尖峰。
全异步训练 + 零标准差组过滤 + 主动采样：遵循 Olmo 3 的工程实践。

基础设施方面，团队扩展了 open-instruct，使用 vLLM 进行 rollout，通过 Podman 或 Apptainer 运行沙箱。一个标准训练作业使用 8 节点 H100（2 训练 + 6 推理），耗时 2–3 天。关键超参数：500 训练步、group size 32、每批 8 个 prompt、最大上下文 65,536 token、每轮最多 64 次工具调用。

Nathan Lambert 在 Substack 中提供了一个发人深省的成本视角：一次 TMax 规模的训练大约需要 8 节点 H100 跑 2–3 天，而整个配方的确立耗费了 O(100) 次这样的训练作业。相比之下，在 Nvidia Nemotron 3 Ultra 上运行一个 RL 步骤就要花费约 1,000 美元，而一次有意义的 RL 运行需要数百步——"这个阶段可能耗费数周和 1 万到 100 万美元以上，感觉就像在原地打转。"

SFT 陷阱：强模型不一定需要你的 SFT 数据

TMax 论文中最反直觉的发现之一是所谓的 "SFT 陷阱"：在 Qwen 3.5-9B 上进行 RL 之前先做 SFT，反而会降低性能——即使 SFT 数据来自更强的 Qwen 3.6-27B 教师模型。而同样的 SFT 数据对较老的 Qwen 3-8B 却明显有益。

这一不对称性揭示了一个关键教训：经过大量后训练的强基座模型，从模仿中获益更少、损失更多。 对于想要复现 TMax 配方的团队，这是一个实际警告——不要假设 SFT 预热总是有益的，必须先在自己的基座模型上测试。

稳定性：终端 Agent RL 的阿喀琉斯之踵

论文坦诚地记录了训练不稳定的问题。训练经常在 200–300 步后崩溃，主要原因包括：训练与推理之间的数值不匹配（Qwen 3.5 的混合架构加剧了这一问题）、长周期任务（通常 20+ 步）、以及运行大量沙箱带来的基础设施负载。

从 GRPO 切换到 DPPO、增大 group size、以及 FP32 LM head 是三个最有效的稳定化措施。但团队明确表示，更稳定的长期训练有望产生"显著更好的模型"，这为后续研究留下了明确的改进方向。

泛化：不是过拟合，是真技能

TMax 的收益在多个维度上都表现出泛化性：

跨任务：SWE-Bench Verified 提升 9.5 个百分点，AIME 数学基准提升 17.8 个百分点。
跨 harness：在四种不同的评估 harness（包括 OpenHands、Terminus-2 等训练中未见过的设置）上，TMax-9B 均比基座模型提升 9–15 个百分点。
跨模型：同一配方在 Qwen 3-8B 上也有效，Terminal-Bench Lite 从 7.3% 提升至 17.7%。

这些结果强烈暗示，TMax 的 RL 训练教会了模型真正的、可迁移的终端操作技能，而非对特定 harness 或基准的过拟合。

对开源社区的意义

TMax 的价值不仅在于它的性能数字。正如 Nathan Lambert 所言，这是"配方工作"的典范——它提供了一个清洁的、可复现的基线，让其他实验室可以在上面进行小规模的消融实验，而不必从零开始花费数十万美元建立自己的 RL 基础设施。

"我们社区需要的是让人们能够在既定 RL 配方上研究小型消融的方法，因为大多数实验室没有资源从头做有意义的工作，"Lambert 写道。"这正是我希望 TMax 能为终端 Agent 做到的——或者说，至少是一个开始。"

论文还揭示了一个更广泛的趋势：2026 年的 RL 研究与 2025 年初的 RLVR 革命已经截然不同。数学基准上的 RL 可以在基座模型上稳定完成，但 Agent 任务需要复杂的工具使用、自动管理历史的 harness，以及更多的训练才能看到较小的评估提升。RL 研究正在从"算法复兴"转向"实证严谨性和社区共识"的建立。

TMax 的全部产出——数据、模型（2B/4B/9B/27B）、代码、甚至 RL 训练中的 rollout 日志——均已在 GitHub 和 Hugging Face 上开源。对于正在构建编码自动化或 DevOps Agent 的团队而言，这套开放权重、文档齐全的数据集和可复现的训练配方，提供了一个无需依赖专有 API 的坚实起点。尽管 42.7% 意味着超过一半的任务仍未解决，但方向已经明确：小而精的模型，通过正确的 RL 数据和方法，可以在这场竞赛中跑得出乎意料地快。