终端 Agent——能在命令行环境中自主规划、执行命令、读取输出并迭代修正的语言模型——已经成为大模型最主流的落地形态之一。无论是 Anthropic 的 Claude Code 还是各类终端原生编程产品,背后都是同一个范式:模型在 Shell 中反复试错,直到完成任务。然而,尽管需求旺盛,开源社区在终端 Agent 的强化学习(RL)训练上一直缺乏一个可复现的强基线。
2026 年 6 月 22 日,华盛顿大学与 Allen AI 联合发布了 TMax——迄今为止最强的开源终端 Agent RL 训练方案。它的核心发现出人意料地简单:不需要复杂的奖励塑形、不需要多阶段课程学习,一个 outcome-only 的 GRPO 变体配合大规模多样化的训练环境,就能让小模型在终端任务上取得显著突破。
摘要
TMax 由两个组件构成:一个包含 14,600 个 RL 环境的数据集 TMax-15k(比此前最大开源终端数据集大 2.5 倍以上),以及一个极简的 RL 训练配方(GRPO + 少量稳定性修复)。基于 Qwen 3.5 系列模型训练后:
- TMax-9B 在 Terminal-Bench 2.0 上达到 27.2%,是官方设定下 10B 参数以下最强的开源模型,超越了 32B 的 Nemotron-Terminal 和 TerminalTraj 等先前工作,逼近 Claude Haiku 4.5(29.8%)。
- TMax-27B 进一步提升至 42.7%,接近 1T 参数的 Kimi K2.5(43.2%)和 230B 的 MiniMax M2.7(45.1%)。
- 收益不仅限于终端任务:TMax-9B 在 SWE-Bench Verified 上从 44.0% 提升至 53.5%,AIME 数学基准从 73.3% 跃升至 91.1%。
所有模型权重、训练代码、数据集均已开源。
为什么这件事重要
在 TMax 之前,开源终端 Agent 训练存在三个明显缺口。
第一,基准难。 Terminal-Bench 2.0 包含 89 个精心设计的长周期、多步骤终端任务,覆盖软件工程、机器学习、安全、数据科学等领域。前沿闭源模型在该基准上的得分也不到 65%,而此前开源工作的 RL 收益通常只有 1 个百分点左右,几乎不构成有效信号。
第二,数据缺。 真实的终端操作轨迹稀缺且多为专有数据,而现有的合成数据集要么规模小、要么领域单一(例如 SWE-smith 的 95% 任务集中在软件工程),要么根本不公开完整的 RL 环境。TMax-15k 以 14,600 个环境填补了这一空白,领域平衡度达到 0.998(满分 1.0),远超此前数据集的 0.146–0.646。
第三,配方无。 大多数数据生成论文止步于监督微调(SFT),尝试 RL 的工作也因缺乏稳定的训练配方而收效甚微。正如 Nathan Lambert 在其解读中所言:"这个领域需要的是'配方工作'(recipe work)——解释清楚数据、算法、代码库、坑点等所有必要步骤的论文类型。"
TMax-15k:组合式数据生成的威力
TMax 的数据生成策略核心是一个简单的想法:通过分层采样九个结构化轴来组合每个任务。
这九个轴包括领域(domain)和技能(skills)——参考了 Nemotron-Terminal 的分类体系——以及六个正交的新轴,如任务复杂度(从几个命令到 30–60 个命令的复杂工作流)、命令复杂度(从纯 bash 到 bash + 代码 + 系统服务)、领域特定的角色设定(persona,每个领域 6–18 个),以及多模态附属文件(PNG、音频、视频、二进制等)。模型本身仍然是纯文本的,但可以通过 OCR、音频转录、ffmpeg 等终端工具与这些文件交互。
三个设计选择使该流水线兼具可扩展性与可控性:
软过滤替代硬验证:此前流水线需要用强模型对每个任务进行多次 rollout 验证,成本高昂。TMax 跳过这一步——RL 训练本身会自然过滤掉所有 rollout 获得相同奖励的任务(这些任务不贡献梯度)。实际运行中,全零率很低(每批不到 8 个样本被过滤)。
分层采样保证多样性:组合式采样本身即多样性机制,辅以角色设定和多模态附属文件,确保生成的任务在领域、难度和风格上均匀分布。
显式难度校准:通过两个复杂度轴(任务复杂度和命令复杂度)均匀采样,并引入分级验证器(graded verifiers)——如指标阈值、对抗语料库、模糊等价性检查等——提供连续的学习信号。
最终生成的 TMax-15k 是现有数据集中最难之一:Gemini-3-Flash 的 Pass@1 仅 42%,Pass@8 也仅 53%(对比 Endless Terminals 的 92%/95%),且与 Terminal-Bench 的 13-gram 滑动窗口重叠检测结果为 0%,排除了数据污染的可能。
训练配方:极简主义的胜利
TMax 的训练配方刻意保持简洁。算法基于 GRPO(Group Relative Policy Optimization),outcome-only,不使用学习奖励模型。在此基础上叠加了四项稳定性修复:
- DPPO(Divergence PPO)替代 vanilla GRPO:DPPO 在推理(vLLM)和训练 logprob 不一致的 token 上进行掩码,使用总变分距离的二元近似。这一小改动显著抑制了训练崩溃。
- Token 级损失:遵循 DAPO 的做法,对每个 token 独立计算损失。
- FP32 LM head:将语言模型头保持在全精度,以最小化训练/推理之间的数值不匹配。这对 Qwen 3.5 的混合架构尤为重要——论文中的消融实验显示,FP32 LM head 消除了训练早期的 logprob 尖峰。
- 全异步训练 + 零标准差组过滤 + 主动采样:遵循 Olmo 3 的工程实践。
基础设施方面,团队扩展了 open-instruct,使用 vLLM 进行 rollout,通过 Podman 或 Apptainer 运行沙箱。一个标准训练作业使用 8 节点 H100(2 训练 + 6 推理),耗时 2–3 天。关键超参数:500 训练步、group size 32、每批 8 个 prompt、最大上下文 65,536 token、每轮最多 64 次工具调用。
Nathan Lambert 在 Substack 中提供了一个发人深省的成本视角:一次 TMax 规模的训练大约需要 8 节点 H100 跑 2–3 天,而整个配方的确立耗费了 O(100) 次这样的训练作业。相比之下,在 Nvidia Nemotron 3 Ultra 上运行一个 RL 步骤就要花费约 1,000 美元,而一次有意义的 RL 运行需要数百步——"这个阶段可能耗费数周和 1 万到 100 万美元以上,感觉就像在原地打转。"
SFT 陷阱:强模型不一定需要你的 SFT 数据
TMax 论文中最反直觉的发现之一是所谓的 "SFT 陷阱":在 Qwen 3.5-9B 上进行 RL 之前先做 SFT,反而会降低性能——即使 SFT 数据来自更强的 Qwen 3.6-27B 教师模型。而同样的 SFT 数据对较老的 Qwen 3-8B 却明显有益。
这一不对称性揭示了一个关键教训:经过大量后训练的强基座模型,从模仿中获益更少、损失更多。 对于想要复现 TMax 配方的团队,这是一个实际警告——不要假设 SFT 预热总是有益的,必须先在自己的基座模型上测试。
稳定性:终端 Agent RL 的阿喀琉斯之踵
论文坦诚地记录了训练不稳定的问题。训练经常在 200–300 步后崩溃,主要原因包括:训练与推理之间的数值不匹配(Qwen 3.5 的混合架构加剧了这一问题)、长周期任务(通常 20+ 步)、以及运行大量沙箱带来的基础设施负载。
从 GRPO 切换到 DPPO、增大 group size、以及 FP32 LM head 是三个最有效的稳定化措施。但团队明确表示,更稳定的长期训练有望产生"显著更好的模型",这为后续研究留下了明确的改进方向。
泛化:不是过拟合,是真技能
TMax 的收益在多个维度上都表现出泛化性:
- 跨任务:SWE-Bench Verified 提升 9.5 个百分点,AIME 数学基准提升 17.8 个百分点。
- 跨 harness:在四种不同的评估 harness(包括 OpenHands、Terminus-2 等训练中未见过的设置)上,TMax-9B 均比基座模型提升 9–15 个百分点。
- 跨模型:同一配方在 Qwen 3-8B 上也有效,Terminal-Bench Lite 从 7.3% 提升至 17.7%。
这些结果强烈暗示,TMax 的 RL 训练教会了模型真正的、可迁移的终端操作技能,而非对特定 harness 或基准的过拟合。
对开源社区的意义
TMax 的价值不仅在于它的性能数字。正如 Nathan Lambert 所言,这是"配方工作"的典范——它提供了一个清洁的、可复现的基线,让其他实验室可以在上面进行小规模的消融实验,而不必从零开始花费数十万美元建立自己的 RL 基础设施。
"我们社区需要的是让人们能够在既定 RL 配方上研究小型消融的方法,因为大多数实验室没有资源从头做有意义的工作,"Lambert 写道。"这正是我希望 TMax 能为终端 Agent 做到的——或者说,至少是一个开始。"
论文还揭示了一个更广泛的趋势:2026 年的 RL 研究与 2025 年初的 RLVR 革命已经截然不同。数学基准上的 RL 可以在基座模型上稳定完成,但 Agent 任务需要复杂的工具使用、自动管理历史的 harness,以及更多的训练才能看到较小的评估提升。RL 研究正在从"算法复兴"转向"实证严谨性和社区共识"的建立。
TMax 的全部产出——数据、模型(2B/4B/9B/27B)、代码、甚至 RL 训练中的 rollout 日志——均已在 GitHub 和 Hugging Face 上开源。对于正在构建编码自动化或 DevOps Agent 的团队而言,这套开放权重、文档齐全的数据集和可复现的训练配方,提供了一个无需依赖专有 API 的坚实起点。尽管 42.7% 意味着超过一半的任务仍未解决,但方向已经明确:小而精的模型,通过正确的 RL 数据和方法,可以在这场竞赛中跑得出乎意料地快。

