TMax:一个简单的 RL 配方,让 9B 模型在终端 Agent 任务上击败 3 倍大的对手 | AGIDaily