AA-Briefcase：一个全新的、未被「刷榜」的智能体评测基准，GLM-5.2 超越 GPT-5.5

摘要

6 月 18 日，独立 AI 评测机构 Artificial Analysis 发布了 AA-Briefcase——一个全新的、专门面向智能体（Agent）知识工作能力的评测基准。与 MMLU、GSM8K 等传统基准不同，AA-Briefcase 不考察模型"知道什么"，而是考察模型"能完成什么"：在横跨数周、包含数千份碎片化文档的复杂项目中，模型能否像一位真正的知识工作者那样规划、检索、推理并交付可验证的成果。

结果耐人寻味。Claude Fable 5 以 1587 Elo 的总分遥遥领先，但即便这位冠军，在严格的全或无评分标准下，也仅能完美完成 3% 的任务。更引人注目的是，智谱（Z.ai）的开源模型 GLM-5.2 以 1266 Elo 超越 OpenAI 的 GPT-5.5（xhigh），位列非 Anthropic 模型之首，且成本仅为 Claude Opus 4.8 的四分之一不到。

一、AA-Briefcase 测什么：从"答题"到"干活"

传统 LLM 评测的核心范式是"提问—回答"：给模型一道选择题、一道数学题或一段代码补全，看它能否给出正确答案。这种范式催生了大量基准饱和问题——前沿模型在 MMLU、GSM8K 甚至 HumanEval 上的得分已经逼近天花板，进一步区分模型能力的边际价值急剧下降。

AA-Briefcase 彻底改变了这一范式。它由四个多周知识工作项目组成，涵盖数据科学、产品管理、银行运营和重工业战略四个场景，共计 91 个任务。每个场景由来自 Google、McKinsey 和 BCG 等行业专家耗时数月开发，模拟真实商业环境中的复杂工作流。

模型需要处理的上下文极其庞大且碎片化：25,000 多条 Slack 消息、3,500 多封电子邮件、会议纪要、大型数据导出文件、公司文档——这些材料中充斥着现实世界特有的矛盾、歧义和噪音。任务不是孤立的，而是逐周递进，共享机构上下文，要求模型产出财务报表、董事会演示文稿和设计稿等真实交付物。

评测采用复合评分体系：二元 rubric 检查（验证客观正确性）、分析质量 Elo（成对比较）和呈现质量 Elo（成对比较），三者综合为 AA-Briefcase Elo。这种设计同时捕捉了"做对了没有"和"做得好不好"两个维度。

二、为什么"未被饱和"如此重要

在 AI 评测领域，基准饱和是一个公认的顽疾。当一个基准被公开足够久，实验室可以通过针对性训练、数据泄露或 prompt 工程来"刷榜"——模型的 benchmark 分数飙升，但实际能力并未同步提升。MMLU 在短短两年内从"具有挑战性"变成了"几乎所有前沿模型都接近满分"；GSM8K 和 HumanEval 同样经历了类似的饱和曲线。

AA-Briefcase 的发布时机使其天然具有抗饱和属性：

完全私有：四个评测场景均为私有的 hold-out 测试集，未公开泄露
刚发布：没有任何实验室有机会针对该基准进行定向优化
任务导向而非知识导向：成功完成任务需要综合运用规划、检索、推理、工具使用和格式呈现，而非单一维度的知识召回

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 在 X 上评价道："我曾对 AA 之前的智能体评测持批评态度，但这个基准看起来确实不错且令人印象深刻，它是针对真实世界知识工作的、不饱和的、带有私有 hold-out 测试的评测。"这一评价点出了 AA-Briefcase 最核心的价值：它提供的排名信号，比那些已被刷爆的基准更具信息量。

三、关键结果：GLM-5.2 超越 GPT-5.5

AA-Briefcase 的排行榜讲述了一个层次分明的故事。

第一梯队：Claude Fable 5 断层领先。 Anthropic 的 Mythos 级模型以 1587 Elo 高居榜首，领先第二名 Claude Opus 4.8（1356 Elo）超过 230 分。Fable 5 在分析质量、呈现质量和 rubric 通过率三个维度上均表现最优，且在整个评测中未使用 Opus 4.8 回退。

第二梯队：开源模型崛起。 最令人瞩目的结果是 GLM-5.2（max）以 1266 Elo 位列第三，超越了 OpenAI 的 GPT-5.5（xhigh，排名第四）。GLM-5.2 是智谱（Z.ai）发布的 753B 参数开源模型，采用 MIT 许可证，支持 100 万 token 上下文窗口。在 AA-Briefcase 上，它仅落后 Claude Opus 4.8 约 90 Elo 分，但每任务成本仅为 $2.40，不到 Opus 4.8（$10.40）的 25%。

第三梯队：性价比之争。 DeepSeek V4 Pro（max）同样表现不俗，与 GLM-5.2 一同被 Artificial Analysis 评为"最强性价比选择"。DeepSeek V4 Flash（max）更是将每任务成本压至 $0.04——与 Claude Fable 5 的 $31+ 相比，成本差距超过 800 倍。

AA-Briefcase 关键排名与成本：

模型	AA-Briefcase Elo	每任务成本
Claude Fable 5	1587	$31.00+
Claude Opus 4.8 (max)	1356	$10.40
GLM-5.2 (max)	1266	$2.40
GPT-5.5 (xhigh)	低于 GLM-5.2	$3.68
DeepSeek V4 Flash (max)	—	$0.04

四、真实世界的复杂性仍是巨大挑战

尽管排行榜上的竞争激烈，AA-Briefcase 也揭示了一个残酷的现实：即使是最强模型，距离真正可靠地完成复杂知识工作仍有巨大差距。

在所有 91 个任务中，有 31 个任务没有任何模型能达到 50% 以上的 rubric 通过率。Claude Fable 5 虽然整体领先，但在严格的全或无评分下，仅能完美完成 3% 的任务。

错误模式随模型能力呈现出有趣的分层现象：

弱模型：在基础执行层面就崩溃——遗漏关键文件、交付无法使用的成果、甚至完全无法产出
强模型：失败更加隐蔽——它们能满足表面需求，但会遗漏那些需要跨多个来源拼凑信息才能发现的细节

Artificial Analysis 还发现，任务难度与所需输入文件数量高度相关。对于每个 rubric 检查点，团队识别了通过所需的最小文件集合。当所需文件数超过 5 个时，即便是高表现模型（平均 rubric 通过率 ≥30%），其通过率也从约 55% 下降到约 40%。

五、评测方法论的演进：从静态到动态、从单步到多步

AA-Briefcase 的发布标志着 AI 评测方法论的一次重要转向。

传统评测可以概括为"模型有多聪明"——关注知识储备、推理深度和数学能力。而 AA-Briefcase 代表的新范式追问的是"模型能完成多复杂的真实任务"——关注规划、执行、工具使用、信息检索和多步协调。

这一转变与行业趋势高度吻合。2025–2026 年，AI 产业的核心叙事已从"更好的聊天机器人"转向"能自主工作的 AI 智能体"。Anthropic 的 Claude Code、OpenAI 的 Codex CLI、Devin 等 AI 编程智能体的崛起，以及企业内部对 AI 自动化知识工作流程的旺盛需求，都在推动评测标准的升级。

AA-Briefcase 的几个设计特点尤其值得关注：

长周期：多周项目意味着模型需要考虑跨时间的一致性和上下文延续
碎片化信息：与干净的结构化数据不同，Slack、邮件中混杂着噪音和矛盾
复合评分：不只看结果对不对，还看分析是否深入、呈现是否专业
专家构建：场景由真正做过这些工作的人设计，而非由 AI 研究者凭空想象

六、对产业的启示：智能体能力正在成为核心指标

AA-Briefcase 的结果对产业有三个关键启示。

第一，智能体能力正在取代传统知识/推理分数，成为模型选择的核心指标。 企业在选择模型时，关心的是"这个模型能不能独立完成一个分析师三天的工作"，而不是"这个模型在 MMLU 上多了 2 个百分点"。AA-Briefcase 直接回应了这一需求。

第二，开源模型的智能体能力正在逼近闭源前沿。 GLM-5.2 在 AA-Briefcase 上超越 GPT-5.5，DeepSeek V4 Pro 同样表现强劲。当开源模型在真实任务上能够匹敌甚至超越最昂贵的闭源模型，且成本仅为后者的零头时，企业采购决策的天平将大幅倾斜。Jeremy Howard 在 X 上评价 GLM-5.2 时称其"至少和 Opus 4.8、GPT-5.5 一样好"，并指出唯一的短板是缺乏视觉输入支持。

第三，评测本身正在成为产业基础设施。 Artificial Analysis 通过 AA-Briefcase、GDPval-AA、APEX-Agents-AA 等一系列评测构建了一个从知识到编码到智能体的完整评测矩阵。随着 AI 模型能力的快速演进，独立、透明、抗饱和的评测体系将成为行业不可或缺的"裁判"。

结语

AA-Briefcase 的出现，恰逢 AI 从"能说会道"向"能干会做"转型的关键节点。它不仅是一个新的排行榜，更是一面镜子——照出了当前模型的真实能力边界，也指明了前进的方向。当最佳模型也只能完美完成 3% 的任务时，我们离"AI 替代知识工作者"还有很长的路要走。但 GLM-5.2 以开源之姿超越 GPT-5.5 的事实也提醒我们：这条路，正在以超出预期的速度被缩短。

摘要