当 Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5 时,外界的第一反应集中在性能数字上:SWE-bench Pro 从 58.1% 跃升至 63.2%,FrontierCode 从 15.1% 翻倍至 38.8%,BrowseComp 从 76.2% 提升至 84.7%。这些当然令人印象深刻,但它们不是这个故事里最值得关注的部分。
Sonnet 5 真正的信号藏在它的 API 设计里。Anthropic 对开发者与模型的交互方式做了三个根本性的改动——每一处都是在移除「旋钮」。这三个设计决策背后有一个共同的逻辑:在 Agent 时代,模型不应该再是一台等待人类调参的推理引擎,而应该是能够自主判断「该想多深」「该有多随机」「该用多少 token」的智能体。
这不是一次普通的模型升级,这是一份关于「Agent 时代的模型应该长什么样」的架构宣言。
破坏性设计一:自适应思考——模型自行决定推理深度
在 Sonnet 4.6 时代,想让 Claude 做深度推理,你需要手动设置 thinking: {type: "enabled", budget_tokens: 32000}。这是一个精确但笨拙的机制:你需要为每次请求预先分配一个思考预算,既担心给少了推理不充分,又担心给多了浪费 token。
Sonnet 5 彻底终结了这种方式。thinking: {type: "enabled", budget_tokens: N} 直接返回 400 错误。替代它的是自适应思考(Adaptive Thinking)——而且默认开启。
技术原理
自适应思考的核心机制是:模型在收到请求后,自行评估任务复杂度,动态决定是否需要扩展推理以及推理的深度。根据 Anthropic 的技术文档,在默认的 high 努力级别下,Claude「几乎总是会思考」;在 medium 级别下,模型可能对简单查询跳过思考;在 low 级别下,思考被最小化,只有在速度至关重要的场景中才跳过。
开发者不再指定思考的 token 预算,而是通过 effort 参数提供软性指导:
| 努力级别 | 模型行为 |
|---|---|
max |
无条件深度思考,无深度约束 |
xhigh |
始终深度思考,允许扩展探索 |
high(默认) |
几乎总是思考,复杂任务深度推理 |
medium |
适度思考,极简单查询可能跳过 |
low |
最小化思考,速度优先场景跳过推理 |
关键技术细节:自适应思考还自动启用了交错思考(interleaved thinking)——模型可以在工具调用之间进行推理,这对多步 agentic 工作流至关重要。在旧的手动模式下,Sonnet 4.6 需要 interleaved-thinking-2025-05-14 beta header 才能实现这一功能;而现在它是内置的。
对推理成本与延迟的实际影响
自适应思考带来的第一个明显变化是输出结构的变化:响应中现在包含 thinking blocks,且 max_tokens 现在是 thinking + 响应文本的总硬限制。这意味着为 Sonnet 4.6 文本输出校准的 max_tokens 值可能被 thinking blocks 消耗掉。
从成本角度看,thinking tokens 按输出 token 计费。但 display 默认值从 Sonnet 4.6 的 "summarized" 变为 "omitted"——思考内容默认不返回给用户,只保留加密的 signature 字段用于多轮对话续接。好处是流式响应中更快到达首个文本 token(因为服务器跳过流式传输 thinking tokens),但计费不变——你仍然为完整的思考过程付费。
对于那些需要精确控制推理成本的工作负载,自适应思考确实意味着失去了一部分预算可预测性。Anthropic 的建议是:用 max_tokens 做硬上限,用 effort 做软引导,以及——如果模型思考得「太多」或「太少」——通过 system prompt 来引导,例如追加 "Please think hard before responding." 或 "Answer directly without deliberating."。
这本质上是从「预算制」转向了「意图制」:你不告诉模型花多少钱,你告诉它这件事值不值得认真想。
破坏性设计二:夺走温度旋钮——移除经典采样参数
如果说自适应思考是 Sonnet 5 最显眼的变化,那么移除采样参数可能是最具哲学意味的。
在 Sonnet 5 上,设置 temperature、top_p、top_k 为非默认值会直接返回 400 错误。你可以传默认值,也可以干脆不传——但你不能调。
Anthropic 的论据
这一变化并非突然降临。Opus 4.7 和 Opus 4.8 已经率先移除了这些参数,Sonnet 5 是第一个继承这一约束的 Sonnet 级模型。Anthropic 的立场很明确:在自适应思考系统内部,模型已经自行管理了输出的变异性——不需要开发者在外部再拧一个旋钮。
官方文档给出的替代方案也耐人寻味:如果你想控制输出的「创造性」或「确定性」,用 system prompt 指令来表达。不再说 temperature=0.3,而是用自然语言告诉模型「请给出最确定、最保守的回答」。
从「调参」到「信任模型判断」的范式转移
对很多开发者来说,这是一次令人不安的转变。temperature 参数自神经网络语言模型诞生之初就是核心控制手段——它几乎是「与模型交互」的原始语法的一部分。移除它意味着 Anthropic 认为:好的模型不应该需要开发者来管理熵。
这种逻辑在 Agent 场景下尤其成立。当一个 Agent 在自主执行多步任务——调用工具、读取文件、做出决策——你不可能在每一步都手动调整 temperature。Agent 需要自己判断什么时候需要确定性(比如执行数据库查询)、什么时候需要发散性(比如头脑风暴解决方案)。自适应思考系统在内部完成了这个判断。
ChatForest 的技术分析指出:「如果你的代码大量依赖 temperature 或其他采样参数来控制输出变异性,替代方案是 system prompt 指令。Sonnet 5 的自适应思考系统在内部处理了方差。」
这里有一个更大胆的隐含前提:Anthropic 认为他们对「正确」的采样行为有更好的判断——比开发者针对特定场景手动调参更好。这是否成立,取决于你的使用场景:对大多数通用任务,可能是的;对需要极端确定性的特定场景(比如某些法律或金融文本生成),被剥夺控制权可能会引起不适。
破坏性设计三:新分词器——被低估的 30% 隐形成本
在三项变化中,新分词器是最安静、最不会导致报错、也是影响最深远的。Sonnet 5 使用了与 Opus 4.7 类似的新分词器,同样的输入文本产生的 token 数量大约增加了 30%(Anthropic 官方给出的范围是 1.0–1.35 倍,取决于内容类型)。
换来了什么?
新分词器的收益是性能。Anthropic 明确表示,分词器的更新是 Sonnet 5 性能提升的重要组成部分——它改变了模型处理文本的方式,使得模型在推理、编码和工具使用等任务上表现更好。这类似于 Opus 4.7 引入分词器变更时的逻辑:将文本切分成更细粒度的 token 提高了模型的理解精度,但代价是同样的文本消耗更多 token。
语言依赖的隐形成本
Simon Willison 使用其 Claude Token Counter 工具对不同语言进行了实测,结果揭示了新分词器的成本结构在不同语言间差异巨大:
- 英语:《世界人权宣言》英文版从 2,356 token 增至 3,341 token(1.42×)
- 西班牙语:同一文件西班牙语版从 3,572 token 增至 4,747 token(1.33×)
- 简体中文:同一文件中文版从 3,334 token 仅增至 3,360 token(1.01×),几乎不变
- Python 代码:一个 4,279 行的 Python 文件从 44,014 token 增至 56,113 token(1.27×)
这意味着,对于重度使用英语文本和代码的开发者,实际成本上升可能接近 30% 甚至更高;而对于中文用户,分词器变化的影响几乎可以忽略不计。
定价的「障眼法」
Anthropic 将 Sonnet 5 的标准定价设定为 $3/MTok 输入、$15/MTok 输出——与 Sonnet 4.6 的每 token 价格完全相同。到 2026 年 8 月 31 日之前还有 $2/$10 的推广价。但每 token 价格不变掩盖了一个事实:同样的请求消耗了更多 token。
具体来说,在推广期结束后,如果一个英语 prompt 在 Sonnet 4.6 上消耗 1,000 token(成本 $3),在 Sonnet 5 上同等内容将消耗约 1,300–1,420 token(成本 $3.90–$4.26)。这种「不变单价 + 更多 token = 实际涨价」的做法并非 Anthropic 首创——Opus 4.7 发布时采取了同样的策略——但它是开发者做迁移决策时必须校准的隐性变量。
更微妙的影响在于上下文窗口:Sonnet 5 的上下文窗口是 1M token,但由于每个 token 覆盖的文本变少了,窗口实际容纳的「有效文本量」大约相当于 Sonnet 4.6 的 770K token。对于长文档处理场景,这是需要重新规划的。
Agentic 基础设施:1M 上下文 + 128K 最大输出
除了三个破坏性设计,Sonnet 5 还携带了两项对 agentic 工作流至关重要的规格参数:默认 1M token 上下文窗口和 128K token 最大输出(通过 beta header 可达 300K)。
这些数字不是孤立的。在 agentic 场景中,一个典型的编码 Agent 可能需要在一次会话中加载整个代码库、多轮工具调用结果、以及逐步积累的上下文——1M 的窗口意味着可以在上下文中保持数万行代码、数十个文件的完整内容,而不需要频繁的上下文压缩或重置。
128K 的输出能力则为 Agent 的「单次行动半径」提供了更大的空间。一个生成完整 PR 的 Agent 可能需要输出数千行代码变更、测试文件和文档;一个执行法律分析的 Agent 可能需要输出数十页的结构化分析。传统的 4K–8K 输出限制需要多轮交互来拼接结果,128K 使单轮完成复杂输出的可能性大大增加。
自适应思考 + interleaved thinking + 1M 上下文 + 128K 输出,这四个要素的组合构成了 Anthropic 对「Agent 时代的模型应该长什么样」的完整答案:一个能够自主管理推理深度、在工具调用之间持续思考、在巨大上下文中保持连贯、并在单轮中输出完整结果的智能体。
更大图景:当整个行业一起拧掉旋钮
Sonnet 5 的这三项变化不是孤立事件。它们是一条更长的演进轨迹上的最新节点:
- Opus 4.7(2026 年初):首次引入新分词器,移除 temperature/top_p/top_k
- Opus 4.8(2026 年 5 月):自适应思考成为唯一支持的思考模式
- Sonnet 5(2026 年 6 月):三项变化首次同时落地在 Sonnet 级模型上
在 Anthropic 的最高端模型——Fable 5 和 Mythos 5——思考已经被锁定为「始终开启、不可关闭」状态。行业趋势的箭头指向同一个方向:减少开发者的控制旋钮,增加模型的自主决策空间。
这种转向的驱动力是务实的。Agent 场景中的多步工具调用、自主规划和错误恢复,天然要求模型能够在运行时自行判断推理深度和输出策略。外部调参在这种场景下不仅效能有限——它根本不可操作:你无法为 Agent 的每一步行动都预设 temperature。
但代价也是真实的。对于习惯了精细控制推理预算和采样行为的开发者——尤其是那些在特定场景下通过调参获得过显著收益的团队——这种「信任模型」的范式转移可能带来一段适应期。Sonnet 5 的系统卡也承认了这一点:在某些指标上,新模型确实表现出更高的「过度拒绝」(over-refusal)率,而其自动化行为审计中的失调行为率虽然低于 Sonnet 4.6,却高于更强大的 Opus 4.8 和 Mythos Preview。
从 Sonnet 4.6 到 Sonnet 5 的架构演进,折射出一个更大的行业命题:当模型变得足够强大,给予用户更多控制权和让模型自主决策推理策略之间的最优平衡点在哪里? Anthropic 给出的回答是:平衡点应该向模型一侧大幅偏移。其他实验室是否跟随,将是未来一年最值得观察的技术路线分歧之一。
Sonnet 5 的迁移成本并不算高:三个代码修改(thinking、采样参数、extended thinking),一次预算重校准(分词器),再加上对 Bedrock 旧版 API 用户的平台迁移。但它的设计哲学含义远超技术变更清单——它标志着 Anthropic 正在系统性地将「推理策略决策权」从开发者手中转移到模型内部。
在一个 Agent 开始自主操作浏览器、终端和代码库的世界里,或许 Anthropic 是对的:你不可能一边让 AI 自主工作,一边还紧握着它的温度旋钮不放。

