推理模型(reasoning models)在数学、编程等领域的统治力已无需多言。但当这套"思考后再回答"的范式被搬到视觉任务上时,事情开始变得微妙起来——社区一位开发者用 2070 次系统测试给出了一个反直觉的结论:视觉语言模型(VLM)思考得越多,反而看得越糟。
2070 次测试的方法论
6 月 21 日,Reddit 社区 r/LocalLLaMA 上一位开发者发布了其"最佳本地视觉模型"基准测试的第二轮更新。这次测试的规模相当可观:23 个模型 × 30 张图像 × 3 次重复运行 = 2070 次独立测试,总计耗费 60–70 个推理小时。测试覆盖了 Qwen 全系列(包括最新的 Qwen3.6)、Gemma 4 系列、以及多个 MoE(Mixture-of-Experts)变体,量化精度从 Q4 到 Q8 不等。
与第一轮相比,本轮测试新增了两个关键维度:thinking 模式与 non-thinking 模式的对比,以及小模型上 Q8 与 Q4 量化的对比。正是这两个维度的加入,揭示了此前被忽略的重要发现。
发现一:推理模式系统性拖累视觉表现
这是整个测试中最令人意外的发现:在所有 Qwen 混合推理模型(hybrid thinker)上,关闭 thinking 模式(enable_thinking=false)的得分始终高于开启 thinking 模式。
这个结果并非细微差异,而是系统性的、跨模型尺寸一致的。从 4B 到 27B,从 Qwen3.5 到 Qwen3.6,无一例外。最佳模型 Qwen3.6 27B Q4(nothink)以 79.6/100 的得分登顶,而开启 thinking 模式后得分反而下降。
为什么?测试者的解释直指核心:视觉理解本质上是感知(perception)任务,而非推理(reasoning)任务。 当模型被要求"先思考再回答"时,额外的推理步骤引入了两类破坏性因素:一是增加了输出的不稳定性——推理链中的早期错误会被后续步骤放大;二是引入了超时风险——实际上,Qwen 3.5 的两个 thinking 模型分别在 3 张和 4 张图像上发生了超时,直接导致测试失败。
这一发现并非孤例。在另一篇几乎同期发布的 Reddit 帖子中,另一位测试者也报告了类似现象:Qwen 3.5 thinking 模型在视觉基准测试中出现了超时,而 Qwen 3.6 MoE 旗舰版(同为 thinking 模型)则没有超时——这暗示 Qwen 3.6 在推理效率上有所改进,但 thinking 对视觉任务的负面影响依然存在。
发现二:MoE 架构在视觉任务上表现不佳
第二个反直觉的结论是:MoE 架构的"大参数"优势在视觉任务上几乎完全失效。 测试中,MoE 模型的视觉得分与参数量小得多的密集(dense)模型基本持平,甚至在某些场景下处于劣势。
这背后的原因值得深思。MoE 架构的核心设计哲学是用"知识广度"换取"参数效率"——通过路由机制,每次推理只激活一部分专家,从而在可控的计算预算下覆盖更广泛的知识领域。但视觉感知任务需要的恰恰不是"广度",而是**"感知深度"**——对图像中每个像素、每个区域的精确理解和持续关注。MoE 的路由切换机制在视觉任务中可能反而打断了这种连续的感知注意力流。
正如近期一篇被 ICML 2026 接收的论文所指出的:在对 Qwen3-VL-8B 的错误答案进行分析时,86.9% 的错误源于视觉感知失败,而非逻辑推理失败。当问题本身出在"看"而不是"想"时,增加更多的"思考"参数非但无益,反而可能分散模型对视觉输入的注意力。
发现三:Q8 量化并非普遍优于 Q4
量化精度的选择一直是本地部署的核心权衡。常规认知是 Q8 量化应该全面优于 Q4——更少的精度损失意味着更好的模型表现。但这次测试揭示了一个更复杂的图景:
- 对于 Gemma 4 系列,Q8 量化确实带来了显著提升,验证了常规认知。
- 但对于 Qwen hybrid thinker 系列,Q8 量化反而严重损害了表现。Q4 量化下的得分反超 Q8。
这一不对称现象可能与 Qwen 混合推理模型的特殊架构有关。Hybrid thinker 在训练时同时学习了 thinking 和 non-thinking 两种行为模式,权重分布可能对量化精度有不同的敏感度。Q8 量化在保留更多细节的同时,也可能放大了 thinking 模式下的不稳定性——而 Q4 量化虽然精度更低,却意外地起到了某种"正则化"效果,抑制了过度推理的倾向。
学术界正在形成共识
这个来自社区的发现并非孤立事件。事实上,2025–2026 年的学术界正从多个角度独立验证同一个核心命题:推理能力与视觉感知之间存在根本性的张力。
ICLR 2026 接收的 VAPO 论文("More Thought, Less Accuracy?")系统性地揭示了这一"双重性质":多模态推理在增强模型逻辑推理能力的同时,会逐渐削弱其感知基础。研究者将这种现象命名为**"视觉遗忘"(visual forgetting)——随着推理链的延长,模型对视觉输入的注意力持续衰减,最终导致在基本视觉问题上出现识别失败。VAPO 论文的关键发现之一振聋发聩:"模型思考得越努力,就看得越糟。"**
CVPR 2026 接收的另一篇论文("Deeper Thought, Weaker Aim")从注意力机制的角度给出了更微观的解释:在多步推理过程中,模型的视觉注意力会变得分散,逐渐偏离与问题相关的关键区域,从而"失去对视觉输入的聚焦"。研究者提出的 VRGA(Visual Region-Guided Attention)框架通过选择视觉注意力头并重新加权,在不重新训练的情况下有效缓解了感知退化。
ACL 2026 接收的 GPRO 论文("Addressing Overthinking in Large Vision-Language Models")进一步指出,稳定的推理必须建立在低层视觉 grounding 之上,而推理错误往往源于不完美的感知,而非推理深度不足。该论文提出的门控感知-推理优化(GPRO)通过动态路由机制,在感知路径和推理路径之间按需分配计算资源。
更早的学术线索同样指向这一方向。Apple 在 2025 年 6 月发表的"The Illusion of Thinking"论文发现,推理模型的思维 token 使用量在达到某个阈值后反而会下降,暗示推理能力存在根本性的天花板。Anthropic 的研究则揭示了 Chain-of-Thought 的忠实性(faithfulness)问题——模型在推理链中经常隐瞒真实的信息处理过程,使得"思考"本身的可信度存疑。
最佳模型与实用建议
综合所有测试结果,目前本地视觉模型的最佳选择是:
- 绝对性能最优:Qwen3.6 27B Q4(关闭 thinking),得分 79.6/100。这是目前单个消费级 GPU 可运行的最强视觉模型。
- 性价比最优:Qwen3.5 4B(nothink)@ Q4,仅需 3.2 GB 显存,得分 75.5/100,每 GB 显存的得分效率最高。
- 中等显存下的稳健选择:Qwen3-VL 8B @ Q8,需 8.1 GB 显存,得分 74.4/100。
对于实际部署,最重要的启示是:在视觉任务中,始终优先关闭 thinking 模式进行测试。 如果模型支持 enable_thinking 参数,将其设为 false 很可能带来显著的准确率提升和延迟降低。只有在需要对图像进行复杂的多步逻辑推理(如数学题、图表分析)时,才考虑启用 thinking 模式——但即便如此,也需要警惕感知退化可能带来的连锁错误。
结语
一个社区开发者用 2070 次测试撬动了一个重要的研究方向。当推理模型在数学和编程领域高歌猛进时,视觉领域正在发出一个清晰的信号:"看"和"想"可能需要的不是更多的融合,而是更清晰的边界。 学术界正在从"视觉遗忘""注意力分散""感知-推理张力"等多个角度系统性地验证这一命题。对于从业者而言,最简单的行动项是:在部署 VLM 处理视觉任务时,先把 thinking 关掉试试——你可能会惊讶于模型"少想多看"反而做得更好。

