Browser / Computer-Use / Terminal / Coding 四类 Agent 对比
这四类 Agent 的区别,本质上是运行环境和操作界面的选择——它们决定了 Agent 能做什么、怎么跟世界交互、以及你的控制程度。
一、先理清每类 Agent 的定义
Browser Agent(浏览器 Agent)
在网页浏览器内操作,通过理解网页 DOM 结构(HTML/可访问性树)和/或截图,完成点击、填表、导航、数据抓取等任务。
核心特征:只看网页、只在网页里动。它的"世界"是浏览器窗口里的 DOM 和像素。
操作方式主要有两种:来源
- 扩展/插件型:在你自己的浏览器里跑(如 FillApp、Claude for Chrome)
- 独立浏览器型:Agent 启动自己的浏览器实例(如 OpenAI Operator、ChatGPT Atlas、Perplexity Comet)
代表产品:Firecrawl 的汇总
- OpenAI Operator(CUA 模型驱动,独立浏览器,订阅制)
- Browser Use(开源框架 + Playwright,支持多模型)
- Claude for Chrome(Anthropic 的浏览器扩展)
- ChatGPT Atlas(Chromium 内核,内置 agent 模式)
- Perplexity Comet、Dia 等 AI-first 浏览器
Computer-Use Agent(桌面操控 Agent)
在完整的桌面操作系统内操作,像人一样"看屏幕、移动鼠标、敲键盘",可以操控任意桌面应用——不限于浏览器。
核心特征:视觉驱动——截图是主要输入,鼠标/键盘是主要输出。可以跨应用操作(浏览器 + Excel + 文件管理器 + 邮件客户端…)。
两种架构范式:来源
| 架构 | 原理 | 优点 | 缺点 |
|---|---|---|---|
| End-to-End (E2E) | 一个 VLM 处理全部 loop:截图→推理→动作 | 稳定、错误链短 | 不透明、难调试 |
| Composed(组合式) | 拆成 Grounding(UI 元素检测)→ Planning → Execution | 可控、可解释 | 误差传播、复杂度高 |
代表产品:
- Anthropic Claude Computer Use — API 调用,在沙盒 VM 中运行,纯视觉驱动 来源
- Claude Cowork — 本地 macOS 桌面 App,直接操作你的真实桌面 来源
- OpenAI Computer Use Preview — 云端托管运行时,通过 Responses API 调用
- Simular Agent S3 — 开源框架,采用 bBoN(行为 Best-of-N)策略,OSWorld 榜首(72.6%)来源
- Open Interpreter (OS Mode) — 本地运行,直接访问你的文件系统
- UiPath Screen Agent — 企业级,OSWorld 67.1%
OSWorld 基准(模拟真实桌面任务)上,目前最好的 Agent S3 达到 72.6%,人类基线约 72%,说明这个领域距离实用已经不远了 来源。
Terminal Agent(终端 Agent / CLI Agent)
在命令行 shell 中运行,通过读写文件、执行 shell 命令、调用工具来完成编程和系统管理任务。文本输入输出为主。
核心特征:代码优先——它理解的是代码仓库、文件树、终端输出,不是像素和按钮。它不依赖视觉,而是依赖文件系统 API 和 shell。
Real Python 将 Terminal Agent 归为 Coding Agent 四大 workflow 之一(IDE / Terminal / PR / Cloud),并明确指出:terminal agent "in your shell — you describe a task, and the agent reads files, proposes edits, and runs commands" 来源。
代表产品:来源
- Claude Code — Anthropic,SWE-bench Verified 80.9%,代码质量最高 来源
- Codex CLI — OpenAI,Rust 编写,Terminal-Bench 2.0 77.3%,token 效率约 4 倍优于 Claude Code
- Gemini CLI — Google,100 万 token 上下文,免费额度慷慨
- Aider — 老牌开源 terminal agent
- OpenCode — 开源、模型无关的灵活选择
Coding Agent(编程 Agent)— 一个更宽泛的概念
Coding Agent 是上述 Terminal Agent 的超集。Real Python 的定义是:任何能够自主执行 "Read → Reason → Act → Evaluate" loop 的编程辅助工具,无论运行在哪里 来源。
四大子类:
| 子类 | 运行环境 | 交互模式 | 代表产品 |
|---|---|---|---|
| IDE Agent | 代码编辑器内 | 实时内联编辑,diff 预览 | Cursor, Windsurf, GitHub Copilot, Kiro |
| Terminal Agent | Shell 命令行 | 逐步骤审批 | Claude Code, Codex CLI, Gemini CLI, Aider |
| PR Agent | 版本控制平台 | 异步自动审查 | CodeRabbit, GitHub Copilot Code Review |
| Cloud Agent | 远程托管环境 | 高度自主,事后检查 | Devin, Claude Code on Web, Cursor Cloud Agents |
关键认知:同一个产品常常横跨多个类别。Claude Code 同时是 terminal agent + IDE agent(VS Code/JetBrains 扩展)+ cloud agent(Web 版)+ PR agent(Code Review)来源。Cursor 也覆盖全部四种 workflow 来源。
二、核心维度对比表
| 维度 | Browser Agent | Computer-Use Agent | Terminal Agent | Coding Agent(宽泛) |
|---|---|---|---|---|
| 运行环境 | 浏览器窗口 | 完整桌面 OS | Shell / 终端 | IDE / Shell / PR / Cloud |
| 主要输入 | DOM 树 + 截图 | 桌面截图(像素) | 代码文件 + 命令输出 | 代码仓库 + 指令 |
| 主要输出 | 点击、键入、导航 | 鼠标移动/点击、键盘 | 文件编辑、shell 命令 | 代码修改、PR、部署 |
| 操作范围 | 仅网页 | 任意桌面应用 | 文件系统 + 命令行 | 整个软件开发生命周期 |
| 驱动方式 | DOM 解析 或 视觉 | 以视觉为主 | 文本/API | 混合 |
| 自主程度 | 中(可后台) | 中-低(慢,需监督) | 中(逐步审批或自动) | 从低(IDE 补全)到高(Cloud Agent) |
| 速度 | 快(秒级) | 慢(2-5秒/动作) | 快(秒级) | 视 workflow 而定 |
| 可靠性 | WebVoyager ~87-89% | OSWorld ~63-73% | SWE-bench ~80%+ | 视基准而定 |
| 安全模型 | 域名白名单、中间件 | 沙盒 VM、screenshot 监控 | 权限审批、checkpoint 回滚 | 按 workflow 不同 |
三、边界模糊与重叠地带
这四类 Agent 之间的界线正在快速模糊:
OpenAI Operator 既是 browser agent(只在浏览器操作),又被称为 Computer-Using Agent(CUA),因为它用的是视觉推理而非传统 DOM 选择器。实际上它是"只操控浏览器的 computer-use agent"。
Claude Code vs Claude Cowork:前者是 terminal agent(在 shell 里改代码),后者是 computer-use agent(在桌面操控任意 App),但底层的 agent 设计相同 来源。
Browser Use 这个开源框架可以用多种模型(Claude、GPT、Gemini),既能当纯 browser agent 用,也能接入 computer-use 场景。它在 WebVoyager 上达到 89%,超过 Operator 的 87% 来源。
Agent 框架(LangChain、CrewAI 等) 可以把这些 agent 串起来:一个 terminal agent 改代码 → 一个 browser agent 测试网页 → 一个 PR agent 审查。
四、如何选择:按场景决策
选 Browser Agent,当你:
- 任务是纯 web 操作:填表、数据采集、跨站流程、电商下单
- 需要速度快、成本低
- 想要最大灵活性 → 开源方案 Browser Use
- 想要开箱即用 → OpenAI Operator($200/月 Pro)
选 Computer-Use Agent,当你:
- 需要操作非 web 桌面应用(Excel、邮件客户端、ERP 系统、遗留软件)
- 系统没有 API、传统 RPA 无法胜任
- 追求最大操作范围 → Claude Cowork(本地 macOS)
- 需要生产级企业方案 → UiPath Screen Agent 或 Simular Agent S3
选 Terminal Agent,当你:
- 你做的是代码开发和系统管理
- 你习惯命令行工作流
- 代码质量第一 → Claude Code(SWE-bench 80.9%)
- 速度和 token 效率第一 → Codex CLI
- 预算紧张但需要大上下文 → Gemini CLI(免费 + 1M 上下文)
选 Cloud / IDE / PR Agent(Coding Agent 的子类),当你:
- 需要 IDE 内实时协作 → Cursor、Windsurf
- 想把任务丢到后台异步跑 → Devin、Claude Code on Web
- 想在 CI 流程中自动审查 → CodeRabbit、GitHub Copilot Code Review
五、尚需核实的点
- 跨平台一致性的数据:不同 benchmark 之间可比性有限(WebVoyager vs OSWorld vs SWE-bench 测的是完全不同的事),没有单一权威的横向测评将所有四类 agent 放在同一个任务集上比较。
- 中文场景表现:上述主流 benchmark 和产品评测以英文任务为主,中文 web / 桌面环境下的实际表现尚缺乏系统性的公开基准。
- 安全性在生产中的实际成效:目前对各类 agent 安全机制的讨论以设计层面为主,真正的生产环境漏洞报告和攻击面分析仍然零散。
一句话总结:Browser Agent 管网页,Computer-Use Agent 管整个桌面,Terminal Agent 管代码和命令行,Coding Agent 是前者的超集——四者本质上是同一套 agent 架构(Observe → Reason → Act → Evaluate)在不同操作界面上的实例化。