概述
2025年初,AI系统完成了一次质变:从对话助手(回答问题)跃升为自主智能体(采取行动)。三项标志性发布定义了这一转变:
- 2024年10月28日:Anthropic以公开测试版发布Claude计算机使用(Computer Use)——首个商业可用的、允许AI查看屏幕并控制键盘鼠标的API
- 2025年1月23日:OpenAI推出Operator——一个能够自主浏览网页、填写表单、下订单并完成多步骤任务的AI智能体
- 2025年2月2日:OpenAI发布Deep Research(深度研究)——一个能进行多小时自主研究任务的智能体,可将数百份来源综合成分析师级别的报告
这三项发布共同标志着智能体AI作为主流产品类别的到来。
Claude计算机使用
2024年10月28日,Anthropic通过API以公开测试版提供了Claude的计算机使用能力。这使AI能够:
- 截取屏幕截图并理解屏幕内容
- 移动光标并点击元素
- 向文本框中输入内容
- 浏览应用程序和网站
- 执行动作序列以完成目标
与浏览器自动化工具(Selenium、Playwright)不同,Claude计算机使用在可视界面层面运作——与人类与计算机的交互方式相同——这使其无需自定义集成便可泛化到任何应用程序。
OpenAI Operator
2025年1月23日,OpenAI为美国Pro用户推出了Operator。Operator由新模型**计算机使用智能体(CUA)**驱动——结合GPT-4o视觉与强化学习——可以:
- 自主浏览任何网站
- 处理登录流程、购物车、表单提交
- 预订餐厅、订购杂货、填写申请
- 从错误中恢复并尝试替代方案
关键基准:OSWorld得分38.1%(人类基线:约72%);WebArena:58.1%。
Operator代表了主要AI公司首次将自主网络智能体作为消费品发布。其局限性同样具有启发性:它在CAPTCHA、复杂多页面工作流和需要现实判断的任务上表现挣扎。Operator最终于2025年7月17日并入统一的"ChatGPT智能体"。
OpenAI Deep Research
2025年2月2日,OpenAI发布了Deep Research——一个为长周期知识任务设计的智能体工具。给定一个研究问题,它会:
- 将问题分解为子查询
- 自主浏览和阅读数十到数百个网络来源
- 将发现综合为有引用的结构化报告
- 在5–30分钟内完成任务
Deep Research代表了一个新类别:AI作为研究分析师,而非对话助手。
MCP基础设施层
支撑智能体生态系统的是Anthropic于2024年11月25日发布的模型上下文协议(MCP)——一个开放标准,允许AI模型通过标准化连接器(“工具”)连接到任何数据源。
到2026年3月,MCP已突破9700万次安装。Linux基金会宣布将MCP纳入开放治理——标志着其从实验性协议向基础AI基础设施的转变,类似于HTTP之于万维网。
为何意义深远
从对话AI到智能体AI的转变,是自ChatGPT公开发布以来人类与AI交互方式最重大的变化:
新型失效模式:智能体AI系统可能造成现实世界后果——发送邮件、进行购买、执行代码——这些可能难以撤销。安全研究从"防止有害输出"转向"防止有害行为"。
经济颠覆加速:Copilot可以帮助开发者;智能体可以成为开发者、律师、研究员或分析师。经济替代潜力从增强扩展到替代。
信任架构:智能体AI需要新框架:哪个智能体拥有哪些权限、如何审计行为、何时保持人类参与。企业采用需要解决授权、可审计性和范围限制的问题。
提示注入威胁:浏览网络的智能体容易受到旨在重定向其行为的对抗性网络内容的攻击——这是一个没有现成防御框架的新攻击面。