概述
2025年5月22–23日,Anthropic同时发布了Claude Opus 4和Claude Sonnet 4——这是其迄今最强大的模型家族。此次发布标志着Anthropic定位的决定性转变:Claude不再主要是对话助手,而是为智能体工作而设计的AI,能够持续、多小时地自主完成任务。
Claude Opus 4在SWE-bench Verified上取得72.5%的分数——发布时任何模型在这一编码基准上取得的最高分,超越了Claude 3.7此前70.3%的记录。
核心能力
扩展智能体工作流
根据Anthropic的说法,Claude 4的首要设计目标是多小时自主任务中的可靠性。此前的模型(包括Claude 3.7)可以处理单次会话中的扩展推理,但在跨越数小时或数天的持续工作流中质量会下降或丢失上下文。Claude 4解决了:
- 上下文持久性:在长时间操作中保持连贯的任务状态
- 错误恢复:检测子任务失败并无需人工干预重新规划
- 工具使用保真度:更一致、更准确地使用代码执行、文件访问、网络浏览和外部API
Claude Code
Anthropic同步将Claude Code——随Claude 3.7预览版发布的基于终端的AI编程智能体——扩展为完整产品。Claude Code能够:
- 自主导航和修改大型代码库
- 在迭代循环中编写、测试和调试代码
- 处理多文件重构和架构变更
- 作为软件工程"团队成员"在后台运行
安全架构
与Anthropic的"负责任扩展政策"一致,Claude 4发布时附有详细的安全卡,记录了:
- 危险能力评估(生化武器提升、网络攻击、CBRN风险)
- 欺骗、操控和自主阈值的行为测试结果
- 部署前红队演练方法论
Claude 4.x迭代周期
初始发布后,Anthropic持续推出能力更新:
| 模型 | 发布日期 | 主要改进 |
|---|---|---|
| Claude Opus 4 | 2025年5月22日 | 初始发布,SWE-bench 72.5% |
| Claude Sonnet 4 | 2025年5月23日 | 快速/低成本tier |
| Claude Opus 4.5 | 2025年11月24日 | 增强长上下文处理 |
| Claude Opus 4.6 | 2026年2月5日 | 改进工具使用,减少拒绝 |
| Claude Sonnet 4.6 | 2026年2月17日 | 生产级能力更新 |
| Claude Opus 4.7 | 2026年4月16日 | 最新前沿模型 |
背景:Anthropic的使命与商业现实
Anthropic的既定使命是"为人类的长期利益负责任地开发和维护先进AI"。Claude 4是他们最直接的一次论证:这一使命与前沿能力开发在商业上是相容的。
时机颇具意义:Anthropic刚刚完成了一轮大规模融资,Claude的API收入是其主要商业验证。Claude 4的智能体能力——尤其是企业软件开发、研究和数据分析工作流——被定位为持续前沿投入的核心商业理由。