所有事件
model-release
☆ 世家

Claude 4:Anthropic的智能体前沿

概述 2025年5月22–23日,Anthropic同时发布了Claude Opus 4和Claude Sonnet 4——这是其迄今最强大的模型家族。此次发布标志着Anthropic定位的决定性转变:Claude不再主要是对话助手,而是为智能体工作而设计的AI,能够持续、多小时地自主完成任务。 Claude Opus 4在SWE-bench Verified上取得72.5%的分数——发布时任何模型在这一编码基准上取得的最高分,超越了Claude 3.7此前70.3%的记录。 …

2025-05-22

概述

2025年5月22–23日,Anthropic同时发布了Claude Opus 4Claude Sonnet 4——这是其迄今最强大的模型家族。此次发布标志着Anthropic定位的决定性转变:Claude不再主要是对话助手,而是为智能体工作而设计的AI,能够持续、多小时地自主完成任务。

Claude Opus 4SWE-bench Verified上取得72.5%的分数——发布时任何模型在这一编码基准上取得的最高分,超越了Claude 3.7此前70.3%的记录。

核心能力

扩展智能体工作流

根据Anthropic的说法,Claude 4的首要设计目标是多小时自主任务中的可靠性。此前的模型(包括Claude 3.7)可以处理单次会话中的扩展推理,但在跨越数小时或数天的持续工作流中质量会下降或丢失上下文。Claude 4解决了:

  • 上下文持久性:在长时间操作中保持连贯的任务状态
  • 错误恢复:检测子任务失败并无需人工干预重新规划
  • 工具使用保真度:更一致、更准确地使用代码执行、文件访问、网络浏览和外部API

Claude Code

Anthropic同步将Claude Code——随Claude 3.7预览版发布的基于终端的AI编程智能体——扩展为完整产品。Claude Code能够:

  • 自主导航和修改大型代码库
  • 在迭代循环中编写、测试和调试代码
  • 处理多文件重构和架构变更
  • 作为软件工程"团队成员"在后台运行

安全架构

与Anthropic的"负责任扩展政策"一致,Claude 4发布时附有详细的安全卡,记录了:

  • 危险能力评估(生化武器提升、网络攻击、CBRN风险)
  • 欺骗、操控和自主阈值的行为测试结果
  • 部署前红队演练方法论

Claude 4.x迭代周期

初始发布后,Anthropic持续推出能力更新:

模型 发布日期 主要改进
Claude Opus 4 2025年5月22日 初始发布,SWE-bench 72.5%
Claude Sonnet 4 2025年5月23日 快速/低成本tier
Claude Opus 4.5 2025年11月24日 增强长上下文处理
Claude Opus 4.6 2026年2月5日 改进工具使用,减少拒绝
Claude Sonnet 4.6 2026年2月17日 生产级能力更新
Claude Opus 4.7 2026年4月16日 最新前沿模型

背景:Anthropic的使命与商业现实

Anthropic的既定使命是"为人类的长期利益负责任地开发和维护先进AI"。Claude 4是他们最直接的一次论证:这一使命与前沿能力开发在商业上是相容的。

时机颇具意义:Anthropic刚刚完成了一轮大规模融资,Claude的API收入是其主要商业验证。Claude 4的智能体能力——尤其是企业软件开发、研究和数据分析工作流——被定位为持续前沿投入的核心商业理由。

参考资料