概述
2025年2月24日,Anthropic发布了Claude 3.7 Sonnet——首款将"扩展思考"作为一级、面向用户的生产模型。
与o1/o3的内部思维链推理(对用户隐藏)不同,Claude 3.7 Sonnet的思考过程是可见且可配置的。用户可以设置"思考预算"——从1,000到64,000个token——并实时观察模型推理复杂问题。
“10倍开发者"时刻
Claude 3.7 Sonnet的突出能力是接近人类规模的Agentic编码:
- 能够在50,000行代码库中规划和执行多步骤重构
- 能够在单次对话中编写、运行和调试测试
- 在比前代模型长得多的交互中保持上下文
在SWE-bench Verified(编码基准测试的权威版本)上,Claude 3.7 Sonnet得分62.3%——比Claude 3.5 Sonnet的49%有了显著提升。
意义
Claude 3.7 Sonnet的发布产生了两个持久影响:
- “思考预算"成为AI产品的标准功能——用户学会了像分配运行程序的内存一样,为复杂任务分配算力
- 它确立了Anthropic"编码模型"的身份——即使OpenAI在基准测试上竞争,Anthropic也在开发者体验和代码质量上竞争