Claude 3.7 Sonnet：Anthropic史上最强大模型

概述 2025年2月24日，Anthropic发布了Claude 3.7 Sonnet——首款将"扩展思考"作为一级、面向用户的生产模型。与o1/o3的内部思维链推理（对用户隐藏）不同，Claude 3.7 Sonnet的思考过程是可见且可配置的。用户可以设置"思考预算"——从1,000到64,000个token——并实时观察模型推理复杂问题。 “10倍开发者"时刻 Claude 3.7 Sonnet的突出能力是接近人类规模的Agentic编码：能够在50,000行代码库 …

2025-02-24

概述

2025年2月24日，Anthropic发布了Claude 3.7 Sonnet——首款将"扩展思考"作为一级、面向用户的生产模型。

与o1/o3的内部思维链推理（对用户隐藏）不同，Claude 3.7 Sonnet的思考过程是可见且可配置的。用户可以设置"思考预算"——从1,000到64,000个token——并实时观察模型推理复杂问题。

“10倍开发者"时刻

Claude 3.7 Sonnet的突出能力是接近人类规模的Agentic编码：

能够在50,000行代码库中规划和执行多步骤重构
能够在单次对话中编写、运行和调试测试
在比前代模型长得多的交互中保持上下文

在SWE-bench Verified（编码基准测试的权威版本）上，Claude 3.7 Sonnet得分62.3%——比Claude 3.5 Sonnet的49%有了显著提升。

意义

Claude 3.7 Sonnet的发布产生了两个持久影响：

“思考预算"成为AI产品的标准功能——用户学会了像分配运行程序的内存一样，为复杂任务分配算力
它确立了Anthropic"编码模型"的身份——即使OpenAI在基准测试上竞争，Anthropic也在开发者体验和代码质量上竞争