概述
2025年8月7日,OpenAI发布了GPT-5——同时在ChatGPT(免费和付费)、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放,Pro用户不限量使用。
Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI框架,标志着该公司公开定位自身技术方式的里程碑。
基准表现
GPT-5代表了自GPT-4(2023年)以来单一模型发布中最大的能力跃升:
| 基准测试 | GPT-4o | GPT-5 |
|---|---|---|
| AIME 2025 | 约49% | 94.6% |
| SWE-bench Verified | 约49% | 74.9% |
| MMMU(多模态) | 69.1% | 84.2% |
| 事实准确性(带网络搜索) | 基准 | 减少约45%的错误 |
AIME(美国数学邀请赛)94.6%的得分,将GPT-5置于大多数数学博士生之上,而AIME专门为顶尖高中竞赛者设计。
架构与能力
GPT-5整合了此前分散的多项能力:
- 统一推理与对话:无需在"思考模式"和"标准模式"间切换——模型根据任务复杂度动态分配推理算力
- 原生多模态:文本、图像、音频、视频理解在单一架构中实现
- 实时网络访问:通过与搜索的紧密集成大幅提升事实准确性
- 长上下文理解:扩展处理长文档、代码库和对话
- 智能体能力:深化与工具的集成和多步骤任务执行
背景:竞争压力频繁的一年
GPT-5在OpenAI主导地位受到挑战的一年后到来:
- DeepSeek R1(2025年1月):证明前沿推理可以低成本复制
- Gemini 2.5 Pro(2025年3月):数周内领跑LMArena排行榜
- Claude 4(2025年5月):在SWE-bench Verified上达到72.5%,当时最高编码基准分数
- 内部延期:原计划2025年初发布,因能力和安全完善多次推迟
GPT-5的发布重新确立了OpenAI在公开可用前沿模型中的地位。
AGI问题
Altman的措辞——“通向AGI道路上的重要一步”——重燃了该领域一直在积累的辩论。主要立场:
认同该框架合适的一方:
- GPT-5在专门抵抗AI的认知测试(如ARC-AGI子任务)上的表现,表明其能力在质量上超越了以往模型
- 单一系统中推理、多模态和智能体行动的组合,接近了AGI的狭义定义
反驳的一方:
- “通向AGI的一步"在没有明确AGI定义的情况下是不可证伪的
- 模型在人类认为微不足道的任务上仍然失败(新颖的物理操作、真正的开放世界常识)
- 这一框架服务于商业目的——提高赌注、证明定价合理、吸引人才
争论本身具有意义:它表明AI能力已越过一个阈值——关于AGI时间表的主流讨论不再被视为边缘观点。