所有事件
model-release
☆ 本纪

GPT-5:OpenAI最强大的模型与AGI宣言

概述 2025年8月7日,OpenAI发布了GPT-5——同时在ChatGPT(免费和付费)、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放,Pro用户不限量使用。 Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI框架,标志着该公司公开定位自身技术方式的里程碑。 基准表现 GPT-5代表了自GPT-4(2023年)以来单一模型发布中 …

2025-08-07

概述

2025年8月7日,OpenAI发布了GPT-5——同时在ChatGPT(免费和付费)、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放,Pro用户不限量使用。

Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI框架,标志着该公司公开定位自身技术方式的里程碑。

基准表现

GPT-5代表了自GPT-4(2023年)以来单一模型发布中最大的能力跃升:

基准测试 GPT-4o GPT-5
AIME 2025 约49% 94.6%
SWE-bench Verified 约49% 74.9%
MMMU(多模态) 69.1% 84.2%
事实准确性(带网络搜索) 基准 减少约45%的错误

AIME(美国数学邀请赛)94.6%的得分,将GPT-5置于大多数数学博士生之上,而AIME专门为顶尖高中竞赛者设计。

架构与能力

GPT-5整合了此前分散的多项能力:

  • 统一推理与对话:无需在"思考模式"和"标准模式"间切换——模型根据任务复杂度动态分配推理算力
  • 原生多模态:文本、图像、音频、视频理解在单一架构中实现
  • 实时网络访问:通过与搜索的紧密集成大幅提升事实准确性
  • 长上下文理解:扩展处理长文档、代码库和对话
  • 智能体能力:深化与工具的集成和多步骤任务执行

背景:竞争压力频繁的一年

GPT-5在OpenAI主导地位受到挑战的一年后到来:

  • DeepSeek R1(2025年1月):证明前沿推理可以低成本复制
  • Gemini 2.5 Pro(2025年3月):数周内领跑LMArena排行榜
  • Claude 4(2025年5月):在SWE-bench Verified上达到72.5%,当时最高编码基准分数
  • 内部延期:原计划2025年初发布,因能力和安全完善多次推迟

GPT-5的发布重新确立了OpenAI在公开可用前沿模型中的地位。

AGI问题

Altman的措辞——“通向AGI道路上的重要一步”——重燃了该领域一直在积累的辩论。主要立场:

认同该框架合适的一方

  • GPT-5在专门抵抗AI的认知测试(如ARC-AGI子任务)上的表现,表明其能力在质量上超越了以往模型
  • 单一系统中推理、多模态和智能体行动的组合,接近了AGI的狭义定义

反驳的一方

  • “通向AGI的一步"在没有明确AGI定义的情况下是不可证伪的
  • 模型在人类认为微不足道的任务上仍然失败(新颖的物理操作、真正的开放世界常识)
  • 这一框架服务于商业目的——提高赌注、证明定价合理、吸引人才

争论本身具有意义:它表明AI能力已越过一个阈值——关于AGI时间表的主流讨论不再被视为边缘观点。

参考资料