AI AI在西元前

焦点节点

model-release

☆ 本纪

GPT-5：OpenAI最强大的模型与AGI宣言

概述 2025年8月7日，OpenAI发布了GPT-5——同时在ChatGPT（免费和付费）、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放，Pro用户不限量使用。 Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI框架，标志着该公司公开定位自身技术方式的里程碑。基准表现 GPT-5代表了自GPT-4（2023年）以来单一模型发布中 …

2025-08-07

概述

2025年8月7日，OpenAI发布了GPT-5——同时在ChatGPT（免费和付费）、API和GitHub Models Playground全面提供。它立即向所有ChatGPT用户免费开放，Pro用户不限量使用。

Sam Altman将GPT-5描述为**“通向AGI道路上的重要一步”**——这是OpenAI首席执行官首次在产品发布公告中使用AGI框架，标志着该公司公开定位自身技术方式的里程碑。

基准表现

GPT-5代表了自GPT-4（2023年）以来单一模型发布中最大的能力跃升：

基准测试	GPT-4o	GPT-5
AIME 2025	约49%	94.6%
SWE-bench Verified	约49%	74.9%
MMMU（多模态）	69.1%	84.2%
事实准确性（带网络搜索）	基准	减少约45%的错误

AIME（美国数学邀请赛）94.6%的得分，将GPT-5置于大多数数学博士生之上，而AIME专门为顶尖高中竞赛者设计。

架构与能力

GPT-5整合了此前分散的多项能力：

统一推理与对话：无需在"思考模式"和"标准模式"间切换——模型根据任务复杂度动态分配推理算力
原生多模态：文本、图像、音频、视频理解在单一架构中实现
实时网络访问：通过与搜索的紧密集成大幅提升事实准确性
长上下文理解：扩展处理长文档、代码库和对话
智能体能力：深化与工具的集成和多步骤任务执行

背景：竞争压力频繁的一年

GPT-5在OpenAI主导地位受到挑战的一年后到来：

DeepSeek R1（2025年1月）：证明前沿推理可以低成本复制
Gemini 2.5 Pro（2025年3月）：数周内领跑LMArena排行榜
Claude 4（2025年5月）：在SWE-bench Verified上达到72.5%，当时最高编码基准分数
内部延期：原计划2025年初发布，因能力和安全完善多次推迟

GPT-5的发布重新确立了OpenAI在公开可用前沿模型中的地位。

AGI问题

Altman的措辞——“通向AGI道路上的重要一步”——重燃了该领域一直在积累的辩论。主要立场：

认同该框架合适的一方：

GPT-5在专门抵抗AI的认知测试（如ARC-AGI子任务）上的表现，表明其能力在质量上超越了以往模型
单一系统中推理、多模态和智能体行动的组合，接近了AGI的狭义定义

反驳的一方：

“通向AGI的一步"在没有明确AGI定义的情况下是不可证伪的
模型在人类认为微不足道的任务上仍然失败（新颖的物理操作、真正的开放世界常识）
这一框架服务于商业目的——提高赌注、证明定价合理、吸引人才

争论本身具有意义：它表明AI能力已越过一个阈值——关于AGI时间表的主流讨论不再被视为边缘观点。

参考资料

条目元数据

年份 2025
分类 model-release

标签簇

#GPT-5#OpenAI#Sam Altman#AGI#推理#基准测试#基础模型

最新更新

上一篇 Claude 4：Anthropic的智能体前沿 下一篇 苹果与Google Gemini合作：新一代Siri的诞生

📅 天时

2025年上半年，o3于4月发布，Gemini 2.5 Pro于3月登顶LMArena排行榜，Claude 4于5月推出——前沿模型竞争白热化；OpenAI内部数次将GPT-5推迟发布（原本预期2025年初），理由是继续完善安全测试和能力评估；Sam Altman多次公开暗示GPT-5将是"有史以来最重要的模型发布"。

✍ 葛洪曰

“每一代GPT发布都重新定义了"AI能做什么"的边界。GPT-5是第一次有人用"AGI迈出重要一步"这个措辞来描述一个商业模型——不是学者，而是它的制造者。无论这个说法是否准确，它标志着AI行业在公开叙事上越过了一道分水岭。”