概述
2024年12月,OpenAI发布了 o3 ——一款在ARC-AGI基准上表现如此出色的模型,以至于它从根本上改变了AI研究界对迈向通用人工智能进展的评估方式。
ARC-AGI(抽象与推理语料库——通用人工智能)曾被称为"你从未听说过的最重要的测试"。由François Chollet于2019年设计,它测试系统解决新颖视觉和逻辑谜题的能力——这种推理需要真正的理解而不是模式匹配。五年来,最好的AI系统得分在30-55%范围内。人类表现约为85%。
o3在 Extend设置下得分87.5%,在 Efficient设置下得分71.7% ——在这两种配置中都超过了估计的人类表现。
为什么这与其他基准跃升不同
以前的AI基准成就(GPT-4在MMLU上、AlphaFold在蛋白质折叠上)涉及的任务,系统在训练期间见过类似模式。ARC-AGI专门设计来抵抗这一点——测试谜题是新颖的,旨在需要流体智能而不是记忆解决方案。
o1(约30%在ARC-AGI上)和o3(约88%)之间的差距不能归因于:
- 更多训练数据
- 更大的模型规模
- 更好的下一个token预测
它归因于 扩展的推理时间推理 ——o3在回答前花费更多计算"思考",在确定答案之前探索多条解决路径。
行业反应
反应迅速且在某些方面很剧烈:
- François Chollet(ARC-AGI创建者):“这不是AGI,但确实是真正的新东西。在这种水平上解决新颖任务的能力是真实的。”
- Jensen Huang(NVIDIA):引用o3作为"计算可以无限扩展"论题完好的证据。
- Sam Altman(OpenAI CEO):将o3描述为"AI多年来发生的最有趣的事情"——值得注意的是,他没有称之为AGI,在承认突破的同时谨慎地回避了这个框架。
- 怀疑者(包括部分AI研究者):指出o3的计算成本(Extend设置下每个任务数百美元)意味着这还不是经济上实用的推理。
意义
o3确立了三个重塑2025 AI格局的原则:
- 推理时间扩展是真实的 —— 更多"思考"时间与更多训练同样重要
- ARC-AGI基准证明了其价值 —— 它现在是主流新闻
- 每个任务的计算成本是新的指标 —— 而不仅仅是模型准确性
2025年1月DeepSeek R1的发布(以极低成本实现类似推理)在很多方面是对o3成本问题的直接回应。