所有事件
capability-unlock
☆ 本纪

OpenAI o3:震惊行业的ARC-AGI突破

概述 2024年12月,OpenAI发布了 o3 ——一款在ARC-AGI基准上表现如此出色的模型,以至于它从根本上改变了AI研究界对迈向通用人工智能进展的评估方式。 ARC-AGI(抽象与推理语料库——通用人工智能)曾被称为"你从未听说过的最重要的测试"。由François Chollet于2019年设计,它测试系统解决新颖视觉和逻辑谜题的能力——这种推理需要真正的理解而不是模式匹配。五年来,最好的AI系统得分在30-55%范围内。人类表现约为85%。 o3在 Extend …

2024-12-20

概述

2024年12月,OpenAI发布了 o3 ——一款在ARC-AGI基准上表现如此出色的模型,以至于它从根本上改变了AI研究界对迈向通用人工智能进展的评估方式。

ARC-AGI(抽象与推理语料库——通用人工智能)曾被称为"你从未听说过的最重要的测试"。由François Chollet于2019年设计,它测试系统解决新颖视觉和逻辑谜题的能力——这种推理需要真正的理解而不是模式匹配。五年来,最好的AI系统得分在30-55%范围内。人类表现约为85%。

o3在 Extend设置下得分87.5%,在 Efficient设置下得分71.7% ——在这两种配置中都超过了估计的人类表现。

为什么这与其他基准跃升不同

以前的AI基准成就(GPT-4在MMLU上、AlphaFold在蛋白质折叠上)涉及的任务,系统在训练期间见过类似模式。ARC-AGI专门设计来抵抗这一点——测试谜题是新颖的,旨在需要流体智能而不是记忆解决方案。

o1(约30%在ARC-AGI上)和o3(约88%)之间的差距不能归因于:

  • 更多训练数据
  • 更大的模型规模
  • 更好的下一个token预测

它归因于 扩展的推理时间推理 ——o3在回答前花费更多计算"思考",在确定答案之前探索多条解决路径。

行业反应

反应迅速且在某些方面很剧烈:

  • François Chollet(ARC-AGI创建者):“这不是AGI,但确实是真正的新东西。在这种水平上解决新颖任务的能力是真实的。”
  • Jensen Huang(NVIDIA):引用o3作为"计算可以无限扩展"论题完好的证据。
  • Sam Altman(OpenAI CEO):将o3描述为"AI多年来发生的最有趣的事情"——值得注意的是,他没有称之为AGI,在承认突破的同时谨慎地回避了这个框架。
  • 怀疑者(包括部分AI研究者):指出o3的计算成本(Extend设置下每个任务数百美元)意味着这还不是经济上实用的推理。

意义

o3确立了三个重塑2025 AI格局的原则:

  1. 推理时间扩展是真实的 —— 更多"思考"时间与更多训练同样重要
  2. ARC-AGI基准证明了其价值 —— 它现在是主流新闻
  3. 每个任务的计算成本是新的指标 —— 而不仅仅是模型准确性

2025年1月DeepSeek R1的发布(以极低成本实现类似推理)在很多方面是对o3成本问题的直接回应。