OpenAI o3：震惊行业的ARC-AGI突破

概述

2024年12月，OpenAI发布了 o3 ——一款在ARC-AGI基准上表现如此出色的模型，以至于它从根本上改变了AI研究界对迈向通用人工智能进展的评估方式。

ARC-AGI（抽象与推理语料库——通用人工智能）曾被称为"你从未听说过的最重要的测试"。由François Chollet于2019年设计，它测试系统解决新颖视觉和逻辑谜题的能力——这种推理需要真正的理解而不是模式匹配。五年来，最好的AI系统得分在30-55%范围内。人类表现约为85%。

o3在 Extend设置下得分87.5%，在 Efficient设置下得分71.7% ——在这两种配置中都超过了估计的人类表现。

以前的AI基准成就（GPT-4在MMLU上、AlphaFold在蛋白质折叠上）涉及的任务，系统在训练期间见过类似模式。ARC-AGI专门设计来抵抗这一点——测试谜题是新颖的，旨在需要流体智能而不是记忆解决方案。

o1（约30%在ARC-AGI上）和o3（约88%）之间的差距不能归因于：

它归因于 扩展的推理时间推理 ——o3在回答前花费更多计算"思考"，在确定答案之前探索多条解决路径。

反应迅速且在某些方面很剧烈：

François Chollet（ARC-AGI创建者）：“这不是AGI，但确实是真正的新东西。在这种水平上解决新颖任务的能力是真实的。”
Jensen Huang（NVIDIA）：引用o3作为"计算可以无限扩展"论题完好的证据。
Sam Altman（OpenAI CEO）：将o3描述为"AI多年来发生的最有趣的事情"——值得注意的是，他没有称之为AGI，在承认突破的同时谨慎地回避了这个框架。
怀疑者（包括部分AI研究者）：指出o3的计算成本（Extend设置下每个任务数百美元）意味着这还不是经济上实用的推理。

o3确立了三个重塑2025 AI格局的原则：

2025年1月DeepSeek R1的发布（以极低成本实现类似推理）在很多方面是对o3成本问题的直接回应。