推理时间缩放：AI能力的新前沿

概述

2024年9月12日，OpenAI发布了o1——一个引入了AI能力获取质变路径的模型：不再依赖扩大训练算力，而是扩展推理时间算力。o1在处理查询时被允许"思考"的时间越长，在高难度推理任务上的表现就越好。

这一概念——分别被称为推理时间缩放、测试时计算缩放或思维链缩放——成为2024–2025年的主导研究范式，催生了来自每家主要AI实验室的新一类"推理模型"。

从2017年到2024年，AI能力增长的主流论断是训练时缩放：更多数据、更多参数、更多训练算力等于更强性能。这催生了GPT-3、GPT-4、Claude、Gemini——越来越强大的模型，将更多知识和模式识别储存在权重中。

但到2024年，训练时收益递减的证据日益积累。从GPT-3（1750亿参数）到GPT-4的跃升是巨大的；从GPT-4到GPT-4o，虽然有用，但跃升更小了。这个领域需要一个新的维度。

核心洞见出奇地简单：让模型在回答前先思考。

通过强化学习训练模型生成扩展的内部思维链——以最终答案是否正确来验证——OpenAI发现：

一个关键理论支撑来自Google DeepMind / UC Berkeley论文（2024年8月）：“最优地缩放LLM测试时计算可以比缩放模型参数更有效”——发现对于较小模型有非零成功概率的问题，最优测试时计算可以媲美大14倍的模型。

推理时间缩放通过两种互补机制运作：

推理时间缩放范式催生了跨实验室的整个"思考模型"家族：

推理时间缩放代表了AI能力获取方式的范式转变，具有多个下游影响：

民主化：DeepSeek R1（2025年1月）证明推理时间范式的实现成本远低于此前假设——使用纯强化学习，无需昂贵的监督微调数据。

新经济学：AI成本现在有两个维度：训练成本（固定）和推理成本（每次查询，按任务难度可变）。需要扩展思考的困难任务变得更贵；简单任务保持低廉。

基准重新校准：许多此前被认为"已解决"的基准（如MATH）被重新评估——推理的正确测试不是模型是否知道答案，而是能否在约束条件下推导出答案。

未解难题：推理缩放在答案可被验证时效果最佳。对于开放性任务（创意写作、战略建议、价值判断），正确的验证器仍是未解的研究问题——可能需要大规模人类判断。