所有事件
concept
☆ 世家

推理时间缩放:AI能力的新前沿

概述 2024年9月12日,OpenAI发布了o1——一个引入了AI能力获取质变路径的模型:不再依赖扩大训练算力,而是扩展推理时间算力。o1在处理查询时被允许"思考"的时间越长,在高难度推理任务上的表现就越好。 这一概念——分别被称为推理时间缩放、测试时计算缩放或思维链缩放——成为2024–2025年的主导研究范式,催生了来自每家主要AI实验室的新一类"推理模型"。 旧范式:训练时缩放 从2017年到2024年,AI能力增长的主流论断是训练时缩放:更多数据、更多参数、更多训练 …

2024-09-12

概述

2024年9月12日,OpenAI发布了o1——一个引入了AI能力获取质变路径的模型:不再依赖扩大训练算力,而是扩展推理时间算力。o1在处理查询时被允许"思考"的时间越长,在高难度推理任务上的表现就越好。

这一概念——分别被称为推理时间缩放测试时计算缩放思维链缩放——成为2024–2025年的主导研究范式,催生了来自每家主要AI实验室的新一类"推理模型"。

旧范式:训练时缩放

从2017年到2024年,AI能力增长的主流论断是训练时缩放:更多数据、更多参数、更多训练算力等于更强性能。这催生了GPT-3、GPT-4、Claude、Gemini——越来越强大的模型,将更多知识和模式识别储存在权重中。

但到2024年,训练时收益递减的证据日益积累。从GPT-3(1750亿参数)到GPT-4的跃升是巨大的;从GPT-4到GPT-4o,虽然有用,但跃升更小了。这个领域需要一个新的维度。

新范式:测试时计算

核心洞见出奇地简单:让模型在回答前先思考

通过强化学习训练模型生成扩展的内部思维链——以最终答案是否正确来验证——OpenAI发现:

  1. 性能随推理长度缩放:在高难度数学和编程问题上,更长的推理链可靠地提高准确率
  2. 涌现的自我纠正:模型学会检查自己的工作、发现错误并回溯——这些行为在被结果奖励激励时自发出现
  3. 计算灵活性:用户可根据任务重要性选择花费多少计算量(快速 vs. 谨慎思考)

一个关键理论支撑来自Google DeepMind / UC Berkeley论文(2024年8月):“最优地缩放LLM测试时计算可以比缩放模型参数更有效”——发现对于较小模型有非零成功概率的问题,最优测试时计算可以媲美大14倍的模型。

两种机制

推理时间缩放通过两种互补机制运作:

顺序缩放(思考更长)

  • 模型在输出答案前生成扩展的推理链
  • 每一步建立在前一步之上,实现多跳推理、错误修正和假设检验
  • 性能与生成的词元数量近似呈对数线性关系

并行缩放(思考更宽)

  • 生成多条独立推理链(Best-of-N采样)
  • 使用独立的验证器模型选出最佳候选答案
  • 对具有客观可检验答案的问题(数学、代码执行)尤其有效

推理模型世代

推理时间缩放范式催生了跨实验室的整个"思考模型"家族:

模型 实验室 发布时间
o1 OpenAI 2024年9月
o3、o4-mini OpenAI 2025年1月–4月
DeepSeek R1 DeepSeek 2025年1月
Claude 3.7 Sonnet(扩展思考) Anthropic 2025年2月
Gemini 2.5 Pro(思考) Google DeepMind 2025年3月
QwQ 阿里巴巴 2024年11月

为何意义深远

推理时间缩放代表了AI能力获取方式的范式转变,具有多个下游影响:

民主化:DeepSeek R1(2025年1月)证明推理时间范式的实现成本远低于此前假设——使用纯强化学习,无需昂贵的监督微调数据。

新经济学:AI成本现在有两个维度:训练成本(固定)和推理成本(每次查询,按任务难度可变)。需要扩展思考的困难任务变得更贵;简单任务保持低廉。

基准重新校准:许多此前被认为"已解决"的基准(如MATH)被重新评估——推理的正确测试不是模型是否知道答案,而是能否在约束条件下推导出答案。

未解难题:推理缩放在答案可被验证时效果最佳。对于开放性任务(创意写作、战略建议、价值判断),正确的验证器仍是未解的研究问题——可能需要大规模人类判断。

参考资料