DeepSeek R1：中国AI的"斯普特尼克时刻"

概述

2025年1月20日，中国AI公司DeepSeek发布了R1——一个开源推理模型，在数学、编程和科学推理等标准基准测试上与OpenAI的o1并驾齐驱。该模型以MIT许可证发布，任何人均可免费下载、修改和部署。

该模型的训练成本约为600万美元——相比之下，性能相当的美国前沿模型估计耗资逾1亿美元。其计算量约为Meta Llama 3.1 405B的十分之一，性能却不相上下。

七天后的1月27日，英伟达股价单日下跌18%，蒸发约5930亿美元市值——这是美国股市史上单日最大市值损失记录。美国AI行业对此毫无准备。

DeepSeek R1的基准表现：

这些数字不只是具有竞争力——在多项指标上，R1超越了o1。而且它是开源的。

风险资本家Marc Andreessen在发布数日内造出了"斯普特尼克时刻"这一说法，并迅速传播。类比精准：

1957年苏联发射斯普特尼克时，震惊并非因为卫星进入了轨道——而是因为能力预期的落差。美国专家认为苏联技术远落后于己，结果并非如此。
DeepSeek R1同样：震惊不在于中国造出了好的AI模型，而在于被打破的假设：前沿推理模型需要受芯片出口管制保护的数亿美元训练投入，美国因此拥有持久护城河。

R1同时推翻了三个假设：

R1如此出人意料的一个关键原因是其训练方法论。大多数美国推理模型（包括o1）使用对精心策划的思维链数据进行监督微调（SFT），再加上人类反馈强化学习（RLHF）。

DeepSeek证明纯强化学习——仅基于结果奖励（答案正确/错误）直接训练，不使用任何SFT数据——可以产生涌现的思维链推理能力。这在理论上曾被预言，但从未在规模上得到证明。该模型仅受最终答案是否正确的激励，自发形成了包括自我反思、假设检验和回溯在内的行为。

这一发现——后来发表于技术报告中——重塑了对推理能力如何涌现及其培养成本的理解。

2025年1月27日那周：

DeepSeek R1不只是发布了一个有竞争力的模型。它重新分配了前沿AI的成本结构——这对每一个计划依赖于AI能力集中在少数资本雄厚的美国公司的企业、政府和个人，都产生了深远影响。

它也提出了一个该领域仍在寻找答案的问题：如果有能力的推理模型可以用600万美元训练出来，当训练成本再下降10倍时，AI经济会发生什么？