概述
2025年1月20日,中国AI公司DeepSeek发布了R1——一个开源推理模型,在数学、编程和科学推理等标准基准测试上与OpenAI的o1并驾齐驱。该模型以MIT许可证发布,任何人均可免费下载、修改和部署。
该模型的训练成本约为600万美元——相比之下,性能相当的美国前沿模型估计耗资逾1亿美元。其计算量约为Meta Llama 3.1 405B的十分之一,性能却不相上下。
七天后的1月27日,英伟达股价单日下跌18%,蒸发约5930亿美元市值——这是美国股市史上单日最大市值损失记录。美国AI行业对此毫无准备。
R1的成就
DeepSeek R1的基准表现:
- AIME 2024:79.8%(OpenAI o1:79.2%)
- MATH-500:97.3%(OpenAI o1:96.4%)
- Codeforces Elo:约2,029(OpenAI o1:约1,819)
- GPQA Diamond(博士级科学):71.5%
这些数字不只是具有竞争力——在多项指标上,R1超越了o1。而且它是开源的。
为何被称为"斯普特尼克时刻"
风险资本家Marc Andreessen在发布数日内造出了"斯普特尼克时刻"这一说法,并迅速传播。类比精准:
- 1957年苏联发射斯普特尼克时,震惊并非因为卫星进入了轨道——而是因为能力预期的落差。美国专家认为苏联技术远落后于己,结果并非如此。
- DeepSeek R1同样:震惊不在于中国造出了好的AI模型,而在于被打破的假设:前沿推理模型需要受芯片出口管制保护的数亿美元训练投入,美国因此拥有持久护城河。
R1同时推翻了三个假设:
- 成本护城河:前沿推理模型不需要1亿美元+的训练运行
- 硬件依赖:中国受限的H100 GPU访问并未阻止其达到性能匹配
- 知识差距:中国AI研究已从公开的西方论文中充分吸收,足以复现并竞争
技术突破:纯RL无需监督微调
R1如此出人意料的一个关键原因是其训练方法论。大多数美国推理模型(包括o1)使用对精心策划的思维链数据进行监督微调(SFT),再加上人类反馈强化学习(RLHF)。
DeepSeek证明纯强化学习——仅基于结果奖励(答案正确/错误)直接训练,不使用任何SFT数据——可以产生涌现的思维链推理能力。这在理论上曾被预言,但从未在规模上得到证明。该模型仅受最终答案是否正确的激励,自发形成了包括自我反思、假设检验和回溯在内的行为。
这一发现——后来发表于技术报告中——重塑了对推理能力如何涌现及其培养成本的理解。
地缘政治余震
2025年1月27日那周:
- DeepSeek R1成为美国iOS应用商店下载量最高的免费应用,超越ChatGPT
- 美国国会议员呼吁就AI竞争力问题举行紧急听证会
- 美国对中国的先进芯片出口管制在有效性上立即受到质疑
- 同日就职的特朗普政府发出信号:将通过放松管制而非出口限制来追求AI主导权
- 台湾半导体供应链股票下跌;“算力规模化是唯一护城河"的论断遭到有史以来最严峻的挑战
为何意义深远
DeepSeek R1不只是发布了一个有竞争力的模型。它重新分配了前沿AI的成本结构——这对每一个计划依赖于AI能力集中在少数资本雄厚的美国公司的企业、政府和个人,都产生了深远影响。
它也提出了一个该领域仍在寻找答案的问题:如果有能力的推理模型可以用600万美元训练出来,当训练成本再下降10倍时,AI经济会发生什么?