规模化定律：让AI更聪明的实证科学

概述

2020年1月23日，OpenAI的研究人员发表了《神经语言模型的规模化定律》——一篇57页的实证研究，由Jared Kaplan、Sam McCandlish、Tom Henighan等人联合撰写。论文报告了一项将重塑整个领域的发现：语言模型的性能随三个关键变量的幂律函数可预测、平滑地提升：模型规模、训练算力和数据集大小。

这不是新架构，也不是新算法。这是一张地图——第一个在构建模型之前就能定量预测其能力的严格框架。

核心发现

对于神经语言模型，测试损失（能力的代理指标）遵循：

L(N, D) ≈ (N_c / N)^α_N + (D_c / D)^α_D + ...

其中：

N = 参数数量
D = 训练数据集大小
C = 总算力（浮点运算次数）

指数（α）在不同模型架构、训练流程和任务之间近似恒定——这暗示的是普遍规律，而非特定设置的特殊现象。

关键在于：在所测试的范围内，改进没有任何触及天花板的迹象。这一关系在7个数量级的算力范围内持续成立。

实践意义

规模化定律为AI研究人员提供了一个规划工具：

可预测性：给定算力预算，可在构建模型之前估算其能力
最优分配：在固定算力预算下，模型规模和数据集大小之间存在最优比例（Kaplan等人的发现倾向于更大模型搭配略少数据；后被Chinchilla修正）
合理的雄心：如果性能随规模可靠提升且没有可见天花板，那么激进扩展就是理性策略——而非鲁莽之举
投资逻辑：对于公司和投资者，规模化定律为"更大即更好"提供了定量依据——直接促成了催生GPT-4、Claude和Gemini的融资轮次

Chinchilla修正（2022年）

DeepMind的Chinchilla论文（2022年）以更大规模的实验重新审视了计算最优缩放问题，发现Kaplan等人低估了数据相对于参数的价值。修正后的发现：在给定算力预算下，模型规模和数据量应等比例扩展。

这纠正了全行业偏向参数过多、训练不足模型的偏差，影响了2022年后发布的每一个主要模型（LLaMA、GPT-4、Claude 2、Gemini）的设计。

涌现能力

谷歌的Wei等人于2022年记录了一个相关但令人费解的现象：涌现能力——在超过某一模型规模阈值时突然出现的能力，仿佛凭空而来。100亿参数的模型可能在多步算术上完全失败；1000亿参数的模型则能可靠地解决。中间状态的能力并不存在。

这一发现使规模化定律的图景更加复杂：虽然平均性能平滑地随规模提升，但特定能力的出现可能是不连续的——即使整体能力轨迹保持可预测，单一任务层面的预测仍然困难。

为何意义深远

规模化定律为AI领域提供了它从未拥有的东西：一个类似物理学的框架来预测能力增长。这将AI开发从手工艺（构建、评估、猜测）转变为工程学（计算、构建、验证）。它通过让所有主要实验室相信持续算力投入会带来持续能力提升，直接推动了2020年代的"AI竞赛"。

它也提出了一个该领域仍在角力的深层问题：有没有墙？ 这些定律在多个数量级上成立。它们是否会继续成立——或者某种新障碍（数据耗尽、物理算力极限、下一词预测的收益递减）最终打破这一关系——是2020年代最核心的实证问题。