概述
2020年1月23日,OpenAI的研究人员发表了《神经语言模型的规模化定律》——一篇57页的实证研究,由Jared Kaplan、Sam McCandlish、Tom Henighan等人联合撰写。论文报告了一项将重塑整个领域的发现:语言模型的性能随三个关键变量的幂律函数可预测、平滑地提升:模型规模、训练算力和数据集大小。
这不是新架构,也不是新算法。这是一张地图——第一个在构建模型之前就能定量预测其能力的严格框架。
核心发现
对于神经语言模型,测试损失(能力的代理指标)遵循:
L(N, D) ≈ (N_c / N)^α_N + (D_c / D)^α_D + ...
其中:
- N = 参数数量
- D = 训练数据集大小
- C = 总算力(浮点运算次数)
指数(α)在不同模型架构、训练流程和任务之间近似恒定——这暗示的是普遍规律,而非特定设置的特殊现象。
关键在于:在所测试的范围内,改进没有任何触及天花板的迹象。这一关系在7个数量级的算力范围内持续成立。
实践意义
规模化定律为AI研究人员提供了一个规划工具:
- 可预测性:给定算力预算,可在构建模型之前估算其能力
- 最优分配:在固定算力预算下,模型规模和数据集大小之间存在最优比例(Kaplan等人的发现倾向于更大模型搭配略少数据;后被Chinchilla修正)
- 合理的雄心:如果性能随规模可靠提升且没有可见天花板,那么激进扩展就是理性策略——而非鲁莽之举
- 投资逻辑:对于公司和投资者,规模化定律为"更大即更好"提供了定量依据——直接促成了催生GPT-4、Claude和Gemini的融资轮次
Chinchilla修正(2022年)
DeepMind的Chinchilla论文(2022年)以更大规模的实验重新审视了计算最优缩放问题,发现Kaplan等人低估了数据相对于参数的价值。修正后的发现:在给定算力预算下,模型规模和数据量应等比例扩展。
这纠正了全行业偏向参数过多、训练不足模型的偏差,影响了2022年后发布的每一个主要模型(LLaMA、GPT-4、Claude 2、Gemini)的设计。
涌现能力
谷歌的Wei等人于2022年记录了一个相关但令人费解的现象:涌现能力——在超过某一模型规模阈值时突然出现的能力,仿佛凭空而来。100亿参数的模型可能在多步算术上完全失败;1000亿参数的模型则能可靠地解决。中间状态的能力并不存在。
这一发现使规模化定律的图景更加复杂:虽然平均性能平滑地随规模提升,但特定能力的出现可能是不连续的——即使整体能力轨迹保持可预测,单一任务层面的预测仍然困难。
为何意义深远
规模化定律为AI领域提供了它从未拥有的东西:一个类似物理学的框架来预测能力增长。这将AI开发从手工艺(构建、评估、猜测)转变为工程学(计算、构建、验证)。它通过让所有主要实验室相信持续算力投入会带来持续能力提升,直接推动了2020年代的"AI竞赛"。
它也提出了一个该领域仍在角力的深层问题:有没有墙? 这些定律在多个数量级上成立。它们是否会继续成立——或者某种新障碍(数据耗尽、物理算力极限、下一词预测的收益递减)最终打破这一关系——是2020年代最核心的实证问题。