InstructGPT：语言模型可以变得听话

概述

2022年1月27日，OpenAI发表了论文《用人类反馈训练语言模型遵循指令》——引入了InstructGPT。虽然ChatGPT要到2022年11月才发布，但InstructGPT才是使ChatGPT成为可能的基础技术工作。它引入了**RLHF（人类反馈强化学习）**作为将大型语言模型与人类意图对齐的主要方法。

关键洞察：仅通过下一个token预测训练的语言模型，会优化"看起来像互联网上的文本"，而不是"对人类用户有用"。RLHF通过从人类偏好数据训练一个奖励模型，然后用强化学习微调基础模型来最大化该奖励，从而纠正了这一点。

三步过程

SFT（监督微调）：在精心策划的演示数据上微调GPT-3
奖励模型训练：训练一个模型预测两个人类标注者会更喜欢哪个模型输出
RL微调：用PPO根据奖励模型对SFT模型进行微调

结果：InstructGPT 1.3B在人类偏好评估中超越了GPT-3 175B，尽管它小了100倍。规模不是一切——对齐才是。

为什么这是真正的转折点

ChatGPT（2022年11月）吸引了公众的注意。但InstructGPT才是AI研究界立即认可的真正技术转折点：

RLHF成为标准方法，用于对齐所有后续大型模型（Claude、GPT-4、Llama）
较小的对齐模型优于较大未对齐模型（1.3B > 175B）的发现，改变了研究人员对规模化的思考方式
人类反馈机制建立了自此演变为Constitutional AI（Anthropic，2022）的范式

参考

Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022.