所有事件
research-breakthrough
☆ 世家

InstructGPT:语言模型可以变得听话

概述 2022年1月27日,OpenAI发表了论文《用人类反馈训练语言模型遵循指令》——引入了InstructGPT。虽然ChatGPT要到2022年11月才发布,但InstructGPT才是使ChatGPT成为可能的基础技术工作。它引入了**RLHF(人类反馈强化学习)**作为将大型语言模型与人类意图对齐的主要方法。 关键洞察:仅通过下一个token预测训练的语言模型,会优化"看起来像互联网上的文本",而不是"对人类用户有用"。RLHF通过从人类偏好数据训练一个奖励模型,然 …

2022-01-27

概述

2022年1月27日,OpenAI发表了论文《用人类反馈训练语言模型遵循指令》——引入了InstructGPT。虽然ChatGPT要到2022年11月才发布,但InstructGPT才是使ChatGPT成为可能的基础技术工作。它引入了**RLHF(人类反馈强化学习)**作为将大型语言模型与人类意图对齐的主要方法。

关键洞察:仅通过下一个token预测训练的语言模型,会优化"看起来像互联网上的文本",而不是"对人类用户有用"。RLHF通过从人类偏好数据训练一个奖励模型,然后用强化学习微调基础模型来最大化该奖励,从而纠正了这一点。

三步过程

  1. SFT(监督微调):在精心策划的演示数据上微调GPT-3
  2. 奖励模型训练:训练一个模型预测两个人类标注者会更喜欢哪个模型输出
  3. RL微调:用PPO根据奖励模型对SFT模型进行微调

结果:InstructGPT 1.3B在人类偏好评估中超越了GPT-3 175B,尽管它小了100倍。规模不是一切——对齐才是。

为什么这是真正的转折点

ChatGPT(2022年11月)吸引了公众的注意。但InstructGPT才是AI研究界立即认可的真正技术转折点:

  • RLHF成为标准方法,用于对齐所有后续大型模型(Claude、GPT-4、Llama)
  • 较小的对齐模型优于较大未对齐模型(1.3B > 175B)的发现,改变了研究人员对规模化的思考方式
  • 人类反馈机制建立了自此演变为Constitutional AI(Anthropic,2022)的范式

参考