GPT-4 发布

概述

GPT-4，发布于2023年3月14日，代表了OpenAI自2020年GPT-3发布以来在大型语言模型能力上的最重大飞跃。与前身不同，GPT-4从设计上就是一个多模态系统，能够接受文本和图像输入，并在极其广泛的任务范围内产生文本输出。该模型在众多专业和学术基准测试中表现出人类水平或超人类水平的性能，在美国律师考试（90百分位）、LSAT（88百分位）以及各种GRE子测试中获得的分数位列前十分位。

这次发布标志着OpenAI的一次战略性转变。GPT-3通过惊人的规模——1750亿参数——让世界惊叹；GPT-4则以可衡量的推理能力、细腻的理解力、以及同时处理视觉信息和文本提示的能力而著称。该模型可以分析图表、解读照片、阅读代码片段，并以反映上下文和意图理解的结构性推理做出回应——远超模式匹配。

GPT-4的实际能力

在其核心，GPT-4是一个基于Transformer架构的大型多模态模型，但OpenAI以"竞争和安全考虑"为由，有意保留了其架构细节——模型大小、层深度、注意力头数量。已知的是，训练过程结合了监督微调（SFT）和人类反馈强化学习（RLHF）——这一流程在InstructGPT和ChatGPT中先驱性地使用，但执行的规模和数据量都相当大。

GPT-4的训练本身是一个历时数月的努力。不同于早期语言模型相对简单的下一个token预测训练，GPT-4经历了 extensive 的训练后精调。人类标注者为监督微调生成演示数据，教导模型以反映人类判断和意图的方式执行任务。此后，模型被暴露于大量人类偏好数据集——模型输出之间的比较，由人类评分者排名——并使用RLHF进行训练，以优化人类认为有帮助、诚实和无害的回复。

据估计，GPT-4的训练计算和基础设施成本从4000万美元到超过1亿美元不等，研究人员的分析表明，训练运行需要在微软Azure云基础设施上运行数千个高性能GPU数月。这笔投资反映了在GPT-4能力水平上训练模型的计算强度，以及RLHF所需的人工标注工作的费用。在Azure上训练的决定并非偶然；它反映了微软与OpenAI之间深化的合作伙伴关系。

八个月的隐藏开发

GPT-4内部完成与其公开发布之间的差距约为八个月——在此期间，OpenAI进行了 extensive 的内部测试、与选定的合作伙伴进行外部红队测试，以及旨在评估模型在大规模部署准备情况的能力评估。这段隐藏开发期不仅仅是一个质量保证练习；它反映了关于向世界揭示GPT-4能力最佳时机的战略计算。

当OpenAI最终在2023年3月14日发布GPT-4时，公告通过博客文章和技术报告发布，API立即向开发者开放。该公司指出GPT-4已经训练了"数月"，并且模型在发布前已经经历了六个月的"成熟度调整"——这一语言与外部观察者报告的八个月隐藏开发期一致。

基准表现

GPT-4在标准化和专业基准测试上的表现，无论用什么标准衡量，都非常出色：

在美国律师考试（Multistate Bar Exam）上，GPT-4的得分位列人类考生前90百分位——这一结果对于仅仅几年前的语言模型来说是不可想象的。在LSAT（法学院入学考试）上，GPT-4取得了88百分位的成绩。在GRE定量推理上，GPT-4得分位列前80百分位；在GRE语文推理部分，表现同样强劲；在GRE分析写作上，GPT-4获得的分数与人类考生前93百分位相当。

在医学执照考试上，GPT-4通过了所有三个步骤（Step 1、Step 2CK和Step 3），达到或超过及格分数，在某些Step 2和Step 3题目集上接近90百分位。模型不仅展示了事实回忆能力，还展示了综合临床信息、解读实验室发现和推理患者护理场景的能力。

在编码基准测试上，GPT-4在HumanEval数据集上评估，pass@1率约为67%，而GPT-3.5为39%。

GPT-4超越GPT-3.5的飞跃

GPT-4与GPT-3.5之间的对比——后者的模型为2022年11月发布的原始ChatGPT提供支持——对任何与两个系统交互过的人来说都是 immediately 明显的。GPT-3.5可以生成可信的、流利的文本，可以遵循简单的指令，但经常在需要持续逻辑推理的任务上失败，并且基本上局限于文本输入。

GPT-4的改进分为几个类别。首先，最明显的是多模态能力。GPT-4可以接受图像作为输入——照片、图表、网页截图、电路图——并基于该视觉信息生成详细的文本描述、分析或回复。其次，GPT-4展示了 substantially 改善的推理能力。在需要多步逻辑推理、数学问题解决与中间步骤、或综合来自多个来源信息的任务上，GPT-4的表现明显优于GPT-3.5。第三，GPT-4引入了显著扩展的上下文窗口。虽然GPT-3.5支持4,096个token（约3,000个单词），但GPT-4支持高达128,000个token的上下文窗口——后来在某些情况下扩展到200,000个token。

第四，GPT-4表现出明显改善的指令遵循和对齐。RLHF训练过程自InstructGPT以来已经显著精调，GPT-4在准确执行所要求的任务、按请求的格式方面比其前身可靠得多。

GPT-4所揭示的

GPT-4揭示了大型语言模型的非凡潜力和持续局限性。该模型的能力，无论用什么合理标准衡量，都是变革性的。它可以 pass 专业考试、编写功能性代码、分析复杂的法律和科学文档，并以与以前模型不同的方式类似于人类专业知识的方式参与细致推理。然而，它也揭示了没有规模和训练可以完全消除的持续失败模式。

幻觉——生成 plausible 但事实不正确或捏造的信息——仍然是一个重要的局限性。GPT-4可以在陈述错误事实时表现得自信和雄辩。它可以引用不存在的学术论文、编造法律先例、描述从未发生的事件。

安全特性是相对于GPT-3.5的显著改进领域，但不是完整解决方案。GPT-4生成有害内容的可能性大大降低，不当拒绝合法请求，或参与有毒输出。然而，研究人员发现GPT-4仍然可以通过对抗性提示技术被操纵生成不允许的内容。

它催化的企业AI竞赛

GPT-4的发布触发了一场在几个月内重塑科技行业的企业AI竞赛。在GPT-4发布后的一周内，微软宣布GPT-4技术已集成到Bing AI中——这家公司的搜索引擎，围绕AI聊天能力重建。这一集成并非偶然；它反映了微软与OpenAI之间的深度战略合作伙伴关系。Google发现自己处于出乎意料的位置，需要迎头赶上。2023年5月，Google宣布扩展其AI产品，在Workspace生产力套件中集成生成AI功能。

到后续模型的桥梁

GPT-4不是一个终点，而是一个 waypoint。GPT-4发布几个月后，OpenAI开始构建GPT-4架构和方法论的后续模型。2023年11月宣布的GPT-4 Turbo提供了128,000个token的上下文窗口、知识截止到2023年4月，以及显著降低的API定价。

但更重要的 successor 是"o1"系列，发布于2024年9月。o1模型代表了从GPT架构推理方法的根本性转变。从GPT-4的"令人印象深刻的模式识别"到o1的"显式推理"再到o3的"通用流体推理"的进程，描绘了一条GPT-4使之成为可能但 not guaranteed 的道路。

GPT-4的发布，回顾起来，标志着 AI 研究界和更广泛的公众认识到大型语言模型的能力不再仅仅是令人印象深刻的——它们在职业上已经具有相关性。