概述
2025年4月5日——一个周六,不寻常的时机被广泛注意为刻意之举——Meta发布了Llama 4,推出了其首批采用**专家混合(MoE)**架构的模型。此次发布标志着相较于前几代Llama的重大架构转变,并确立了Meta作为专有前沿模型严肃竞争者的地位。
三款模型宣布发布:
- Scout:17亿激活参数/1090亿总参数;1000万词元上下文窗口
- Maverick:17亿激活参数/4000亿总参数;100万词元上下文窗口
- Behemoth:2880亿激活参数/约2万亿总参数——已宣布但发布时仍在训练中
全部以Meta的自定义开放权重许可证发布,允许商业使用。
专家混合架构
MoE的转变是Llama 4决定性的技术选择:
在密集模型(所有前几代Llama)中,每个参数对每个输入词元都被激活。在MoE模型中,网络包含许多专门的"专家"子网络,但每个词元只激活其中一小部分——即激活参数。其余保持休眠。
实际效果:
- 推理效率:总参数4000亿但每词元仅17亿激活参数的模型,运行速度与170亿密集模型一样快
- 无成本的容量:模型可以储存远超其计算消耗的专门知识(4000亿总量 vs 每次调用17亿)
- 专业化:不同专家可以在不同领域(代码 vs 自然语言 vs 科学)发展专长
这与GPT-4(据报道)、Gemini(部分)和DeepSeek-V3的架构选择相同。
规模与数据
- 训练了30万亿以上词元——Llama 3训练数据的两倍
- 原生多模态:从头开始联合训练文本、图像和视频,不同于此前通过适配器附加多模态能力的Llama版本
- Scout的1000万词元上下文窗口是开放发布模型中最大的——足以在单个提示中处理整个代码库、一本书或一个数据集
Behemoth声明
Meta的公告包含了对Llama 4 Behemoth(仍在训练中)的争议性性能比较:
“Llama 4 Behemoth在STEM基准上优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro。”
该声明立即受到质疑,因为Behemoth无法公开获得进行独立验证——代表了2025年AI基准报告争议的样本之一。
开放权重战略
Meta对开放权重AI的承诺,到2025年已经是马克·扎克伯格明确阐述的一种刻意战略和哲学立场:
- 开放权重模型可以被任何组织下载、修改和部署,无需API依赖
- Llama模型已成为大多数开源AI应用的基础——从代码助手到企业微调模型到研究系统
- Meta的经济理由:开放权重推动Meta云和硬件的采用;专有AI堆栈有利于竞争对手
Llama 4 Scout和Maverick可通过Meta自己的Llama API、AI Foundry(企业版)和自托管获得。