所有事件
model-release
☆ 世家

Llama 4:Meta押注开放权重与专家混合架构

概述 2025年4月5日——一个周六,不寻常的时机被广泛注意为刻意之举——Meta发布了Llama 4,推出了其首批采用**专家混合(MoE)**架构的模型。此次发布标志着相较于前几代Llama的重大架构转变,并确立了Meta作为专有前沿模型严肃竞争者的地位。 三款模型宣布发布: Scout:17亿激活参数/1090亿总参数;1000万词元上下文窗口 Maverick:17亿激活参数/4000亿总参数;100万词元上下文窗口 Behemoth:2880亿激活参数/约2万亿总参 …

2025-04-05

概述

2025年4月5日——一个周六,不寻常的时机被广泛注意为刻意之举——Meta发布了Llama 4,推出了其首批采用**专家混合(MoE)**架构的模型。此次发布标志着相较于前几代Llama的重大架构转变,并确立了Meta作为专有前沿模型严肃竞争者的地位。

三款模型宣布发布:

  • Scout:17亿激活参数/1090亿总参数;1000万词元上下文窗口
  • Maverick:17亿激活参数/4000亿总参数;100万词元上下文窗口
  • Behemoth:2880亿激活参数/约2万亿总参数——已宣布但发布时仍在训练中

全部以Meta的自定义开放权重许可证发布,允许商业使用。

专家混合架构

MoE的转变是Llama 4决定性的技术选择:

密集模型(所有前几代Llama)中,每个参数对每个输入词元都被激活。在MoE模型中,网络包含许多专门的"专家"子网络,但每个词元只激活其中一小部分——即激活参数。其余保持休眠。

实际效果:

  • 推理效率:总参数4000亿但每词元仅17亿激活参数的模型,运行速度与170亿密集模型一样快
  • 无成本的容量:模型可以储存远超其计算消耗的专门知识(4000亿总量 vs 每次调用17亿)
  • 专业化:不同专家可以在不同领域(代码 vs 自然语言 vs 科学)发展专长

这与GPT-4(据报道)、Gemini(部分)和DeepSeek-V3的架构选择相同。

规模与数据

  • 训练了30万亿以上词元——Llama 3训练数据的两倍
  • 原生多模态:从头开始联合训练文本、图像和视频,不同于此前通过适配器附加多模态能力的Llama版本
  • Scout的1000万词元上下文窗口是开放发布模型中最大的——足以在单个提示中处理整个代码库、一本书或一个数据集

Behemoth声明

Meta的公告包含了对Llama 4 Behemoth(仍在训练中)的争议性性能比较:

“Llama 4 Behemoth在STEM基准上优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro。”

该声明立即受到质疑,因为Behemoth无法公开获得进行独立验证——代表了2025年AI基准报告争议的样本之一。

开放权重战略

Meta对开放权重AI的承诺,到2025年已经是马克·扎克伯格明确阐述的一种刻意战略和哲学立场:

  • 开放权重模型可以被任何组织下载、修改和部署,无需API依赖
  • Llama模型已成为大多数开源AI应用的基础——从代码助手到企业微调模型到研究系统
  • Meta的经济理由:开放权重推动Meta云和硬件的采用;专有AI堆栈有利于竞争对手

Llama 4 Scout和Maverick可通过Meta自己的Llama API、AI Foundry(企业版)和自托管获得。

参考资料