在科技巨头接连暴跌的周末喘息之际,Meta推出了Llama 4。
它想用千万上下文、原生多模态和一个即将推出的2万亿参数基座模型,证明它反超了DeepSeek,自己仍然是硅谷开放权重大模型之王。
去年底今年初,DeepSeek在一个月内接连推出开源基座模型V3和推理模型R1,完胜Llama 3,扎克伯格懵逼了,Meta AI陷入一片恐慌。
R1的训练仅用了2000多张H800,费用下来500多万美元,相当于仅用了Meta一名技术大咖的年薪,而且Llama 3 训练用了16000张H100。
从那之后,大家都等着Meta会拿出一个什么样的Llama 4。
这次发布的Llama 4 群,包括了两个大模型Maverick-400B参数(17B活跃参数,128专家模型),Scout-109B (17B活跃,16专家)。还有一个仍在训练中的基座模型Behemoth-2T(288B活跃,16专家)。
Llama 4 群从总体上实现了对DeepSeek V3.1的超越,如千万上下文,原生多模态,以及看起来更便宜的价格,但是它没有推理模型。Llama 4也超过了其他主要的开放权重或免费的小模型,如Gemma 3、Mistral 3.1和Gemini 2.0 Flash-lite。
Behemoth-2T已经超过了包括GPT-4.5在内的前沿基座模型,但是Meta在介绍中没有提及、也可能逊色于Gemini 2.5 Pro。
细看一下各主要指标的得分对比:
Behemoth超过了目前最前沿的大模型GPT-4.5,Gemini 2.0 pro, Claude Sonnet 3.7,但Gemini 2.5 Pro除外:

Maverick的性价比上超过了主流应用模型GPT-4o、DeepSeek V3.1、Gemini 2.0 Flash:

Scout吊打其他主流的开源模型:

预训练
Llama 4 首次采用专家混合架构(Mixture of Experts,简称 MoE)。以 Llama 4 Maverick 为例,该模型拥有 170 亿个激活参数,总参数量达 4000 亿。为了提升推理效率,密集层和 MoE 层可交替使用。MoE 层包括 128 个路由专家和一个共享专家。每个 token 会同时发送到共享专家和 128 个专家中的一个。因此,虽然所有参数都被保存在内存中,但实际推理时只激活其中一部分参数。这种设计降低了模型的推理成本和延迟,使得 Llama 4 Maverick 可以在一台 英伟达 H100 DGX 主机上运行,便于部署,也可支持分布式推理以获得更高效率。
Llama 4 模型原生支持多模态,通过早期融合(early fusion)将文本与视觉 token 无缝整合到统一的模型主干中。早期融合是一个重要突破,使得模型可以利用海量的无标注文本、图像和视频数据进行联合预训练。Meta AI还升级了视觉编码器,其基础为 MetaCLIP,但通过与冻结的 Llama 模型联合训练,以更好地适配 LLM。
Meta AI开发了一种名为 MetaP 的新训练技术,用于可靠设定关键模型超参数,如各层的学习率和初始化比例。这些超参数具有良好的可迁移性,适用于不同的 batch size、模型宽度、深度和训练 token 数。Llama 4 在预训练阶段覆盖了 200 种语言,其中超过 100 种语言的训练 token 数超 10 亿,总体多语言 token 数是 Llama 3 的 10 倍,为开源微调提供了良好的基础。
Behemoth使用 FP8 精度和 32K 张 GPU 进行预训练,达到了每张 GPU 390 TFLOPs 的训练效率。训练所用数据总量超过 30 万亿 tokens,是 Llama 3 的两倍以上,涵盖了丰富的文本、图像和视频数据集。相比之下,Llama 3的精度是BF16,使用了16000张GPU,达到了每张GPU 400 TFLOPs的训练效率。
Meta AI还引入了“中期训练”(mid-training)阶段,以新颖的训练策略强化模型的核心能力,包括利用专用数据集实现超长上下文扩展,在提升模型质量的同时,为 Llama 4 Scout 实现了业界领先的 1000 万 token 输入上下文长度。
后训练
Maverick充当了主力助手和对话模型,在进行后训练时,最大的挑战是如何平衡多模态输入、推理能力和对话表现。在多模态融合方面,Meta AI设计了课程式训练策略(curriculum strategy),确保模型在多模态任务中的性能不逊于各个单一模态专家模型。针对 Llama 4,Meta AI全面改造了后训练流程,采用了新的方法链条:轻量监督微调(SFT)> 在线强化学习(RL)> 轻量偏好优化(DPO)。他们发现,SFT 和 DPO 如果过于严格,会限制模型在在线 RL 阶段的探索能力,尤其影响推理、编程与数学任务的表现。
为了解决这一问题,Meta AI使用 Llama 模型作为判定器,对数据进行筛选,剔除了超过 50% 被标记为“简单”的训练数据,仅在剩下的高难度数据上进行轻量微调。
在后续的多模态在线强化学习阶段,Meta AI通过精挑细选更具挑战性的 prompt,实现了性能的跃迁。Meta AI还引入了一种连续在线 RL 策略:训练过程中交替进行模型训练和数据过滤,仅保留中等到高难度的 prompt,从而实现了计算效率和准确率之间的最佳平衡。
Meta AI再通过一次轻量级 DPO 微调,处理模型响应质量中的边缘情况,使模型在智能能力与对话表现之间达成了理想的平衡。
这种全新的后训练流程架构,以及结合自适应数据筛选的持续在线强化学习策略,使 Llama 4 Maverick 成为一款在智能能力和图像理解上均达到行业顶尖水平的通用聊天模型。
推理能力逊色
Llama 4 群没有推理模型,如果用基座Behemoth来比较,可以发现在数学和通识方面仍然逊色于DeepSeek-R1,全面不及OpenAI o1。

如果拿通用的Maverick 来比较,它跻身于目前主流的多模态模型,在编程、推理、多语言、长上下文处理和图像任务等多个基准上超越了同类模型(如 GPT-4o 和 Gemini 2.0),在编程与推理能力上也可以与体量更大的 DeepSeek v3.1 相媲美。
为什么周六发布
因为硅谷的几家头部AI实验室的高层,彼此了解发布时间表已经司空见惯,所以对 Meta 周六发布,也是不得已的选择,因为下周将会非常疯狂,或者至少有可能盖过 Llama 4 的风头;而原本想上周被特朗普搞得更疯狂。
Semianalysis创始人Dylan Patel说:
“阿里巴巴和DeepSeek会很快发布,并再次超越Meta的。”


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有