把这四款开源权重旗舰的规格表摊开看,听起来就像同一个模型贴了不同的贴纸:MoE 主干、长上下文、推理模式、工具调用、再加点多模态。可真正决定你在生产环境中自托管哪一款的那一点,在规格表上根本看不见:各家下一步押注的那条轴。Llama 4 加注原生多模态与开放生态;DeepSeek V3.2 用 MLA、稀疏注意力与 FP8 训练去攻推理经济性;Qwen3 把语言覆盖与"智能体化"的推理做到最满;Mistral Large 3 把一款前沿规模的 MoE 放到 Apache 2.0 之下,让需要"监管能签字的许可证"的团队拿得出手。先按这条轴选;基准成绩还会反复易手。
速览
四家实验室,对同一个问题给出四种答案——当大家都有 MoE、长上下文、推理模式之后,你还能优化什么?下表先列基本信息;其下的矩阵呈现各自在生产中真正存在差异的那几条轴上最用力的方向。
| 模型 | 发布时间 / 维护方 | 架构 | 许可证 |
|---|---|---|---|
| Llama 4(Scout / Maverick) | 2025 年 4 月,Meta | MoE,原生多模态 | Llama 4 Community License |
| DeepSeek V3.2 | 2025 年 12 月,DeepSeek(V3 家族始于 2024 年 12 月) | MoE,MLA + DeepSeek Sparse Attention,FP8 | MIT |
| Qwen3(235B-A22B 与一系列稠密兄弟) | 2025 年 4 月,阿里巴巴(Instruct/Thinking-2507 后续更新) | MoE 旗舰 + 0.6B–32B 稠密兄弟,混合 /think 模式 | Apache 2.0 |
| Mistral Large 3 | 2025 年 12 月,Mistral AI | 稀疏 MoE,支持图像输入 | Apache 2.0 |
快照:2026-06-02。开源权重旗舰演进很快——决定承诺之前请对照最新的 model card 核实。
Llama 4 — 架构详解
架构与训练上的下注
Llama 4 是 Meta 首款 MoE 形态的 Llama,也是首款原生多模态的 Llama:文本 token 与图像 patch 经 early-fusion 通路进入同一个 transformer,模型直接在不同模态之间做注意力,而不是把视觉编码器当成外部工具来调。Scout 用 16 个专家,约 17B 激活参数(总参 109B),靠 iRoPE 风格的尺度调度把上下文推到 10M token——是四者中最长的窗口。Maverick 用上下文(1M)换容量,128 个专家,总参 400B。更大的 Behemoth 教师模型曾被预告,但尚未以开源权重发布。Scout 的训练量约 40T token,并从一开始就把图文交错的语料纳入视觉—语言课程。
把它放进生产里到底是什么样
许可证不是 Apache、也不是 MIT,而是 Llama 4 Community License:月活在 7 亿以下的团队可以免费使用,附带一份律师值得通读的 Acceptable Use Policy,外加"派生模型名必须以 Llama 开头"那条要求。从工程角度看,几乎所有云与推理厂商——Bedrock、Vertex AI、Azure AI Foundry、Groq、Together、Fireworks——都在 Day-One 提供 Llama 4,vLLM 与 TGI 有针对它优化的算子,llama.cpp / Ollama 能在一台 H100 或一台高配 Mac 上跑 int4 量化版本。社区微调生态在四者中明显最深,每周都有数以千计的 LoRA 与完整 SFT 落到 Hugging Face。官方权重在 llama.com 与 hf.co/meta-llama。
Llama 4 押的是哪条轴
开放多模态生态的规模化普及。Meta 不在 MMLU 或 AIME 上和别人贴身肉搏——它赌的是:最终胜出的开源权重模型,是那个原生多模态能力最强、服务足迹最普遍、下游微调最多的一个。如果你的产品要读图像、团队偏好"摩擦最小的部署路径"、或者你的栈本来就讲 Llama 方言,这就是省心的默认选项。代价是许可证——如果你是大体量消费产品,或是采购流程里一定要 Apache/MIT 的受监管买方,Llama 4 不是那种能不经法务讨论就过审的模型。
DeepSeek V3.2 — 架构详解
架构与训练上的下注
DeepSeek V3.2 是一款 685B 参数的 MoE,每个 token 约激活 37B 参数。它由 V3(2024 年 12 月)→ V3.1(2025 年 8 月,引入混合推理/非推理模式)→ V3.2(2025 年 12 月,引入 DeepSeek Sparse Attention)一脉传承下来。三项架构动作承载了"成本故事":Multi-head Latent Attention(MLA)把 KV cache 压缩成低秩 latent,将内存占用砍到约 1/7 而几乎不损质量;DeepSeek Sparse Attention 学一套稀疏模式,让长序列免去全二次方的注意力开销;无辅助损失的路由策略用一个偏置更新小技巧来平衡 256 个 routed expert 加 1 个 shared expert,而不是给路由器加惩罚项。整个栈以 FP8 混合精度训练,于是一个达到前沿水准的模型,落地成本大约只要稠密同侪一半的 GPU 小时。
把它放进生产里到底是什么样
许可证是 MIT——四者中最宽松,没有 Acceptable Use Policy,也没有命名约束。权重与技术报告都在 Hugging Face;V3.2 的 model card 标注了 BF16、FP8(E4M3)、FP32 张量类型,因此在 H100/H200 上 FP8 推理开箱即用,INT4 社区量化版能跑在更小的机器上。一组 8×H200 节点用 SGLang、vLLM 或 TGI 跑 V3.2 都很从容。地缘政治这块是现实因素:部分美国受监管买方在没有额外安全评审之前不会部署中国实验室的模型,美国推理厂商的 V3 机队也比 Llama 薄。在中国国内,它的生态是四者里最强的。
DeepSeek 押的是哪条轴
推理经济性。DeepSeek 的整条研究路线就是"以最低可行的每 token 成本拿到前沿质量",那些工程动作——MLA、DSA、FP8、稀疏路由——之所以存在,是因为每一项都在压缩 KV cache、长上下文计算量,或者每 token 的美元成本。如果你用"每百万 token 多少美元"来衡量检索与智能体栈、且智能体反复在长上下文里做工具调用,V3.2 是那种真能拨动你单位经济模型的"价/质曲线"的模型。
Qwen3 — 架构详解
架构与训练上的下注
Qwen3 是一个家族:从 0.6B 到 32B 的稠密模型,再加一款 Qwen3-235B-A22B 的 MoE 旗舰,约 22B 激活参数、128 个专家(top-8 路由),整族 Apache 2.0。招牌动作是混合推理——一份 checkpoint 两种行为,通过 prompt 里的 /think 或 /no_think 标志切换。"思考模式"会产生一份对最终答案隐藏的内部草稿、再给答案;"非思考模式"直接跳过草稿,按聊天速度返回。Instruct-2507 与 Thinking-2507 更新于 2025 年 7 月落地,带来更锋利的 agent 能力。原生上下文 256K,靠 YaRN 可扩到约 1M,训练混合覆盖 119 种语言——是四款旗舰里最广的。
把它放进生产里到底是什么样
许可证是整个家族 Apache 2.0——没有 MAU 限制,没有命名要求,商业使用即拿即用。权重在 Hugging Face 与 ModelScope 上发行,并提供官方 GGUF 量化;Qwen-Agent SDK 是一套第一方 agent 运行时,自带 MCP 支持与内置工具模板;DashScope 是阿里的第一方托管 API。稠密兄弟比看上去更重要:当 235B 旗舰太重,14B 或 32B 的稠密 Qwen3 能在单卡上跑出强工具使用能力,把那些跑不起 4 节点推理集群的团队也接进来。Coder 与 Math 兄弟(Qwen3-Coder、Qwen3-Math)继承同一套 agent 后训练形态用于专精任务。
Qwen3 押的是哪条轴
语言覆盖与"agent 化"的推理。如果你的用户是全球性的——CJK、南亚、阿拉伯语、低资源语种都有可观深度——Qwen3 就是默认的开源权重选择;混合推理加上 agent 化后训练意味着工具调用智能体开箱可用,不需要你再外挂 CoT prompt 或单独一个推理模型。稠密兄弟让这个家族的部署区间从单 GPU 一直延伸到推理集群,而这正是"开源权重旗舰"四个字光靠 235B 旗舰一款看不见的部分。
Mistral Large 3 — 架构详解
架构与训练上的下注
Mistral Large 3 是一款稀疏 MoE,41B 激活、675B 总参,2025 年 12 月 2 日发布——是 Mistral 自 Mixtral 系列以来首款 MoE 旗舰,也是截至 2026 年中期此规模上最大、以宽松许可证发布的开源权重 MoE。它支持图像输入(视觉编码器)、文本输出,覆盖 40 + 语种并刻意强化欧洲语种深度,128K 上下文,使用 NVIDIA H200 集群训练。base 与 instruct 变体同期发布;发布时官方预告 reasoning 变体即将上线。在 LMArena 上首发即拿到 OSS 非推理类目第 2,这把它放到了在通用任务上有望逼近闭源旗舰的位置。
把它放进生产里到底是什么样
许可证是 Apache 2.0——这是 Mistral 在话术里始终摆在最前面的一点。没有 MAU 限制、没有领域限定、没有那种每季度都要法务复读一遍的 Acceptable Use Policy。欧盟托管权重与同样欧盟托管的 Mistral AI Studio API 是默认部署路径,Azure AI Foundry、AWS Bedrock、GCP Vertex 是多云合作伙伴。自托管在 vLLM、TGI、Ollama、llama.cpp 上都跑得通;社区量化覆盖 FP8 与 INT4。在四款旗舰里,Large 3 是最容易同时通过采购评审和 GDPR / 欧盟 AI 法案合规评审的那一款。
Mistral Large 3 押的是哪条轴
面向受监管司法辖区的"宽松许可证前沿智能"。它的赌注是:在欧洲银行、电信运营商、国防供应商和医疗系统里能赢的开源权重模型,是那一款其许可证、训练算力位置、托管位置三件事都能在合规团队眼里读得清清楚楚的。它的激活参数量(41B,四者最大)让每 token 成本高于 DeepSeek 那一路,但它本来就被定位成前沿质量的高端档,不是最便宜的那一档。如果你的买方在 MMLU 之前先关心"权重是在哪里训练的、跑在哪里、许可证写了什么",Large 3 就是那个最容易给出干净回答的模型。
横向对比
架构形态——稠密 vs MoE、激活 vs 总参
四者都上了 MoE,所以正确的问题不是"MoE 还是稠密",而是每个激活参数背后挂了多少容量。Llama 4 Maverick 的激活数最紧凑,17B 配 128 个专家,赌路由器能在大量专家里以低每 token 成本挑出对的那位——而 Scout 在此之上配上了所有开源模型里最长的上下文窗口。DeepSeek V3.2 把这套策略推得更远,用 256 routed + 1 shared expert 做出本组最细粒度的稀疏,又叠上 MLA 与 sparse attention,让每 token 的成本优势在长上下文里持续放大。Qwen3 取中间路线(22B 激活、128 个专家),并补上别人没有的两件事:一架从 0.6B 到 32B 的稠密阶梯——给那些跑不动旗舰的团队;以及混合推理模式——让一份 checkpoint 同时服务快和慢两类查询。Mistral Large 3 的激活数最大,41B——明确押的是"前沿质量"那一档,而非"每 token 最便宜"那一档——总参(675B)只比 DeepSeek(685B)小一点,但专家划分更粗。形态图很清楚:DeepSeek 最小化每激活参数的成本,Llama 4 把上下文拉到最长,Qwen3 把部署阶梯铺到最全,Mistral 为质量付费。
推理经济性——上下文、KV cache、FP8 / 量化
推理经济性是智能体工作负载惩罚得最狠的一维:每一次工具调用都重放前缀,每一次长检索都把 KV cache 撑大,而一个 agent 循环会把"每 token 成本"再乘以十倍到五十倍(成本阶梯见成本、质量与延迟)。DeepSeek V3.2 是直接为此做了工程的一家——MLA 把 KV cache 压缩约 7×、DeepSeek Sparse Attention 剪掉长上下文注意力、FP8 既是训练也是推理的默认——所以一个长跑的工具使用 agent,在可比质量下每一回合的成本明显低于其他三家。Qwen3 走的是另一条路:混合 /think 模式让 agent 中那些容易的回合直接跳过草稿,花费随每一步的难度走,而不是一律按完整推理付费。Llama 4 Scout 拥有四者中最长的上下文窗口(10M token,靠 iRoPE),对某些 agent 形态(多文档归纳、跨整个代码库的推理)是亮点,对其他形态则是成本陷阱,因为一个被填满的 10M token 上下文对应的 KV cache 体积惊人;单卡 H100 上的 int4 量化只能在"填得不多"时缓解这一点。Mistral Large 3 的激活参数(41B)最高,被定价为高端档——你不是因为每 token 成本最低而选它;你是因为许可证或司法辖区那一面占主导才选它。
许可证与生态——你究竟能拿来上线、又是以什么条款
许可证是最干净的一条对比轴,却也是大多数规格对比最常跳过的一条。Llama 4 走 Llama 4 Community License:月活在 7 亿以下免费、附带 Acceptable Use Policy,以及"派生模型名必须以 Llama 开头"的命名条款。这对几乎所有团队来说宽松到足以起步,对超大消费产品或受监管买方而言又紧到法务一定会先读一遍。DeepSeek V3.2 是 MIT——纸面上四者中最宽松——但务实的注脚是地缘政治:许多美国受监管买方在没做额外安全评审前不会部署中国实验室的模型,美国推理厂商的 V3 机队也比 Llama 薄。Qwen3 是整族 Apache 2.0,没有 MAU 条款也没有命名要求,在非受限司法辖区里是商业使用最干净的那一款开源权重旗舰,Qwen-Agent + ModelScope + Hugging Face 的组合也让它的生态比初看更深。Mistral Large 3 是前沿规模上的 Apache 2.0——截至 2026 年中期一线实验室发布的最大宽松许可 MoE——并以欧盟托管权重和 Mistral AI Studio 把 GDPR / EU AI Act 答案准备好。对采购流程而言,由易到难的次序大致是:Qwen3 ≈ Mistral Large 3 < Llama 4 < DeepSeek V3.2(其中 DeepSeek 的 MIT 纸面上更宽松,但对美国受监管买方而言实际过审门槛更高)。
该选哪一个
| 使用场景 | 选 Llama 4,当…… | 选 DeepSeek V3.2,当…… | 选 Qwen3,当…… | 选 Mistral Large 3,当…… |
|---|---|---|---|---|
| 每 token 成本占主导 | 只有用 Scout int4 在单 H100 上、上下文不大时勉强成立。 | 选——MLA、DSA、FP8 就是为这道题设计的答案。 | 混合 /think 在容易的那一半 agent 回合里省花费。 | 否——它被定为前沿质量档,不是"最便宜"档。 |
| 原生多模态产品 | 选——early fusion 是架构本身,而非外挂适配器。 | 暂否——V3.2 仅文本;视觉兄弟另立门户。 | Qwen3-VL 兄弟做过视觉—语言后训练。 | 支持图像输入;仅文本输出。 |
| 多语种 agent(非英语用户) | 官方 12 语种;其余偏英语。 | EN + CJK 有深度;其他语种覆盖较薄。 | 选——119 语种,CJK / 南亚 / 低资源都有深度。 | 40 + 语种,刻意强化欧洲语种深度。 |
| 受监管司法辖区 / 严格采购 | 7 亿 MAU 以下可接受;法务须读 AUP。 | 纸面 MIT;CN 来源审查可能拖慢美国部署。 | Apache 2.0,在全球商业使用上干净利落。 | 选——Apache 2.0 + 欧盟托管权重 + GDPR-ready。 |
| 最小可行的服务足迹 | 头条卖点是 Scout int4 单卡 H100;Maverick 要重得多。 | 单组 8×H200 节点跑 V3.2 顺畅,配量化可更小。 | 稠密兄弟(0.6B → 32B)原生覆盖小端。 | 675B 总参需要可观容量;社区量化能帮上忙。 |
常见问题
2026 年中期,这几款里到底哪一款是"最好的"开源权重模型?
没有单一赢家——而把问题当成有单一答案,正是团队被基准榜套住、迟迟不上线的典型方式。诚实的答案是:每款都在自己那条轴上赢——DeepSeek V3.2 赢在"前沿质量下的每 token 成本";Llama 4 赢在"多模态输入与最深生态";Qwen3 赢在"语言覆盖加可部署的稠密阶梯";Mistral Large 3 赢在"面向受监管买方的宽松许可证前沿质量"。如果没有上下文要硬挑一个,Qwen3-235B-A22B 是最稳的默认,因为它的短板分布最均匀、许可证在全球范围也最干净——但"稳的默认"不等于"对你的栈最好"。背后的选型心法见选模型与读懂基准。
这些和闭源前沿(GPT-5、Claude 4.x、Gemini 2.x)比起来怎样?
在通用基准上,差距已收窄到——在大多数非推理任务上,开源权重旗舰与闭源前沿仅差几个百分点;在长程 agent 任务上的差距更大,但每一次发布都在缩小。真正的区别不在 MMLU,而在(a)闭源前沿训练得更精的工具使用、多步推理与安全后训练;(b)闭源前沿那套你不必自己运维的托管基础设施(缓存、批处理、多区域);(c)开源前沿在成本与数据边界上的硬优势。开源与闭源权重模型里那套干净的框架仍然成立:问题不是"哪个更好",而是"我想把权衡落在哪一边"。
我真的需要 MoE 吗?稠密模型是不是就够了?
本对比里每款旗舰都是 MoE,因为在前沿处 MoE 能在每激活 FLOP 上买到更多质量——但对很多生产团队,正确答案仍是更小的稠密模型。Qwen3 把这一点摆得最明白:同一族里从 0.6B 到 32B 都有稠密版;14B 或 32B 的稠密 Qwen3 配上 Qwen-Agent SDK,能在单张消费级 GPU 上跑出带强工具使用能力的 agent 循环,而 235B MoE 旗舰做不到。Mistral 也另发了 Ministral 家族(3B–14B)服务同一类需求。真正需要质量时上 MoE 旗舰;服务成本或延迟占主导时挑稠密兄弟。详见成本、质量与延迟。
为什么"押的轴"才是关键,而不是基准?
因为基准会在彼此之间反复易手——每次发版都翻一次榜,过一个季度——而架构与许可证上的下注会跨版本稳定下来。一支为推理经济性选了 DeepSeek 的团队,到了 V4、V5 还会想要 DeepSeek 路线上的稀疏注意力;一支为 Apache 2.0 选了 Mistral 的团队,到了 Large 4 还会要这条许可证。轴是耐用的选择;基准赢家只是某个时刻的快照。读懂基准里把这条陷阱讲得更细。
开源权重是不是意味着我可以自由微调?
大体上是,每款有一条与许可证形状相关的小注脚。Apache 2.0(Qwen3、Mistral Large 3)与 MIT(DeepSeek V3.2)让你自由微调、自由发布派生模型,甚至自由改名。Llama 4 的 Community License 允许你微调和发布派生模型,但派生模型名必须以 Llama 开头,并且 Acceptable Use Policy 跟着权重一起走。对 LoRA 形态的定制,这些约束很少咬人;对一份会成为你产品表面的完整 SFT,法务应该看一眼。SFT、拒绝采样与蒸馏覆盖了技术面;许可证条款那一段则要逐字读。
那 Llama 4 Behemoth、DeepSeek V4,或者下一个版本呢?
Llama 4 Behemoth 在 2025 年 4 月被预告,但截至 2026 年中期仍未以开源权重发布;把它当路线图、别当产品。DeepSeek 的发布节奏大约是每四个月一次大更新(V3 → V3.1 → V3.2),在本文有效期内出 V4 或 V3.3 是相当可能的事。Qwen 也在保持同样节奏(早 2026 年 Qwen3.5 被报道扩到了更大参数)。"按轴对比"的意义恰恰在于:哪怕版本号不停跳动,那条轴——多模态、推理经济性、语言覆盖、许可证——仍然稳定。推理可以前移;变的只是数字。
延伸阅读
本站相关内容:
- 开源与闭源权重模型——让"该选哪款旗舰"这个问题变得可处理的权衡框架:当权重在你手里时你放弃了什么、又拿到了什么。
- 选模型——把"最好的模型"变成"在这条约束下最好的模型"的约束优先指南。
- 模型家族——为什么一个"模型"其实是一族 checkpoint(base、instruct、thinking、多模态兄弟),以及家族形态为何与旗舰本身一样重要。
- 读懂基准——读 MMLU / GPQA / SWE-bench 数字时怎样不被排行榜动荡牵着走。
- 成本、质量与延迟——决定哪款旗舰的每 token 经济性对你工作负载真正重要的那个三角。
- 推理模型——"思考模式"和混合 /think 在训练时究竟做了什么,以及为何混合 checkpoint 是真正的赢面。
- 推理厂商——当你不想自己托管时,这些开源权重旗舰实际上跑在哪里。
- 智能体 AI 用于交易研究——一个落到具体场景的用法:这些旗舰正好对应那篇文章里「领域 LLM vs 被提示的通用 LLM」决策三角中「被提示的通用 LLM」那一角,每次调用的成本与推理模式的取舍,决定了每款旗舰能在智能体公司里扮演哪个角色。
项目来源:
- Meta — Llama 4 发布博文(Scout、Maverick、Behemoth 预览)
- Llama 4 Scout 在 Hugging Face 上的 model card
- DeepSeek V3.2 在 Hugging Face 上的 model card
- DeepSeek V3.2 发布说明
- Qwen3 GitHub 仓库(Apache 2.0、模型家族、Qwen-Agent SDK)
- Mistral AI — Introducing Mistral 3 / Large 3