DeepSeek-V3 正式发布，已在网页端和 API 全面上线，性能领先，速度飞跃。

DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中，DeepSeek-V3 在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。

简介

DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型，总共有 671B 个参数，每个 token 激活 37B。为了实现高效的推理和经济高效的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了彻底的验证。此外，DeepSeek-V3 开创了一种无辅助损失的负载平衡策略，并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练，然后进行监督微调和强化学习阶段，以充分利用其功能。综合评估表明，DeepSeek-V3 优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外，它的训练过程非常稳定。

模型摘要

架构：创新负载平衡策略和训练目标

DeepSeek-V3 基本架构图。 遵循 DeepSeek-V2，在 DeepSeek-V2 高效的架构之上采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练，首创了一种无辅助损失的负载平衡策略，最大限度地减少了因鼓励负载平衡而导致的性能下降。还研究了多标记预测 (MTP) 目标，并证明它有利于模型性能。它还可以用于推测解码以加速推理。

预训练：实现终极训练效率

我们设计了FP8混合精度训练框架，并首次在超大规模模型上验证了FP8训练的可行性和有效性。通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了完全计算-通信重叠。这大大提高了我们的训练效率并降低了训练成本，使我们能够在不增加额外开销的情况下进一步扩大模型规模。我们以仅 2.664M H800 GPU 小时的经济成本，在 14.8T token 上完成了 DeepSeek-V3 的预训练，得到了目前最强的开源基础模型，预训练之后的后续训练阶段仅需 0.1M GPU 小时。

训练后：来自 DeepSeek-R1 的知识提炼

我们引入了一种创新方法，将长思维链 (CoT) 模型（特别是 DeepSeek R1 系列模型之一）中的推理能力提炼到标准 LLM（尤其是 DeepSeek-V3）中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3，并显著提高了其推理性能。同时，我们还控制了 DeepSeek-V3 的输出样式和长度。

模型下载

DeepSeek-V3-基础版 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
DeepSeek-V3 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3

注：HuggingFace 上的 DeepSeek-V3 模型总大小为 685B，其中包括 671B 的主模型权重和 14B 的多令牌预测（MTP）模块权重。

为了确保最佳性能和灵活性，我们与开源社区和硬件供应商合作，提供多种在本地运行模型的方法。有关分步指导，请查看第 6 节：如何在本地运行。

对于希望深入了解的开发人员，我们建议浏览README_WEIGHTS.md，了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意，MTP 支持目前正在社区内积极开发，我们欢迎您的贡献和反馈。