DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。
简介
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。
模型摘要
架构:创新负载平衡策略和训练目标
DeepSeek-V3 基本架构图。 遵循 DeepSeek-V2,在 DeepSeek-V2 高效的架构之上采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练,首创了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。还研究了多标记预测 (MTP) 目标,并证明它有利于模型性能。它还可以用于推测解码以加速推理。
预训练:实现终极训练效率
我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全计算-通信重叠。 这大大提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T token 上完成了 DeepSeek-V3 的预训练,得到了目前最强的开源基础模型,预训练之后的后续训练阶段仅需 0.1M GPU 小时。
训练后:来自 DeepSeek-R1 的知识提炼
我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,并显著提高了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。
模型下载
-
DeepSeek-V3-基础版 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
-
DeepSeek-V3 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3
注:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多令牌预测(MTP)模块权重。
为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种在本地运行模型的方法。有关分步指导,请查看第 6 节:如何在本地运行。
对于希望深入了解的开发人员,我们建议浏览README_WEIGHTS.md,了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发,我们欢迎您的贡献和反馈。
评估结果
基础模型
标准基准
最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳表现,尤其是在数学和代码任务上。
上下文窗口
(NIAH) 测试的评估结果Needle In A Haystack。DeepSeek-V3 在高达128K 的所有上下文窗口长度上均表现良好。
聊天模型
标准基准(大于 67B 的模型)
所有模型的评估配置均将输出长度限制为 8K。包含少于 1000 个样本的基准测试会使用不同的温度设置进行多次测试,以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也表现出了竞争力。
开放式生成评估
英语开放式对话评估。对于 AlpacaEval 2.0,使用长度控制的胜率作为衡量标准。
聊天网站和 API 平台
-
在DeepSeek的官方网站上与DeepSeek-V3聊天: chat.deepseek.com
-
在DeepSeek平台上提供与 OpenAI 兼容的 API: platform.deepseek.com
本地运行
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
-
DeepSeek-Infer 演示:为 FP8 和 BF16 推理提供了一个简单、轻量级的演示。
-
SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。
-
LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。
-
TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。
-
vLLM:支持具有 FP8 和 BF16 模式的 DeekSeek-V3 模型,实现张量并行和流水线并行。
-
AMD GPU:支持在 BF16 和 FP8 模式下通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型。
-
华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。