DeepSeek训练成本与技术揭秘

引言:在当今人工智能蓬勃发展的时代,DeepSeek 宛如一颗耀眼的新星,突然闯入大众视野,引发了全球范围内的热烈讨论。从其惊人的低成本训练模式,到高性能的模型表现,无一不让业界为之侧目。它打破了传统认知,让人们重新审视 AI 研发的成本与效率。然而,这背后的真相究竟如何?真实的训练成本到底几何?闭源模型的利润又受到怎样的冲击?H100 的价格飙升与它有何关联?补贴推理定价又隐藏着哪些秘密?出口管制对其又会产生怎样的影响?还有多头潜在注意力(MLA)技术究竟有着怎样的神奇之处?让我们一同深入这场 DeepSeek 引发的行业大辩论,探寻其中的奥秘 。

图片

DeepSeek 在短时间内迅速成为全球关注的焦点。尽管该公司并不是新成立的,但近期它获得了前所未有的关注和讨论热度,甚至超过了其他知名的人工智能产品如Claude、Perplexity和Gemini。

对于密切关注这一领域的人来说,DeepSeek 的崛起并不令人意外。几个月以来,行业内一直在讨论 DeepSeek 的潜力与成就。然而,随着公众的关注度激增,这种狂热的关注程度似乎并不完全反映现实情况。作者认为,最近关于 DeepSeek 的讨论转向了其算法改进的速度,以及这是否对 Nvidia 和 GPU 市场造成了负面影响。

最新观点是,DeepSeek 的效率如此之高,以至于不再需要更多的计算资源,这导致了现有计算能力的过剩。尽管 Jevons 悖论(即技术进步虽然提高了效率,但总体上却增加了资源消耗)也被过度炒作,但在现实中,模型的进步确实已经影响到了 H100 和 H200 等硬件的价格。

DeepSeek 的迅猛发展不仅改变了人们对人工智能效率的看法,也对现有的硬件市场产生了实际的影响。

DeepSeek与High-Flyer的关系

High-Flyer是一家中国的对冲基金,早在AI技术被广泛应用于金融领域之外之前,他们就已经认识到AI的潜力,并且特别关注到了扩展性(scaling)的重要性。因此,High-Flyer一直在增加其GPU供应,以支持更大规模的AI模型训练。

图片

2021年,在任何出口限制措施实施之前,High-Flyer就果断投资购买了10,000个A100 GPU,用于大规模模型训练实验。这项战略决策后来被证明是非常成功的,为公司带来了显著的竞争优势。

图片

随着High-Flyer在AI能力上的持续进步,他们决定于2023年5月剥离出一个独立实体——DeepSeek。DeepSeek的目标是专注于进一步发展AI技术。由于当时外界投资者对AI的兴趣有限,尤其是考虑到缺乏明确的商业模式,DeepSeek主要由High-Flyer自我资助。

如今,DeepSeek已经发展成为一个严肃、有组织的努力方向,远远超出了媒体所称的“副项目”。High-Flyer和DeepSeek之间经常共享资源,包括人力和技术计算资源。据估计,仅在GPU投资方面,DeepSeek的投资额已经超过5亿美元,即使考虑到了出口控制的影响。

DeepSeek从一个内部项目的起源到成长为一个独立且重要的AI研发公司的历程。它强调了早期对AI技术和硬件基础设施的战略投资如何奠定了成功的基础,并指出了资源共享对于保持竞争力的重要性。DeepSeek的发展故事也反映了AI技术领域内,早期识别趋势并采取行动的重要性。

DeepSeek的GPU资源分布

DeepSeek拥有大约50,000个Hopper架构的GPU,其中包括10,000个H800和10,000个H100型号。此外,他们还订购了大量的H20型号GPU,这些GPU专为中国市场设计。尽管H800与H100具有相同的计算能力,但其网络带宽较低。H20是当前唯一对中国模型提供商可用的型号。这些GPU不仅用于DeepSeek,也服务于High-Flyer,地理上分散部署,支持交易、推理、训练和研究等多种任务。

图片

DeepSeek在服务器上的总资本支出约为16亿美元,其中约9.44亿美元用于集群的运营成本。与其他AI实验室和超大规模企业类似,DeepSeek面临的挑战之一是如何有效集中资源进行特定任务的训练。

DeepSeek专注于从中国顶尖大学如北京大学和浙江大学招募人才,强调能力和好奇心而非过往资历。公司提供高度灵活的工作环境,并以访问大量GPU资源为吸引点。为优秀候选人提供的年薪超过130万美元,远高于其他大型中国科技公司和AI实验室的标准。目前DeepSeek有约150名员工,但正在快速扩展。Deepseek核心创始团队成员的学历高校与技术背景如下:

成员

学历高校

技术背景

梁文锋

浙江大学电子信息工程专业本科、信息与通信工程硕士

2013年与同学创立杭州雅克比投资管理有限公司,2015年成立杭州幻方科技有限公司,2016年幻方量化推出首个基于深度学习的交易模型,2023年创办DeepSeek,有丰富的量化投资和AI领域经验

罗福莉

北京大学计算语言学硕士

曾在阿里巴巴达摩院从事预训练语言模型相关工作,2022年加入幻方量化,参与DeepSeek大模型的关键研发

高华佐

北京大学物理学院(本科,保送至)

2012年获第29届全国中学生物理竞赛一等奖,在Transformer架构基础上,用新的MLA替代传统多头注意力机制等,推动DeepSeek架构创新

曾旺丁

北京邮电大学人工智能学院硕士

主要学习人工智能方向,参与DeepSeek-V2创新,在Transformer架构创新等方面有贡献

邵智宏

清华大学交互式人工智能(CoAI)课题组博士生

曾服务于微软研究院,主要研究自然语言处理、深度学习,参与DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder -v2等项目研发

朱琪豪

北京大学计算机学院博士

专注于深度代码学习研究,发表CCF -A类论文16篇,获软件工程领域顶级会议杰出论文奖,主导开发DeepSeek大模型关键项目

代达劢

北京大学

参与DeepSeek大模型从V1到V3每一代的研发

赵成钢

清华大学

曾在英伟达公司实习,衡水中学时获全国青少年信息学奥林匹克竞赛银牌,大学期间三次获得世界大学生超算竞赛冠军,负责DeepSeek大模型训练及推理基础架构

吴俣

北京航空航天大学计算机学院博士

曾在微软亚洲研究院工作,参与小冰和必应百科项目,是DeepSeek后训练团队的负责人

作为一家自筹资金的小型创业公司,DeepSeek能够迅速行动并实施新想法,避免了大公司的官僚障碍。类似于谷歌,DeepSeek运行自己的数据中心,这为其提供了进一步实验的空间,促进了全栈创新。DeepSeek被认为是当前最好的“开放权重”实验室之一,超越了Meta的Llama项目和其他竞争对手如Mistral。

DeepSeek凭借其丰富的GPU资源、高额的资金投入、独特的招聘策略以及灵活高效的组织文化,在AI领域尤其是开放权重研究方面占据了领先地位。其成功展示了小而精且高度聚焦的初创公司在推动技术创新方面的巨大潜力。

DeepSeek的训练成本及其性能

最近引起轰动的一个头条新闻提到,DeepSeek V3的训练成本为“600万美元”。然而,这个数字仅指的是预训练阶段的GPU成本,并不能代表整个模型开发和训练的全部成本。

据报道,DeepSeek在硬件上的总支出已经超过5亿美元,这还不包括研发费用和其他重要开支。新架构创新的研发过程中,测试新想法、新架构以及进行消融实验都需要大量的资金投入。例如,DeepSeek的关键创新之一——多头潜在注意力(Multi-Head Latent Attention),花费了几个月的时间开发,涉及了大量的人力和GPU资源。

完整的成本结构:

  • 预训练成本:仅为整个模型成本的一部分,具体指用于预训练阶段的GPU成本。

  • 研发成本:包括探索新架构、验证新想法等所需的实验成本。

  • 硬件总拥有成本(TCO):包括硬件的购买、维护和运营成本。

  • 其他成本:如数据收集与清理、员工薪酬等。

对比其他模型:

  • 以Claude 3.5 Sonnet为例,其训练成本高达数千万美元。如果Anthropic只需支付这些费用,他们就不会从谷歌和亚马逊筹集数十亿美元的资金。这是因为除了训练本身,还需要进行大量的实验、架构设计、数据处理等工作。

DeepSeek能够拥有如此大规模的计算集群,关键在于出口管制的滞后。尽管目前对中国的某些高性能GPU实施了出口限制,但DeepSeek早在这些限制生效之前就已经积累了大量的A100 GPU。此外,他们还订购了大量的H20型号GPU,这是专门为满足中国市场的需求而生产的。

V3模型的性能对比

  • V3无疑是一个令人印象深刻的模型,但其“令人印象深刻”的定义需要具体化。许多人将V3与GPT-4o进行比较,并指出V3在性能上超越了GPT-4o。虽然这是事实,但需要注意的是,GPT-4o发布于2024年5月,而在AI领域,这段时间已经带来了显著的算法进步。

图片

  • 随着时间的推移,使用较少的计算资源实现相同或更强的能力是正常的。例如,现在可以在笔记本电脑上运行的小型模型可以达到与GPT-3相当的性能,而GPT-3最初需要超级计算机来训练和多个GPU来进行推理。这种现象表明,算法改进使得相同的计算能力可以在更小的计算资源上实现。

图片

计算成本的下降:

  • AI实验室通常会在绝对美元支出上投入更多,以获得更高的智能水平。估计每年算法进步的速度为4倍,意味着每过一年,实现相同能力所需的计算资源减少4倍。Anthropic的CEO Dario甚至认为,算法进展可能更快,能达到10倍的改进。

  • 对于GPT-3质量的推理成本,已经下降了1200倍。对于GPT-4的成本调查也显示了类似的下降趋势,尽管这一趋势在早期阶段更为明显。

图片

  • 算法改进和优化不仅降低了成本,还提高了能力。例如,在某些情况下,可以看到成本降低了10倍,同时能力提升了10倍。

DeepSeek的独特之处

  • DeepSeek的独特之处在于它首先达到了这种成本和能力的水平,并且率先发布了开放权重(open weights)。虽然Mistral和Llama等之前的模型也曾这样做,但DeepSeek在这方面仍然是先驱者。

  • 到今年年底,如果成本再降低5倍也不足为奇。这反映了算法改进的速度以及DeepSeek在这一领域的持续领先地位。

R1与o1的性能关系

R1能够取得与o1相当的结果,尤其是在推理性能方面。比如在化学、数学和编码等任务上,R1能与o1比肩。R1在推理性能上虽与o1匹配,但在其他指标上并非总是领先,甚至在不少情况下表现不如o1。R1论文中未提及所有基准测试结果,尤其是那些它不占优势的测试,这使得直接比较R1和o1具有一定的难度。

图片

当前的新范式聚焦于通过合成数据生成和在现有模型上进行后训练强化学习来提升推理能力。与依赖预训练的旧范式相比,新范式迭代速度更快、成本更低,进入门槛也更低,更容易优化。这使得DeepSeek能以较低成本更快地复制o1的方法,从而快速取得进展。

尽管DeepSeek未公布训练R1所使用的计算资源,但生成合成数据和进行强化学习都需要大量计算。在资源相对有限的情况下,DeepSeek能快速赶上o1,体现了其高效利用资源的能力。

图片

另外,o3模型能力显著高于R1和o1。OpenAI展示的o3在基准测试中的垂直扩展能力,表明尽管DeepSeek的R1取得了明显进步,但在AI领域仍存在更高的技术水平,还有很大的发展空间。

DeepSeek的技术成就

技术创新:

  • 多令牌预测(MTP):DeepSeek V3采用了前所未有的大规模多令牌预测技术。这种技术通过添加注意力模块来预测接下来的几个令牌,而非单一令牌,从而提高了训练期间的模型性能,并在推理时可以被丢弃。

  • 混合专家模型(MoE):V3是一个由多个小专家模型组成的混合专家模型,每个专家模型专注于不同的任务。DeepSeek实现了一个“门控网络”,有效地将令牌路由到正确的专家模型,从而提高了路由效率并减少了训练过程中每令牌相对模型总体大小的参数变化。

  • 多头潜在注意力(MLA):MLA是减少推理成本的关键创新之一。它通过减少每个查询所需的KV缓存量(约93.3%),显著降低了硬件需求和成本。

训练效率:

  • 混合专家模型面临的挑战是如何确定哪个令牌应路由到哪个子模型或“专家”。DeepSeek通过实施一个高效的门控网络解决了这一问题,确保路由过程不会影响模型性能。

  • 强化学习(RL)在R1的训练中起到了重要作用,特别是在格式化和有用性及无害性方面的优化。

推理效率:

  • MLA通过减少每个查询所需的KV缓存量,大幅降低了硬件需求和成本,DeepSeek可能以成本价提供推理服务以获取市场份额。

参考文献:https://semianalysis.com/2025/01/31/deepseek-debates/


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967093.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas)

计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas) 文章目录 计算机视觉语义分割——Attention U-Net(Learning Where to Look for the Pancreas)摘要Abstract一、Attention U-Net1. 基本思想2. Attention Gate模块3. 软注意力与硬注意力4. 实验…

<论文>DeepSeek-R1:通过强化学习激励大语言模型的推理能力(深度思考)

一、摘要 本文跟大家来一起阅读DeepSeek团队发表于2025年1月的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | Papers With Code》,新鲜的DeepSeek-R1推理模型,作者规模属实庞大。如果你正在使用Deep…

【PDF提取内容】如何批量提取PDF里面的文字内容,把内容到处表格或者批量给PDF文件改名,基于C++的实现方案和步骤

以下分别介绍基于 C 批量提取 PDF 里文字内容并导出到表格,以及批量给 PDF 文件改名的实现方案、步骤和应用场景。 批量提取 PDF 文字内容并导出到表格 应用场景 文档数据整理:在处理大量学术论文、报告等 PDF 文档时,需要提取其中的关键信…

collabora online+nextcloud+mariadb在线文档协助

1、环境 龙蜥os 8.9 docker 2、安装docker dnf -y install dnf-plugins-core dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sed -i shttps://download.docker.comhttps://mirrors.tuna.tsinghua.edu.cn/docker-ce /etc/yum.repos.…

Meta AI 最近推出了一款全新的机器学习框架ParetoQ,专门用于大型语言模型的4-bit 以下量化

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

w198基于Springboot的智能家居系统

🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…

电脑连接wifi但是浏览器打开不了网页,使用手机热点能正常使用

电脑连接wifi但是浏览器打开不了网页,使用手机热点能正常使用 打开控制面板 打开网络和Internet(查看网络状态和任务) 点击更改适配器设置 双击WLAN 点击属性并双击打开Internet 协议版本4(TCP/IPv4) 将自动…

蓝桥杯K倍区间(前缀和与差分,取模化简)

输入 5 2 1 2 3 4 5 输出 6 思路:首先由连续子串和可以想用前缀和,由于加减法总和取模和分别取模结果不受影响,所以我们前缀和之后直接取模方便观察性质,本题前缀和:1,3,6,10&#…

《Wiki.js知识库部署实践 + CNB Git数据同步方案解析》

一、wiki.js 知识库简介 基本概述 定义 :Wiki.js 是一个开源、现代、轻量且功能强大的 Wiki 应用程序,基于 Node.js 构建,旨在帮助个人和团队轻松创建、管理和共享知识。开源性质 :它遵循 AGPLv3 许可证,任何人都可以…

递增三元组(蓝桥杯18F)

暴力求解&#xff1a; #include<iostream> using namespace std; int main() {int N;cin >> N;int* A new int[N];int* B new int[N];int* C new int[N];for (int i 0; i < N;i) {cin >> A[i];}for (int i 0; i < N; i) {cin >> B[i];}for…

【抽象代数】1.2. 半群与群

群的定义 群非空集合二元运算性质 定义1. 设 为一个非空集合&#xff0c;上有二元运算&#xff0c;满足结合律&#xff0c;则称或为一个半群。 定义2. 设 为半群&#xff0c;若元素 满足 &#xff0c;则称 为 的左幺元&#xff08;右幺元&#xff1a;&#xff09;&#…

idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡

idea如何使用AI编程提升效率-在IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤-卓伊凡 问题 idea编译器 安装copilot AI工具 实际操作 在 IntelliJ IDEA 中安装 GitHub Copilot 插件的步骤如下&#xff1a; 打开 IntelliJ IDEA&#xff1a; 打开你的 IntelliJ IDEA 应用…

机器学习之数学基础:线性代数、微积分、概率论 | PyTorch 深度学习实战

前一篇文章&#xff0c;使用线性回归模型逼近目标模型 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于 强化学习必修课&#xff1a;引领人工智能新时代【梗直哥瞿炜】 线性代数、微积分、概率论 …

生成式聊天机器人 -- 基于Pytorch + Global Attention + 双向 GRU 实现的SeqToSeq模型 -- 上

生成式聊天机器人 -- 基于Pytorch Global Attention 双向 GRU 实现的SeqToSeq模型 -- 上 前言数据预处理下载并加载数据原始数据格式化数据清洗与字典映射转换为模型需要的数据格式 SeqToSeq 模型Encoder 编码器Decoder 解码器全局注意力机制解码器实现 前言 本文会介绍使用…

Maven 安装配置(完整教程)

文章目录 一、Maven 简介二、下载 Maven三、配置 Maven3.1 配置环境变量3.2 Maven 配置3.3 IDEA 配置 四、结语 一、Maven 简介 Maven 是一个基于项目对象模型&#xff08;POM&#xff09;的项目管理和自动化构建工具。它主要服务于 Java 平台&#xff0c;但也支持其他编程语言…

我们来学人工智能 -- 将Ollama已下载的模型从C盘迁出

题记 未配置OLLAMA_MODELS系统变量导致模型下载到了C盘 迁移步骤 退出ollama 配置OLLAMA_MODELS系统变量 OLLAMA_MODELS&#xff1a;D:\ollama\models 直接将C盘下的models目录剪切到指定目录 检查 cmd命令窗口退出重新打开

AIGC-微头条爆款文案创作智能体完整指令(DeepSeek,豆包,千问,Kimi,GPT)

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列AIGC(GPT、DeepSeek、豆包、千问、Kimi)👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资…

数据库5(MySQL版)

作业要求 触发器 mysql> create trigger after_order_insert -> after insert on orders -> for each row -> update goods set num num - new.onum where gid new.gid; mysql> create trigger after_order_delete -> after delete on or…

python 语音识别方案对比

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

Neo4j图数据库学习(二)——SpringBoot整合Neo4j

一. 前言 本文介绍如何通过SpringBoot整合Neo4j的方式&#xff0c;对图数据库进行简单的操作。 Neo4j和SpringBoot的知识不再赘述。关于Neo4j的基础知识&#xff0c;有兴趣可以看看作者上一篇的文章&#xff1a;Neo4j图数据库学习(一)——初识CQL 二. 前置准备 新建SpringBo…