开源模型迎来颠覆性突破:DeepSeek-V3与Qwen2.5如何重塑AI格局?

不用再纠结选择哪个AI模型了!chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择,快来体验吧!

在全球人工智能模型快速发展的浪潮中,开源模型正逐渐成为一股不可忽视的力量。近日,DeepSeek-V3和Qwen 2.5系列的相继发布,再次证明了开源模型在技术创新和性能提升上的巨大潜力。这两大模型不仅在多个基准测试中取得了惊人的成绩,更以其高效的训练方法和开放透明的技术细节,为开源社区注入了新的活力。

DeepSeek-V3:以精细化MoE架构挑战闭源巨头

DeepSeek-V3:以精细化MoE架构挑战闭源巨头

DeepSeek-V3是DeepSeek团队推出的一个完全开源的LLM(大型语言模型),其总参数高达6710亿,但每个token仅激活370亿参数。这种高效的参数利用得益于其精细的MoE(混合专家)架构。

DeepSeek-V3采用了创新的MoE架构,每个token都有一个共享专家和256个路由专家,其中8个路由专家处于激活状态。此外,该模型还采用了多头潜在注意力机制,具有低等级联合压缩,用于关注键和值。多token预测技术则有助于投机解码和更好地利用训练数据。

在训练方面,DeepSeek-V3使用了14.8万亿个token,训练成本仅为560万美元,使用了2788K H800 GPU小时。如此高效的训练得益于精细的MoE架构、FP8混合精度训练以及动态调整上下文长度。DeepSeek团队通过算法、框架和硬件的协同设计,克服了大型MoE模型训练中的通信瓶颈,实现了在训练中有效利用计算资源。两阶段的上下文长度扩展,首先将上下文从4k令牌扩展到32k令牌,然后扩展到128k令牌,使得模型的长文本处理能力得到了显著提升。

DeepSeek-V3在多个基准测试中的表现令人印象深刻,例如在MMLU上达到了88.5,在GPQA上达到了59.1,在MATH上达到了90.2。其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美,证明了开源模型在性能上完全有能力挑战闭源巨头。

DeepSeek团队不仅在HuggingFace上共享了模型,还在其“DeepSeek-V3技术报告”中提供了有关模型的详细信息,这种开放透明的态度无疑将加速开源社区的共同进步。

Qwen 2.5:以长上下文和多模态能力引领开源潮流

阿里巴巴Qwen团队推出的Qwen 2.5系列LLM,同样在开源模型领域取得了显著进展。Qwen 2.5系列由多个开放式权重基础和指令调整模型组成,参数范围从0.5B到72B。此外,还有两种专有的混合专家(MoE)型号,Qwen2.5-Turbo和Qwen2.5-Plus。

Qwen 2.5系列模型在架构上采用了基于Transformer的解码器,并利用了分组查询注意力(GQA)、SwiGLU激活、旋转位置嵌入(RoPE)等技术。在训练方面,Qwen团队将训练前数据集扩展到18万亿个代币,并纳入了更多样和高质量的数据。训练后,他们使用了超过100万个样本的复杂监督微调(SFT),并结合了多阶段强化学习(DPO,然后是GRPO)。

Qwen 2.5系列模型的最大亮点在于其强大的长上下文处理能力。该系列模型利用YARN和Dual Chunk Attention(DCA)技术,使Qwen2.5-Turbo的上下文长度高达100万个令牌。此外,Qwen团队还发布了基于Qwen 32B的推理AI模型Qwen QwQ,以及基于Qwen2-VL-72B的视觉推理模型QvQ,进一步丰富了Qwen模型家族的功能。

在性能方面,Qwen2.5-72B-Instruct的性能可与Llama-3-405B-Instruct相媲美。Qwen2.5-Turbo在1M令牌密码检索任务中实现了100%的准确率。Qwen 2.5还进一步成为他们最新和最伟大的专业模型的基础:Qwen2.5-Math、Qwen2.5-Coder、QwQ和QvQ等多模态模型。

与DeepSeek团队一样,阿里巴巴Qwen团队也发布了Qwen2.5技术报告,提供了关于该系列模型的详细信息,体现了开源社区的开放精神。

推动AI技术

结语

DeepSeek-V3和Qwen 2.5系列的发布,无疑是开源模型发展史上的重要里程碑。它们以其卓越的性能、高效的训练方法和开放透明的技术细节,为开源社区注入了新的活力,也为AI技术的未来发展指明了方向。我们有理由相信,随着开源社区的不断壮大,开源模型必将在未来的AI竞争中扮演越来越重要的角色。

不用再纠结选择哪个AI模型了!chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择,快来体验吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948214.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Java项目】基于SpringBoot的【新生宿舍管理系统】

【Java项目】基于SpringBoot的【新生宿舍管理系统】 技术简介:本系统使用采用B/S架构、Spring Boot框架、MYSQL数据库进行开发设计。 系统简介:管理员登录进入新生宿舍管理系统可以查看首页、个人中心、公告信息管理、院系管理、班级管理、学生管理、宿舍…

《learn_the_architecture_-_trustzone_for_aarch64_102418_0101_03_en》学习笔记

1.TrustZone是Arm A-profile架构中安全架构的名称。TrustZone首次在Armv6K中引入,Armv7-A和Armv8-A也支持。TrustZone提供两个执行环境,它们之间具有系统范围的硬件强制隔离。在Arm架构中,有两种安全状态:安全和非安全。在EL0、EL…

Excel | 空格分隔的行怎么导入excel?

准备工作:windows,一个记事本程序和微软的Excel软件。 打开记事本,选中所有内容,按CtrlA全选,然后复制(CtrlC)。 在Excel中,定位到你想粘贴的单元格,按CtrlV进行粘贴。粘贴后,你会在…

南京观海微电子----GH7009国宇测试盒使用

1. SPI接线 针对7009: 2. 国宇上位机代码准备 在主函数首尾两端加入IO2时序控制的代码、以及国语SPI有效位控制的代码(请注意7009和其他700x使用的有效位控制不一致,需要用哪一款加入哪一行即可): 三、国宇SPI读的使…

Arduino Uno简介与使用方法

目录 一、Arduino Uno概述 1. 硬件特性 2. 开发环境 二、Arduino Uno的基本使用方法 1. 硬件连接 2. 软件编程 三、Arduino Uno编程基础 1. 基本语法 2. 常用函数 四、Arduino Uno应用举例 1. LED闪烁 2. 温度检测 3. 超声波测距 五、Arduino Uno的扩展与应用 1…

使用命令行管理git项目

# 初始化一个新的Git仓库 git init # 添加文件到暂存区 git add <file> # 提交暂存区的更改到仓库 git commit -m "commit message" # 查看当前仓库的状态 git status # 查看提交历史 git log # 查看文件的改动 git diff <file> # 创建一个新…

网络安全的学习与实践经验(附资料合集)

学习资源 在线学习平台&#xff1a; Hack This Site&#xff1a;提供从初学者到高级难度的挑战任务&#xff0c;适合练习各种网络安全技术。XCTF_OJ&#xff1a;由XCTF组委会开发的免费在线网络安全网站&#xff0c;提供丰富的培训材料和资源。SecurityTube&#xff1a;提供丰…

基于STM32的热带鱼缸控制系统的设计

文章目录 一、热带鱼缸控制系统1.题目要求2.思路3.电路仿真3.1 未仿真3.2 开始仿真&#xff0c;显示屏显示水温、浑浊度、光照强度等值3.3 当水温低于阈值&#xff0c;开启加热并声光报警3.4 当浑浊度高于阈值&#xff0c;开启自动换水并声光报警3.5 当光照低于阈值&#xff0c…

【DevOps】Jenkins项目发布

Jenkins项目发布 文章目录 Jenkins项目发布前言资源列表基础环境一、Jenkins发布静态网站1.1、项目介绍1.2、部署Web1.3、准备gitlab1.4、配置gitlab1.5、创建项目1.6、推送代码 二、Jenkins中创建gitlab凭据2.1、创建凭据2.2、在Jenkins中添加远程主机2.3、获取gitlab项目的UR…

SSM-SpringMVC

目录 “为什么要学 SpringMVC&#xff1f;它和 Servlet 是什么关系&#xff1f;” “什么是异步&#xff1f;为什么异步交互中常用 JSON 格式&#xff1f;异步请求和 JSON 如何配合&#xff1f;” 一、概述 SpringMVC主要负责 1 SpringMVC的常用组件 2 SpringMVC的工作流程…

基层医联体医院患者历史检验检查数据的快速Python编程分析

​​​​​​​ 一、引言 1.1 研究背景与意义 在当今数字化医疗时代,医疗数据呈爆炸式增长,涵盖患者的基本信息、病史、检验检查结果、治疗方案等各个维度。这些海量且复杂的数据蕴含着巨大价值,为精准医疗决策提供了关键依据。通过对患者历史检验检查数据的深入对比分析…

计算机网络基础(7)中科大郑铨老师笔记

应用层 目标&#xff1a;  网络应用的 原理&#xff1a;网络应用协议的概念和实现方面 传输层的服务模型 客户-服务器模式 对等模式(peerto-peer) 内容分发网络  网络应用的 实例&#xff1a;互联网流行的应用层协 议  HTTP  FTP  SMTP / POP3 / IMAP  DNS…

Fabric环境部署-Git和Node安装

一.安装Git&#xff08;v2.43.0&#xff09; Git 是一个开源的分布式版本管理系统&#xff08;也是全球最大的开源软件存储服务器&#xff09;&#xff0c;用于敏捷高效地处理任何或小或大的项目。搭建区块链需要使用Git&#xff0c;因为区块链的开发和部署需要使用版本控制工…

SAP MM物料管理模块常见BAPI函数清单

【SAP系统研究】 #SAP #MM #物料管理 #函数 #BAPI 1、物料主数据 BAPI_MATERIAL_SAVEDATA 创建/更改物料主数据 BAPI_MATERIAL_SAVEREPLICA 物料主数据视图扩充 BAPI_MATERIAL_EXISTENCECHECK 检查物料主数据是否存在 BAPI_MATERIAL_GETLIST 显示物料主数据明细 BAPI_MATERIALG…

Windows11安装Oracle11g以及plsqldev工具连接配置

文章目录 一、安装Oracle数据库软件二、配置数据库三、配置监听&#xff08;listener.ora&#xff09;四、本地网络服务名配置&#xff08;tnsnames.ora&#xff09;五、网络服务名配置以及监听文件路径六、plsqldev工具连接Oracle配置 一、安装Oracle数据库软件 点击“setup.…

unity学习6:unity的3D项目的基本界面和菜单

目录 1 unity界面的基本认识 1.1 file 文件 1.2 edit 编辑/操作 1.3 Assets 1.4 gameobject 游戏对象 1.5 组件 1.6 windows 2 这些部分之间的关系 2.1 关联1&#xff1a; Assets & Project 2.2 关联2&#xff1a;gameobject & component 2.3 关联3&#xf…

HTML5新特性|06 文本效果text-shadowword-wrap自定义字体

文本效果 1、CSS3包含多个新的文本特性 属性: text-shadow:水平阴影 垂直阴影 模糊距离 阴影颜色 word-wrap&#xff1a;用于指定当文本溢出其容器的边界时如何处理换行的问题 浏览器支持: Internet Explorer 10、Firefox、 Chrome、 Safari 以及Opera支持text-shadow属性…

【踩坑指南2.0 2025最新】Scala中如何在命令行传入参数以运行主函数

这个地方基本没有任何文档记录&#xff0c;在学习的过程中屡屡碰壁&#xff0c;因此记录一下这部分的内容&#xff0c;懒得看可以直接跳到总结看结论。 踩坑步骤 首先来看看书上让我们怎么写&#xff1a; //main.scala object Start {def main(args:Array[String]) {try {v…

【路径跟踪】PIDMPC

路径跟踪&#xff08;Path Tracking&#xff09;是指在实际行驶过程中&#xff0c;根据预先规划好的路径进行控制&#xff0c;能够沿着设定的路径行驶。常见的路径跟踪算法包括基于模型的控制方法&#xff08;如PID控制器&#xff09;、模型预测控制&#xff08;Model Predicti…

python3GUI--智慧交通监控与管理系统 By:PyQt5

文章目录 一&#xff0e;前言二&#xff0e;预览三&#xff0e;软件组成&技术难点1.软件组成结构2.技术难点3.项目结构 四&#xff0e;总结 大小&#xff1a;35.5 M&#xff0c;软件安装包放在了这里! 一&#xff0e;前言 博主高产&#xff0c;本次给大家带来一款我自己使…