阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

6 月 27 日,全球知名的开源平台 Hugging Face 的联合创始人兼首席执行官 Clem 在社交平台激动宣布,阿里 Qwen2-72B 成为了开源模型排行榜的王者。

Clem社交平台消息

这是一件大好事,说明了我们在大模型领域从先前的追赶,逐渐走向了领导,未来完全有可能会引领着全球开源模型的发展潮流,这是我们的骄傲!

不过话说回来,Qwen2 序列有 5 个参数版本,分别是 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B。本次排行榜第一的是 Qwen2-72B 参数版本,那么其他参数版本的评测结果如何呢?老牛同学查看了 Qwen2 的官方文档,有一些比较评测:https://qwenlm.github.io/zh/blog/qwen2/

Qwen2-72B 如 Clem 宣布一样,包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型:

Qwen2-72B评测结果

Qwen2-7B 模型在自然语言理解数学 方面均有点落后了:

Qwen2-7B评测结果

其他参数版本没有评测结果,老牛同学猜测是其他大模型没有对等的参数版本,因此无法进行比较,或者不相上下,也就没有必要把结果放出来了。

老牛同学的疑问

那么老牛同学的问题来了:阿里 Qwen2-72B 大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?

老牛同学带着这个问题咨询了几位同事,也问了Qwen2-7B大模型,他们的回答均有一定道理,但老牛同学猜测,Qwen 这么做的核心目的只有一个:丰富 Qwen 大模型生态

原因一: 训练 Qwen 中小尺寸参数成本并不高】

以阿里人才储备、基础设施和高层 All in AI 的决心和投入,训练 Qwen 中小参数版本的模型应该不是什么难事,顺手即可做的事情,相对来说成本并不高

原因二: 快速进行迭代和模型参数优化演进】

通过快速发布多个尺寸的模型,可以让内外部的技术究人员分析和探索模型的参数规模与性能之间的关系,以便能找到最佳的平衡点,最终不断推动优化和演进 Qwen 系列大模型

原因三: 构建和丰富 Qwen 大模型全场景生态】

老牛同学认为这是最为关键的一点,开源不是目的、打榜争第一也应该不是目的,它们都只是构建并丰富生态的策略!老牛同学和大家一起来回顾 2 件事情:

Windows XP 生态: 我们还记得二零零几年的时候,满大街 Windows XP 的盗版操作系统吗?操作系统激活竟然也可以是路边打印小店的一大业务。那么,盗版这么多,微软为什么不管管?是他不知道吗,还是根本管不了?老牛同学觉得都不是,应该是微软故意放任不管:微软要赚的是企业的钱,包括 IT 公司、电脑厂商等,个人的钱不太好赚;同时,使用 Windows 操作系统的个人越多,会带动 Windows 生态发展(使用技巧和攻略、研发各种各样的软件等),进而能拉动更多使用的个人,同时对于企业来说意味着熟练的工人也越多,企业为降低成本,自然就愿意采购 Windows 正版授权,最终还是微软赚钱了!

阿里云 OS 生态: 老牛同学在二零一几年的时候看到过一张图片,图片展示的是当时的阿里 CTO 王坚博士在报告台上擦眼泪。传说是王坚博士在给一群高管做汇报,汇报内容是阿里云和手机操作系统(云 OS)。云计算在当时的中国没有任何一家企业有布局,但王坚博士坚信云计算和云 OS 的未来,他作为第一个吃螃蟹的人,在技术研发和基础设施等方面的投入成本都非常巨大,受到了一些高管和投资人的质疑,因此他边做着汇报边流着委屈的流泪。辛亏当时马老师力排众议,支持王坚博士的想法,如今阿里云在国内技术或市场上称第二,应该没有其他云能自信的称第一了。

反观 云 OS 我们几乎感知不到了,很大一个原因是 没有生态:云 OS 曾经和国内的一些手机厂商合作推出过一些手机品牌(如 小辣椒大黄蜂等),和比较大的厂商 宏基 的合作新闻发布会,后者也因 Google Android 的压力不得不放弃合作。Google 对云 OS 抄袭 Android 的 API 代码的状告一直不断。老牛同时当时咨询过一位负责云 OS 短信模块的技术同学,为什么云 OS 的 API 需要和 Android 保持一致,是技术能力不够吗?技术同学告诉老牛同学,操作系统都能研发出来,API 并没有什么技术难度,但是如果 API 不能和 Android 保持一致,那么已有的 Android APP 将无法接入,所以必须要兼容保持一致,否则没有了 Android 的生态,操作系统要推广就难于登天了。

如今,云 OS 虽然没有成为手机操作系统,但它却在车载(斑马网络)、智能家居(电视、天猫精灵等)等 OS 中大放异彩。

而 Qwen 系列大模型的 Qwen2-0.5BQwen2-1.5B可在智能家居推理;Qwen2-7B可用于个人、小团队等部署推理,个人业务不断发展,就可能购买云服务器部署,小团队业务进一步发展,也完全有可能购买 Qwen 推理服务,最终形成完美的闭环(感觉和Windows XP有那么一点点类似)。

最后:纯属老牛同学个人观点,请慎喷

以上观点纯属老牛同学个人的猜测,若有不合理之处,欢迎留言讨论,若有冒犯之处,请联系老牛同学删除此文,非常感谢!


关注本公众号,我们共同学习交流进步 👇🏻👇🏻👇🏻

微信公众号:老牛同学

开源大模型

本地部署 GLM-4-9B 清华智谱开源大模型方法和对话效果体验

Phi-3 模型手机部署教程(微软发布的可与 GPT-3.5 媲美的小模型)

Qwen2 阿里最强开源大模型(Qwen2-7B)本地部署、API 调用和 WebUI 对话机器人

玩转 AI,笔记本电脑安装属于自己的 Llama 3 8B 大模型和对话客户端

一文彻底整明白,基于 Ollama 工具的 LLM 大语言模型 Web 可视化对话机器人部署指南

基于 Llama 3 搭建中文版(Llama3-Chinese-Chat)大模型对话聊天机器人

Google 发布了最新的开源大模型 Gemma 2,本地快速部署和体验

ChatTTS 文本转语音模型

ChatTTS 开源文本转语音模型本地部署、API 使用和搭建 WebUI 界面

Stable Diffusion 3 文生图模型

Stable Diffusion 3 文生图“开源英雄”大模型本地部署和使用教程,轻松实现 AI 绘图自由

大模型应用实战

使用 Llama3/Qwen2 等开源大模型,部署团队私有化 Code Copilot 和使用教程

大模型应用研发基础环境配置(Miniconda、Python、Jupyter Lab、Ollama 等)

借助 AI 大模型,三分钟原创一部儿童故事短视频(附完整操作步骤)

高效编写大模型 Prompt 提示词,解锁 AI 无限创意潜能

Python 小游戏

AI 已来,我与 AI 一起用 Python 编写了一个消消乐小游戏

Python 游戏编程:一步步用 Python 打造经典贪吃蛇小游戏


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/771900.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

nextTick的应用和原理理解

一.代码的理解 <template><div id"app"><div></div><button click"fn" ref"box"> {{ name }}</button></div> </template><script> export default {data: function () {return {n…

在Windows 11上更新应用程序的几种方法,总有一种适合你

序言 让你安装的应用程序保持最新是很重要的,而Windows 11使更新Microsoft应用商店和非Microsoft应用商店的应用程序变得非常容易。我们将向你展示如何使用图形方法以及命令行方法来更新你的应用程序。 如何更新Microsoft Store应用程序 如果你的一个或多个应用程序是从Mic…

[吃瓜教程]南瓜书第5章神经网络

1.M-P神经元 M-P神经元&#xff0c;全称为McCulloch-Pitts神经元&#xff0c;是一种数学模型&#xff0c;用于模拟生物神经元的功能。这个模型是由Warren McCulloch和Walter Pitts在1943年提出的。它是人工智能和计算神经科学领域中非常重要的早期模型。 M-P神经元接收n个输入…

【VIM的使用】

Vim 是一个非常强大的文本编辑器&#xff0c;尤其在 Linux 环境下被广泛使用。它基于 vi 编辑器开发而来&#xff0c;增加了许多功能和改进。下面是一个简化的 Vim 教程&#xff0c;帮助你快速上手&#xff1a; 启动 Vim 要启动 Vim&#xff0c;只需在终端中输入 vim [filen…

Python酷库之旅-第三方库Pandas(001)

目录 一、Pandas库的由来 1、背景与起源 1-1、开发背景 1-2、起源时间 2、名称由来 3、发展历程 4、功能与特点 4-1、数据结构 4-2、数据处理能力 5、影响与地位 5-1、数据分析“三剑客”之一 5-2、社区支持 二、Pandas库的应用场景 1、数据分析 2、数据清洗 3…

【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战

目录 一、引言 二、模型简介 2.1 Gemma2概述 2.2 Gemma2 模型架构 三、训练与推理 3.1 Gemma2 模型训练 3.1.1 下载基座模型 3.1.2 导入依赖库 3.1.3 量化配置 3.1.4 分词器和模型实例化 3.1.5 引入PEFT进行LORA配置 3.1.6 样本数据清洗与加载 3.1.7 模型训练与保…

每日复盘-20240704

今日关注&#xff1a; 20240704 六日涨幅最大: ------1--------300391--------- 长药控股 五日涨幅最大: ------1--------300391--------- 长药控股 四日涨幅最大: ------1--------300391--------- 长药控股 三日涨幅最大: ------1--------300391--------- 长药控股 二日涨幅最…

【SSL 1056】最大子矩阵 (多维DP)

题目大意 已知矩阵的大小定义为矩阵中所有元素的和。给定一个矩阵&#xff0c;你的任务是找到最大的非空&#xff08;大小至少是 1 ∗ 1 1*1 1∗1&#xff09;子矩阵。 比如&#xff0c;如下 4 ∗ 4 4*4 4∗4 子矩阵 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 的最大子矩阵是 …

Python——面向对象编程(类和对象)2

目录 私有属性和私有方法 01.应用场景及定义方式 02.伪私有属性和私有方法 继承 1.1继承的概念、语法和特点 1.继承的语法&#xff1a; 2.专业术语&#xff1a; 3.继承的传递性 1.2方法的重写 1.覆盖父类的方法 2.对父类方法进行扩展 关于super 1.3 父类的私有属性和…

树状数组基础知识

lowbit: lowbit(x)x&(-x) 树状数组&#xff1a; 树状数组的功能&#xff1a; 数组 在O(1)的时间复杂度实现单点加&#xff1a; 在O(lng n)的时间复杂度实现查询前缀和&#xff1a; 树状数组的定义&#xff1a; 查询前x项的和操作&#xff1a; ll query(int x){ll s0;f…

JavaScript懒加载图像

懒加载图像是一种优化网页性能的技术&#xff0c;它将页面中的图像延迟加载&#xff0c;即在用户需要查看它们之前不会立即加载。这种技术通常用于处理大量或大尺寸图像的网页&#xff0c;特别是那些包含长页面或大量媒体内容的网站。 好处 **1. 加快页面加载速度&#xff1a…

SCI一区TOP|徒步优化算法(HOA)原理及实现【免费获取Matlab代码】

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献5.代码获取 1.背景 2024年&#xff0c;SO Oladejo受到徒步旅行启发&#xff0c;提出了徒步优化算法&#xff08;Hiking Optimization Algorithm, HOA&#xff09;。 2.算法原理 2.1算法思想 HOA灵感来自于…

项目进度管理(信息系统项目管理师)

定义活动的输出&#xff1a;活动清单、活动属性、里程碑清单定义活动的输入包括进度管理计划、范围基准、事业环境因素、组织过程资产定义活动的工具与技术包括专家判断、分解、滚动式规划、会议分解是一种把项目范围和项目可交付成果逐步划分为更小、更便于管理的组成部分的技…

【pearcmd】通过pearcmd.php 进行GetShell

https://cloud.tencent.com/developer/article/2204400 关于PHP 配置 register_argc_argv 小结 的一些研究文章。 应用例题 [NewStarCTF 2023 公开赛道]Include &#x1f350; <?phperror_reporting(0);if(isset($_GET[file])) {$file $_GET[file];if(preg_match(/flag|l…

部署LVS-DR 群集

1 LVS-DR 集群 LVS-DR &#xff08;Linux Virtual Server Director Server ) 工作模式&#xff0c; 是生产环境中最常用的一种工作模式 1.1&#xff1a;LVS-DR工作原理 LVS-DR 模式&#xff0c; Director Server 作为群集的访问入口&#xff0c; 不作为网关使用&#xff0c;…

7.4总结

今天写了几道题目 最近&#xff0c;一年级学生马克西姆学习了科拉兹猜想&#xff0c;但他在讲课时没有太注意&#xff0c;所以他认为猜想中提到了以下过程&#xff1a; 有一个变量 $$$x$$$ 和一个常数 $$$y$$$ 。下面的操作要执行 $$$k$$$ 次&#xff1a; - 将 $$$x$$$ 增加…

Axure教程:App侧边抽屉菜单交互制作

今天给大家示范一下抽屉菜单在Axure中的做法。在抽屉式菜单中&#xff0c;要实现两个交互效果&#xff0c;分别是&#xff1a; 交互一 抽屉菜单中1、2级菜单项的伸缩效果 实现逻辑&#xff1a;设置动态面板的切换状态及“推动/拉动原件”实现 交互二 菜单项的选中状态切换 …

2025年中国国际新能源汽车技术零部件及服务展览会

中国国际新能源汽车技术零部件及服务展览会&#xff0c;从设计到制造、从使用到服务&#xff0c;精准“链”接新能源汽车全产业链的技术供应商和汽车制造商&#xff0c;专业面向新能源造车供应链的行业盛会。2024展会回顾&#xff1a;在展会的3天里&#xff0c;有62家车企核心供…

6种ETL计算引擎介绍

目录 一、ETL计算引擎定义 二、ETL计算引擎的功能和特性 三、6种ETL计算引擎 1、MapReduce 2、Tez 3、Spark 4、Flink 5、ClickHouse 6、Doris 一、ETL计算引擎定义 ETL&#xff08;Extract, Transform, Load&#xff09;计算引擎是用于执行ETL过程中数据转换阶段的关键组件之一…

分布式计算、异构计算与算力共享

目录 算力 算力共享的技术支撑 云计算技术 边缘计算技术 区块链技术 分布式计算、异构计算与算力共享 分布式计算:计算力的“集团军作战” 异构计算:计算力的“多兵种协同” 算力共享:计算力的“共享经济” 深入融合,共创计算新纪元 算力共享对科研领域的影响 …