阿里开源Qwen-1.5-32B模型，性能超Mixtral MoE

阿里开源Qwen-1.5-32B模型，性能超Mixtral MoE

article2025/2/20 8:04:07/文章来源:https://blog.csdn.net/weixin_44455388/article/details/137510759

简介

开源社区长期以来一直在寻求一种能在性能、效率和内存占用之间达到理想平衡的模型。尽管出现了诸如Qwen1.5-72B和DBRX这样的SOTA模型，但这些模型持续面临诸如内存消耗巨大、推理速度缓慢以及显著的微调成本等问题。当前，参数量约30B的模型往往在这方面被看好，得到很多用户的青睐。顺应这一趋势，阿里推出Qwen1.5语言模型系列的最新成员：Qwen1.5-32B和Qwen1.5-32B-Chat。
在这里插入图片描述

效果

Qwen1.5-32B 是 Qwen1.5 语言模型系列的最新成员，除了模型大小外，其在模型架构上除了GQA几乎无其他差异。GQA能让该模型在模型服务时具有更高的推理效率潜力。

以下对比展示了其与参数量约为30B或更大的当前最优（SOTA）模型在基础能力评估、chat评估以及多语言评估方面的性能。以下是对于基础语言模型能力的评估结果：

在这里插入图片描述
阿里Qwen-1.5-32B模型在多种任务上展现出颇具竞争力的表现，涵盖MMLU、GSM8K、HumanEval以及BBH等。相较于72B参数模型，Qwen1.5-32B虽在性能上有轻微下降，但在多数任务中仍优于其他30B级别模型，如Llama2-34B和Mixtral-8x7B。

在Chat模型的评估上，遵循Qwen1.5的评估方案，对它们在MT-Bench与Alpaca-Eval 2.0上的表现进行了测试。具体结果如下：
在这里插入图片描述
值得注意的是，Qwen1.5-32B-Chat的得分超过8分，且Qwen1.5-32B-Chat与Qwen1.5-72B-Chat之间的差距相对较小。这一结果表明，对于需要更高效、更经济实惠的应用解决方案的用户而言，32B模型是一个可行的选择。

本地使用

Qwen-1.5-32B模型使用与其他参数模型类似，这里推荐使用Ollama框架。

ollama run qwen:32b

在线体验

https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/526858.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

day75 js 正则表达式 window对象轮播图片调用定时器

day75 js 正则表达式 window对象轮播图片调用定时器

一正则表达式: RegExp 对象: 对字符串执行模式匹配的强大工具。 1 创建正则表达式对象 let reg /模式/修饰符修饰符 attributes 是一个可选的字符串，包含属性 "g"、"i" 和 "m"， …

阅读更多...

2024 年广东省职业院校技能大赛（高职组）“云计算应用”赛项样题 5

2024 年广东省职业院校技能大赛（高职组）“云计算应用”赛项样题 5

#需要资源（软件包及镜像）或有问题的，可私聊博主！！！ #需要资源（软件包及镜像）或有问题的，可私聊博主！！！ #需要资源（软件包…

阅读更多...

八次危机笔记

八次危机笔记

文章目录前言一、思维导图危机一危机二危机三危机四危机五危机六危机七危机八前言重塑三观，致敬温老。一个有良心的学者！！！ 一、思维导图危机一危机二危机三危机四危机五危机六危机七危机八 ☆

阅读更多...

2024年最新可用免费云服务器整理汇总

2024年最新可用免费云服务器整理汇总

随着云计算技术的不断发展，越来越多的个人和企业开始使用云服务器来满足其数据存储、网站搭建、应用开发等需求。其中，免费云服务器更是受到广大用户的青睐。本文将为大家整理汇总最新的可用免费云服务器资源，助力大家轻松享受云上之旅&#…

阅读更多...

LinkedHashMap 集合源码分析

LinkedHashMap 集合源码分析

LinkedHashMap 集合源码分析文章目录 LinkedHashMap 集合源码分析一、字段分析二、内部类分析三、构造方法分析四、内部方法分析五、总结 LinkedHashMap 是 HashMap 的子类，在 HashMap 的基础上维护了双向链表，保证了有序性。默认是不排序的&#xff0c…

阅读更多...

ATAM方法架构评估实践

ATAM方法架构评估实践

用ATAM方法评估软件体系结构，其工作分为4个基本阶段，即演示、调查和分析、测试和报告ATAM（如图1所示）。接下来分别就每个阶段的实践进行详细介绍。图1 ATAM方法的评估实践阶段划分 1.阶段1——演示（Presentation&…

阅读更多...

【Linux进阶之路】地址篇

【Linux进阶之路】地址篇

文章目录一、ipv4地址1. 基本概念2. 分类3.CIDR4.特殊的ip地址二、IP协议1. 协议字段2.分片与重组3.路由三、NAT技术1.公有和私有2.NAT3.NAPT 四、ARP协议1.MAC地址2.ARP 五、DHCP协议六、DNS协议尾序一、ipv4地址 1. 基本概念概念：IP地址，英文全…

阅读更多...

下一代分层存储方案：CXL SSD

下一代分层存储方案：CXL SSD

近日，在Memcon 2024大会上，三星推出了一款名为CXL Memory Module-Hybrid for Tiered Memory（CMM-H TM），这款扩展卡配备了高速DRAM和NAND闪存，允许CPU和加速器远程访问额外的RAM和闪存资源。那么&#xff0…

阅读更多...

《C语言深度解剖》(4)：深入理解一维数组和二维数组

《C语言深度解剖》(4)：深入理解一维数组和二维数组

🤡博客主页：醉竺 🥰本文专栏：《C语言深度解剖》 😻欢迎关注：感谢大家的点赞评论关注，祝您学有所成！ ✨✨💜💛想要学习更多数据结构与算法点击专栏链接查看&am…

阅读更多...

Element Plus 表单校验

Element Plus 表单校验

原理为 rules 属性传入约定的验证规则，并将 form-Item 的 prop 属性设置为需要验证的特殊键值:model和:rules中字段的名称需要一致示例： <template><el-form ref"ruleFormRef" :model"ruleForm" :rules"rules&q…

阅读更多...

【C语言】深入了解指针(2)，进来小白，出去大佬！

【C语言】深入了解指针(2)，进来小白，出去大佬！

目录 1，const修饰指针 1.1，const修饰变量 1.2，const修饰指针变量 2，指针运算 2.1，指针-整数 2.2，指针-指针 2.3，指针的关系运算 3，野指针 3.1，野指针成因 1&…

阅读更多...

基于深度学习的电动自行车头盔佩戴检测系统

基于深度学习的电动自行车头盔佩戴检测系统

文章目录 1. 文档说明2. 运行环境说明2.1 硬件配置2.2 软件配置2.3 程序依赖库 3. 基本环境配置3.1 软件安装3.1.1 集成开发环境安装与配置3.1.2 数据库安装与配置3.1.3 编程语言安装3.1.4 CUDA和cuDNN安装与配置3.1.5 机器学习库安装 3.2 依赖库安装 4. 运行程序资源下载地 1.…

阅读更多...

$【拓扑的基】示例及详解$

【拓扑的基】示例及详解

集合X的某拓扑的一个基是X的子集的一个族(其成员称为基元素)，满足条件： 1. 2. 由基生成拓扑由生成的拓扑(满足以上两个条件） 等价描述： 由所有可表示为的某些成员的井的那些集合组成例1: 证明：由生成的族确实是拓扑…

阅读更多...

VMware虚拟机(Rocky9.3)硬盘扩容详细图文教程

VMware虚拟机(Rocky9.3)硬盘扩容详细图文教程

参考<<鸟哥的Linux>>以及VMware虚拟机硬盘扩容详细图文教程原因: 用户空间不足,且系统是用LVM（logical volume manager）进行分区 df -h #查看/home目录下磁盘容量不足磁盘扩容步骤关闭虚拟机,选择编辑虚拟机, 点击硬盘,再点击扩容这个…

阅读更多...

OpenStack云计算（六）——OpenStack身份管理

OpenStack云计算（六）——OpenStack身份管理

项目实训一【实训题目】通过图形界面管理项目、用户和角色【实训目的】掌握图形界面的身份管理基本操作。【实训准备】 （1）复习Keystone身份服务体系相关知识。 （2）了解项目、用户和角色之前的关系。【实训内容】 …

阅读更多...

2024年3月30日~2024年4月7日周报

2024年3月30日~2024年4月7日周报

文章目录一、前言二、创意收集2.1 多任务学习2.1.1 多任务学习的定义与优势2.1.2 多任务学习的分类 2.2 边缘检测2.2.1 基础理论2.2.2 sobel代码介绍2.2.3 canny代码介绍三、《地震速度模型超分辨率的多任务学习》3.1 M-RUDSR架构3.2 详细介绍3.3 实验设置四、实验五、小结5…

阅读更多...

K8s学习九（配置与存储_存储）

K8s学习九（配置与存储_存储）

存储管理 Volumes HostPath 将节点上的文件或目录挂载到 Pod 上，此时该目录会变成持久化存储目录，即使 Pod 被删除后重启，也可以重新加载到该目录，该目录下的文件不会丢失效果就是容器里的数据和主机里的数据进行共享配置文…

阅读更多...

智慧运维解决方案

智慧运维解决方案

1：排口截污控源截污、内源治理、生态修复通过传感器对周围环境进行监测，将雨水和污水分别流入不同的管道，进行分流和净化处理，守好排污口，解决城市雨水和污水污染问题，减少城市环境污染。 2&#xff1…

阅读更多...

【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南（更新中）

【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南（更新中）

目录一、NeRFStudio安装1.安装（ubuntu系统）2.安装（windows系统） 二、安装tinycudann三、Colmap安装与使用1. 安装依赖2. 安装colmap3.使用colmap3.1 可视化界面使用3.2 Nerfstudio命令行调用Colmap 四、使用NeRFStudio进行三维重…

阅读更多...

【深度学习】图像风格混合——StyleGAN原理解析

【深度学习】图像风格混合——StyleGAN原理解析

1、前言上一篇，我们讲了PGGAN的模型原理，本章我们就来讲解一下StyleGAN，这个模型能够自由控制图像的风格，细节变化等等，生成用户想要的图像，甚至从某种程度上说，其可以实现AI换脸。 PS&#…

阅读更多...

最新文章