GLM-4-9B性能究竟如何?

GLM-4-9B 开源系列模型

前言

QQ截图20240605201737.png

自 2023 年 3 月 14 日 ChatGLM-6B 开源以来,GLM 系列模型受到广泛认可。特别是在 ChatGLM3-6B 开源后,针对让小模型能够拥有更为强大的能力这一目标,GLM 技术团队展开了诸多的探索性工作。历经将近半年的探索历程,他们成功推出了第四代 GLM 系列的开源模型,即 GLM-4-9B。

介绍GLM-4-9B

QQ截图20240605201931.png

GLM-4-9B在预训练时引入大语言模型进入数据筛选流程,获得 10T 高质量多语言数据,数据量超 ChatGLM3-6B 模型 3 倍多,且采用 FP8 技术高效预训练,训练效率比第三代模型提高 3.5 倍。考虑多数用户显存大小后,将模型规模提升至 9B,预训练计算量增加 5 倍。

综合各种技术升级和经验,GLM-4-9B 模型有更强推理性能、更长上下文处理能力、多语言、多模态和 All Tools 等突出能力。其系列包括基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。

基于强大预训练基座,GLM-4-9B 的中英文综合性能比 ChatGLM3-6B 提升 40%,在一些方面如 AlignBench、IFeval、Natural Code Bench 等显著提升,对比 Llama 3 8B 模型也不逊色,中文学科方面提升达 50%。其上下文从 128K 扩展到 1M tokens,可处理约 200 万字输入。GLM-4-9B-Chat-1M 模型在 1M 上下文长度下进行“大海捞针”实验显示出出色无损处理能力。

多语言方面支持 26 种语言,还改进了 tokenizer 词表大小,编码效率提高 30%,在多语言测试中显著超越 Llama-3-8B-Instruct。Function Call 能力大幅升级,与 GPT-4 相当。All Tools 能力即能理解和使用一系列外部工具,GLM-4 模型已升级此能力,GLM-4-9B 也具备,且开源仓库有完整 All Tools Demo。

同时,还首次推出基于 GLM 基座的开源多模态模型 GLM-4V-9B,采用类似 CogVLM2 架构设计,能处理高分辨率输入,通过降采样减少 token 开销,未引入额外视觉专家模块,直接混合文本和图片数据训练,性能优势明显,在一些任务中与 GPT-4V 不相上下。

总结

​GLM 技术团队经近半年努力推出 GLM-4-9B 开源模型,它具有更强推理性能、更长上下文处理等突出能力和诸多特点,这也展示出了GLM团队在AI方面的成果。

如果你对算力感兴趣或有需求,可以来厚德云官方看看!厚德云是专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/682094.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot 打成jar部署到Linux环境后读取resources下面的文件

方法代码: ClassLoader loader Thread.currentThread().getContextClassLoader();InputStream flagInputStream loader.getResourceAsStream("static/imagesLogo/imageaaa.png");BufferedImage read;read ImageIO.read(flagInputStream);System.out.pr…

Git权限管理

Git权限管理 简介:大家好,我是程序员枫哥,🌟一线互联网的IT民工、📝资深面试官、🌹Java跳槽网创始人。拥有多年一线研发经验,曾就职过科大讯飞、美团网、平安等公司。在上海有自己小伙伴组建的副…

空调外机清洁机器人设计

现在的空调,有很多安装在高层,一旦安装使用后,外机几乎不可能再清洗。因为费用高,清洁工人的钱应该是好几百还不止;清洁风险高,空调师傅需要高空作业,如果发生意外业主难以承担。但空调运行几年…

I.MX6ULL 串口格式化函数移植实验

系列文章目录 I.MX6ULL高精度延时实验 I.MX6ULL高精度延时实验 系列文章目录一、前言二、串口格式化函数简介三、硬件原理分析四、实验程序编写五、编译下载验证 一、前言 上一节实验实现了 UART1 基本的数据收发功能,虽然可以用来调试程序,但是功能太单…

低功耗,低噪声 CMOS 轨到轨输入输出运算放大器

产品简述 MS6001/2/4 运算放大器具有极低功耗,轨到轨输入输出,低 的输入电压和低的电流噪声。具体表现在可工作在幅度为 1.8V 到 5V 的单电源或者双电源条件,低功耗和低噪声使得 MS6001/2/4 能够用在可移动设备上,输入输…

TransGNN:Transformer和GNN能互相帮助吗?

前言 本文将从模型背景、模型介绍、模型应用三个方面,带您一文搞懂TransGNN:Transformer和GNN能互相帮助吗? 模型背景 图神经网络(GNN)和Transformer模型各自以其独特的优势在处理复杂数据和捕捉序列依赖关系上取得…

DNS解析与Bond

一、DNS 1、DNS概念 DNS是域名系统的简称:域名和ip地址之间的映射关系互联网中IP地址是通信的唯一标识,逻辑地址访问网站,有域名,ip地址不好记,域名朗朗上口,好记。 域名解析的目的:实现访问…

QT+FFmpeg+Windows开发环境搭建(加薪点)

01、Windows 环境搭建 FFMPEG官网:http://ffmpeg.org/ 02、下载4.2.1版本源码 源码:https://ffmpeg.org/releases/ffmpeg-4.2.1.tar.bz2 03、下载4.2.1编译好的文件 下载已经编译好的FFMPEG)(迅雷下载很快) 网址:https://ffmpeg.zeranoe.com/builds/ 32位下载地址:(迅雷…

欧洲历史的五个阶段

欧洲的历史基本上都是分裂的,大致可以分为五个时期,分别为古希腊时代、罗马帝国时代、中世纪时代,文艺复兴时代、工业革命时代。 一,古希腊时代 古希腊是西方文明的源头,也是最重要和最直接的文明起源,首…

dirfuzz-web敏感目录文件扫描工具

dirfuzz介绍 dirfuzz是一款基于Python3的敏感目录文件扫描工具,借鉴了dirsearch的思路,扬长避短。在根据自身实战经验的基础上而编写的一款工具,经过断断续续几个月的测试、修改和完善。 项目地址:https://github.com/ssrc-c/di…

手写mybatis-预编译sql语句

sql表 mybatis数据库中的gxa_user表 /*Navicat Premium Data TransferSource Server : rootSource Server Type : MySQLSource Server Version : 80028Source Host : localhost:3306Source Schema : mybatisTarget Server Type : MySQLTarget…

【源码】Spring Data JPA原理解析之事务注册原理

Spring Data JPA系列 1、SpringBoot集成JPA及基本使用 2、Spring Data JPA Criteria查询、部分字段查询 3、Spring Data JPA数据批量插入、批量更新真的用对了吗 4、Spring Data JPA的一对一、LazyInitializationException异常、一对多、多对多操作 5、Spring Data JPA自定…

重学java 65.IO流 缓冲流

I am not afraid tomorrow for I have seen yesterday and love today —— 24.6.5 一、字节缓冲流 1.字节缓冲流的意义 之前所写的FileOutputstream、FileInputstream、FileReader、Filewriter这都叫做基本流,其中FileInputstream和FieOutputstream的读写方法都是本地方法(方…

python字符串的进阶

在上一篇文章的 密码破解器 中,我们回顾了循环专题的知识点。 while 循环和 for 循环是 Python 中的两大循环语句,它们都可以实现循环的功能,但在具体使用时略有差别。当循环次数不确定时,我们选用 while 循环;当循环…

C#操作MySQL从入门到精通(10)——对查询数据进行通配符过滤

前言 我们有时候需要查询数据,并且这个数据包含某个字符串,这时候我们再使用where就无法实现了,所以mysql中提供了一种模糊查询机制,通过Like关键字来实现,下面进行详细介绍: 本次查询的表中数据如下: 1、使用(%)通配符 %通配符的作用是,表示任意字符出现任意次数…

DP读书:《ModelArts人工智能应用开发指南》(一)人工智能技术、应用平台

怎么用ModelArts人工智能应用 训练底座训练案例 盘古矿山模型Main config.py 训练底座 训练案例 盘古矿山模型 Main 下面是快速助手 https://support.huaweicloud.com/qs-modelarts/modelarts_06_0006.html 准备开发环境 在ModelArts控制台的“ 开发环境 > Notebook”页面…

MQTT协议使用总结

MQTT是基于TCP/IP协议栈构建的异步通信消息协议,是一种轻量级的发布/订阅信息传输协议MQTT在时间和空间上,将消息发送者与接受者分离,可以在不可靠的网络环境中进行扩展。适用于设备硬件存储空间有限或网络带宽有限的场景。 物联网平台支持设…

HarmonyOS应用开发深度指南:从基础到高级实践

1. HarmonyOS开发概述 HarmonyOS是华为推出的分布式操作系统,旨在为不同设备提供统一的体验。它支持多种编程语言,包括ArkTS、JS、C/C++和Java。开发者需要了解HarmonyOS的分布式架构,包括Ability、Service、Data Ability等核心概念。 了解HarmonyOS的分布式架构:HarmonyO…

每天CTF小练一点--ctfshow年CTF

初一 题目: 2023是兔年,密码也是。聪明的小伙伴们,你能破解出下面的密码吗? 感谢大菜鸡师傅出题 flag格式是ctfshow{xxxxxx}.或许密码也有密码。 密文是: U2FsdGVkX1M7duRffUvQgJlESPfOTV2i4TJpc9YybgZ9ONmPk/RJje …

【计算机组成原理】1.1计算机的软硬件组成(记录学习计算机组成原理)

文章目录 1.早期的冯诺依曼机2.早期冯诺依曼机的基本运行框图3.早期冯诺依曼机的特点4.现代计算机的结构5. 小结 本次及以后有关于计算机组成原理的文章,旨在做学习时的记录和知识的分享。不论是应对期末考试,还是考研都是很有帮助的。希望大家多多支持更…