The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

The Era of 1-bit LLMs: All Large Language Models Are in 1.58 Bits

相关链接:arxiv、github
关键字:1-bit LLMsBitNet模型压缩能耗效率模型性能

image.png

摘要

近期的研究,例如BitNet,正在为1-bit大型语言模型(LLMs)的新时代铺平道路。在本工作中,我们介绍了一个1-bit LLM的变体——BitNet b1.58,其中LLM的每一个参数(或称为权重)均为三值{-1, 0, 1}。BitNet b1.58在复杂度和末端任务性能上与同等模型大小和训练令牌的全精度(即FP16或BF16)Transformer LLM匹敌,同时在延迟、内存、吞吐量和能源消耗等方面成本更低。更深层次地,1.58-bit LLM定义了一个新的规模法则和训练新一代LLMs的配方,这些模型既高性能又具成本效益。此外,它还启用了一种新的计算范式,并为设计优化1-bit LLM的专用硬件打开了大门。

核心方法

BitNet b1.58的关键方法包括:

  • 量化函数:采用绝对值均值(absmean)量化函数对权重进行约束至{-1, 0, +1},激活采用与BitNet相似的量化方式进行处理,将激活缩放到[-Q,Q]以拜托零点量化。
  • LLaMA-alike组件:模型结构采用LLaMA相似的组件,如RMSNorm、SwiGLU和rotary embedding,使得BitNet b1.58容易集成到流行的开源软件。
  • 从头开始训练:使用1.58-bit权重和8-bit激活,从头开始训练。

实验说明

效果对比

我们使用markdown表格形式来表示实验结果,以便于观察比较:

ModelsSizeMemory (GB)↓Latency (ms)↓PPL↓
LLaMA LLM700M2.08 (1.00x)1.18 (1.00x)12.33
BitNet b1.58700M0.80 (2.60x)0.96 (1.23x)12.87
LLaMA LLM1.3B3.34 (1.00x)1.62 (1.00x)11.25
LLaMA LLM1.3B1.14 (2.93x)0.97 (1.00x)11.29
LLaMA LLM3B7.89(1.00x)5.07(1.00x)10.04
BitNet b1.583B2.22(3.55x)1.87(2.71x)9.91
BitNet b1.583.9B2.38(3.32x)2.11(2.40x)9.62

表格1:BitNet b1.58与LLaMA LLM在不同模型大小下的复杂度及效果对比。

ModelsSizeARC-eARC-cHellaSwagWinograndePIQAOpenbookQABoolQAvg.
LLaMA LLM700M54.723.037.060.020.268.954.845.5
BitNet b1.58700M51.821.435.158.220.068.155.244.3
LLaMA LLM1.3b56.923.538.559.121.670.053.946.2
BitNet b1.581.3B54.924.237.756.719.668.855.845.4
LLaMA LLM3B62.125.643.361.824.672.158.249.7
BitNet b1.583B61.428.342.961.526.671.559.350.2
BitNet b1.583.9B64.228.744.263.524.273.260.551.2

表格2:BitNet b1.58与LLaMA LLM在不同终端任务中的零样本准确率对比。

这些实验中,模型在RedPajama数据集上预训练了1000亿个令牌,并在多种语言任务中评估了零拍照性能。此外,比较了BitNet b1.58和LLaMA LLM在不同模型大小下的GPU运行内存和延迟,并测量了吞吐量、能源消耗。

效率对比

image.png
image.png
图2:解码延迟与内存消耗因模型大小而异

ModelsSizeMax Batch SizeThroughput (tokens/s)
LLaMA LLM70B16 (1.0x)333 (1.0x)
BitNet b1.5870B176 (11.0x)2977 (8.9x)
表格3:吞吐率与batch_size的比较

结论

BitNet b1.58开辟了一条新的关于模型性能与推理成本的规模法则。我们可以根据结果确定,在延迟、内存使用和能耗方面,13B BitNet b1.58比3B FP16 LLM更高效,30B BitNet b1.58比7B FP16 LLM更高效,70B BitNet b1.58比13B FP16 LLM更高效。2T令牌的训练显示,BitNet b1.58在所有终端任务上优于3B模型,显示出1.58-bit LLM也具有强大的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/418484.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

USACO 2024 Feb Bronze铜组题解

闲话:今天是4年一度的奇观——2月29日!(地球人都知道) 所以为了纪念这个特殊的日子&#xff0c;我决定倒着讲。这是什么奇怪的规矩&#xff1f;(雾 Maximizing Productivity: 二分即可。 #include <bits/stdc.h> using namespace std; const int maxn200005; int c[ma…

[HackmyVM]靶场 W140

kali:192.168.56.104 主机发现 arp-scan -l 靶机ip:192.168.56.107 端口扫描 nmap -p- 192.168.56.107 开启了22 80 端口 目录扫描 gobuster dir -u http://192.168.56.107 -x html,txt,php,bak,zip --wordlist/usr/share/wordlists/dirb/common.txt 发现service.html可以文…

【STM32】STM32学习笔记-独立看门狗和窗口看门狗(47)

00. 目录 文章目录 00. 目录01. WDG概述02. 独立看门狗相关API2.1 IWDG_WriteAccessCmd2.2 IWDG_SetPrescaler2.3 IWDG_SetReload2.4 IWDG_ReloadCounter2.5 IWDG_Enable2.6 IWDG_GetFlagStatus2.7 RCC_GetFlagStatus 03. 独立看门狗接线图04. 独立看门狗程序示例105. 独立看门…

厚膜功率电阻器制造:优化性能

通过优化工业功率电阻器制造工艺&#xff0c;制造商可以提高电阻器的性能和可靠性、容差、额定电压、TCR、稳定性和额定功率。 在本文中&#xff0c;我们将介绍工业功率电阻器的制造过程。我们讨论了材料选择和生产技术及其对性能的潜在影响。 完美的电阻器 在其整个使用寿命…

NLP(一)——概述

参考书: 《speech and language processing》《统计自然语言处理》 宗成庆 语言是思维的载体&#xff0c;自然语言处理相比其他信号较为特别 word2vec用到c语言 Question 预训练语言模型和其他模型的区别? 预训练模型是指在大规模数据上进行预训练的模型&#xff0c;通常…

【Emgu CV教程】7.8、图像锐化(增强)之同态滤波

文章目录 一、同态滤波大体原理二、代码三、效果举例 一、同态滤波大体原理 之前介绍的几个锐化、增强方法&#xff0c;包括更早之前介绍的图像模糊方法&#xff0c;都是基于空间域进行处理&#xff0c;也就是直接对目标点周边像素值进行各种数学运算。而这篇文章提到的同态滤…

百度SEO工具,自动更新网站的工具

在网站SEO的过程中&#xff0c;不断更新网站内容是提升排名和吸引流量的关键之一。而对于大多数网站管理员来说&#xff0c;频繁手动更新文章并进行SEO优化可能会是一项繁琐且耗时的任务。针对这一问题&#xff0c;百度自动更新文章SEO工具应运而生&#xff0c;它能够帮助网站管…

[云原生] k8s中kubectl陈述式资源管理

一、管理k8s核心资源的两种基本方法 陈述式资源管理方法 --主要依赖命令行工具kubectl进行管理 优点 可以满足90%以上的使用场景 对资源的增、删、查操作比较容易 缺点 命令冗长&#xff0c;复杂&#xff0c;难以记忆 特定场景下&#xff0c;无法实现管理需求 对资源的修改…

2024年四川媒体新闻发布渠道,媒体邀约资源表

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 四川有哪些媒体新闻发布渠道&#xff0c;媒体邀约资源表&#xff1f; 2024年四川媒体新闻发布渠道&#xff0c;媒体邀约资源表 四川本地媒体&#xff1a;如四川日报、华西都市报、成都商…

仿真科普|CAE技术赋能无人机 低空经济蓄势起飞

喝一杯无人机送来的现磨热咖啡&#xff1b;在拥堵的早高峰打个“空中的士”上班&#xff1b;乘坐水陆两栖飞机来一场“陆海空”立体式观光……曾经只出现在科幻片里的5D城市魔幻场景&#xff0c;正逐渐走进现实。而推动上述场景实现的&#xff0c;就是近年来越来越热的“低空经…

docker mysql主从复制

新建主服务器容器实例3301 mysql 主 3301 docker run -p 3301:3306 --name mysql-master \ -v /mydata/mysql-master/log:/var/log/mysql \ -v /mydata/mysql-master/data:/var/lib/mysql \ -v /mydata/mysql-master/conf:/etc/mysql \ -v /home/mysql/mysql-files:/var/lib/…

基于Matlab/Simulink光伏储能交直流微电网中虚拟同步机控制仿真

很久没有更新虚拟同步机控制方向的内容了&#xff0c;因为这部分内容主要是我在硕士期间的研究内容&#xff0c;不过近期很多同学加我&#xff0c;和我讨论虚拟同步机相关的附加控制和应用场景&#xff0c;对于vsg主要研究方向&#xff0c;大家还是可以看我前面写的内容。 今天…

SpringBoot 手写 Starter

spring-boot-starter 模块 1.介绍 SpringBoot中的starter是一种非常重要的机制&#xff0c;能够抛弃以前繁杂的配置&#xff0c;将其统一集成进starter&#xff0c;应用者只需要在maven中引入starter依赖&#xff0c;SpringBoot就能自动扫描到要加载的信息并启动相应的默认配…

果园预售系统|基于Springboot的果园预售系统设计与实现(源码+数据库+文档)

果园预售系统目录 目录 基于Springboot的果园预售系统设计与实现 一、前言 二、系统功能设计 三、系统功能设计 1 、果园管理 2、水果管理 3、果树管理 4、公告管理 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获…

C++ 原子变量

概述 C中原子变量&#xff08;atomic&#xff09;是一种多线程编程同步机制&#xff0c;它能够确保对共享变量的操作在执行时不会被其他线程的操作干扰&#xff0c;atomic是提供一种生成原子操作数的一种机制&#xff0c;避免竞态条件(race condition)和死锁(deadlock)等问题。…

css5定位

css 一.定位1.概念&#xff08;定位定位模式边位移&#xff09;2.静态位移static&#xff08;不常用&#xff09;3.相对定位relative&#xff08;不脱标&#xff09;&#xff08;占位置&#xff09;4.绝对定位absolute&#xff08;脱标&#xff09;&#xff08;不占位置&#x…

『Linux从入门到精通』第 ㉒ 期 - 动静态库

文章目录 &#x1f490;专栏导读&#x1f490;文章导读&#x1f427;什么是库&#xff1f;&#x1f427;为什么要有库&#xff1f;&#x1f427;写一个自己的库&#x1f426;方法一&#x1f426;方法二 静态库&#x1f426;标准化&#x1f426;方法三 动态库&#x1f426;配置动…

Python根据3个点确定两个向量之间的夹角-180度到180方向进行矫正

import cv2 import numpy as np # 读取图片 image cv2.imread(rD:\dmp\cat.jpg) height, width image.shape[:2] # 定义三个定位点&#xff08;这里假设是图片上的坐标&#xff09;&#xff0c;分别表示原点&#xff0c;向量1终点&#xff0c;向量2终点&#xff0c;下…

动画原理:表面形变算法的思考与总结

前言&#xff1a; 之前我的文章 Mesh形变算法_mesh算法-CSDN博客就有大致的讨论过&#xff0c;介绍的也比较粗略&#xff01;现在主要是想在Triangulated Surface Mesh Deformation方向上更深入的讨论一下&#xff01;结合今年我对这一块的学习谈谈我的理解~ 下面要介绍大致几…

学校机房Dev c++解决中文乱码问题

工具->编译选项->勾选 编译时加入以下命令 -fexec-charsetGBK -finput-charsetUTF-8 显示中文&#xff1a;工具->编辑器选项->去掉第一个的勾勾。