Jamba LLM模型:破解大型上下文窗口挑战的AI新星

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,人工智能行业正越来越多地转向具有更长上下文窗口的生成式AI模型。然而,拥有大上下文窗口的模型往往需要消耗大量计算资源。但是,AI21 Labs的产品负责人Or Dagan声称,情况并非必然如此——而且他的公司发布的一款新型生成模型就是最好的证明。

所谓的上下文窗口,是指模型在生成输出(更多文本)之前所考虑的输入数据(例如文本)。小上下文窗口的模型倾向于忘记即便是非常近期的对话内容,而大上下文窗口的模型则避免了这一缺陷——而且,作为额外的好处,它们更好地掌握了输入数据的流动。

AI21 Labs推出的Jamba,这款全新的文本生成及分析模型,能够执行许多像OpenAI的ChatGPT和Google的Gemini等模型所能完成的任务。Jamba经过了公共及专有数据的混合训练,能够用英语、法语、西班牙语和葡萄牙语编写文本。

Jamba能够在单个GPU上处理高达140,000个标记,而这样的GPU至少需要有80GB的内存(例如高端的Nvidia A100)。这相当于大约105,000个单词,或者210页——一个相当大的小说。

相比之下,Meta的Llama 2拥有32,000标记的上下文窗口——按照今天的标准来看,这属于较小范围——但只需要一个约12GB内存的GPU就能运行。(上下文窗口通常以标记计量,标记是原始文本和其他数据的片段。)

乍一看,Jamba并不引人注目。市面上有大量免费可下载的生成式AI模型,从Databricks最近发布的DBRX到上文提到的Llama 2。

但Jamba独特之处在于其内部结构。它结合了两种模型架构:变压器(transformers)和状态空间模型(SSMs)。

变压器是执行复杂推理任务的首选架构,为像GPT-4和Google的Gemini等模型提供动力。它们有几个独特的特点,但变压器的定义特征远远是它们的“注意力机制”。对于每一条输入数据(例如一个句子),变压器评估每个其他输入(其他句子)的相关性,并从中汲取信息以生成输出(一个新句子)。

另一方面,SSMs结合了旧型AI模型的几个特性,如循环神经网络和卷积神经网络,创建了一种能够处理长序列数据的更具计算效率的架构。

当然,SSMs也有其局限性。但是,一些早期版本,包括普林斯顿和卡内基梅隆研究人员开源的模型Mamba,能够处理比它们的变压器基础对等物更大的输入,同时在语言生成任务上超越它们。

事实上,Jamba就是使用Mamba作为核心模型的一部分——Dagan声称,与同等大小的基于变压器的模型相比,它在处理长上下文方面的吞吐量提高了三倍。

“虽然SSM模型有一些初步的学术示例,但这是第一个商业级别、生产规模的模型,”Dagan在接受TechCrunch采访时说道。“这种架构,除了对社区进一步研究具有创新性和趣味性外,还为效率和吞吐量的提高打开了大门。”

现在,虽然Jamba已经以Apache 2.0许可发布,这是一种相对使用限制较少的开源许可,但Dagan强调这是一次研究发布,不意味着用于商业用途。该模型没有防止生成有害文本的安全措施,也没有解决潜在偏见的措施;一个经过微调、表面上“更安全”的版本将在未来几周内提供。

但Dagan坚称,即使在这个早期阶段,Jamba展示了SSM架构的潜力。

“这个模型的附加价值,既因为其大小,也因为其创新的架构,是它可以轻松适配到单个GPU上,”他说。“我们相信,随着Mamba获得更多调整,性能将进一步提高。”

Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/505891.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用Postman进行websocket接口测试

因为最近要搞关于基于AI的文本接口测试.需要用到websocket协议,于是看了一下发现postman也可以测而且很方便 位置 File->New->WebSocket 可以看到不止WebSocket还支持其他的各种协议 使用 首先先点击connect进行连接 连接成功之后可以选择多种文本格式添加请求参数 每…

打开DICOM文件需要注意到的点

DICOM图片用来存储医学信息 我一般处理的是图像信息,总结一下踩过的坑 打开DICOM文件需要注意到的点 DICOM图片使用python进行打开一定要注意窗口问题,dicom文件里面存储了很多其他的附加信息,不仅仅是图片,其中最重要的一个条就…

力扣刷题Days29-128.最长连续数列(js)

目录 1,题目 2,代码 2.1自己实现 2.2哈希表 3,学习与收获 枚举思想: 遍历的核心逻辑 碎碎念 本题 先是想到利用数组排序,从而简化遍历处理逻辑,再在提交错误提醒的情况下,考虑到数组中存…

Tab切换(Html+JavaScript+Css)

1.CSS样式 <style>* {margin: 0;padding: 0;}.tab {width: 590px;height: 340px;margin: 20px;border: 1px solid #e4e4e4;margin-left: 300px;}.tab-nav {width: 100%;height: 60px;line-height: 60px;display: flex;justify-content: space-between;}.tab-nav h3 {font…

Zeppelin安装

Zeppelin是一个基于Web的开源数据分析可视化工具&#xff0c;它提供了一个交互式的笔记本界面&#xff0c;用于在大数据环境中进行数据探索、数据分析、数据可视化和协作。Zeppelin的主要特点包括多语言支持、可视化功能、数据共享和协作&#xff0c;以及扩展性。它支持多种编程…

C++ 数组 结构编程题

一 求100以内的所有素数 /* * 需要标记2~100 之间的数是否处理 * 用数组&#xff0c;初始为0 表示都是素数&#xff0c;如果 判断为合数则置为1过用 */ #include<stdio.h> #include<math.h> int main() {const int n 100;int isPrim[n 1] { 0 };int i, j;for (…

C++ MFC

C是一种静态数据类型检查的、支持多重编程范式的程序设计语言&#xff0c;支持过程化程序设计、数据抽象、面向对象程序设计、制作图标等泛型程序设计的多种程序设计风格。 MFC(Microsoft Foundation Classes)&#xff0c;是一个微软公司提供的类库&#xff0c;以C类的形式封装…

JAVAEE之CSS

1.CSS 是什么&#xff1f; 层叠样式表 (Cascading Style Sheets). CSS 能够对网页中元素位置的排版进行像素级精确控制, 实现美化页面的效果. 能够做到页面的样式和结构分离. 1.1 CSS和HTML的区别 CSS&#xff0c;全称为层叠样式表(Cascading Style Sheets)&#xff0c;是…

【Spring Boot 源码学习】ConditionEvaluationReport 日志记录上下文初始化器

《Spring Boot 源码学习系列》 ConditionEvaluationReport 日志记录上下文初始化器 一、引言二、往期内容三、主要内容3.1 源码初识3.2 ConditionEvaluationReport 监听器3.3 onApplicationEvent 方法3.4 条件评估报告的打印展示 四、总结 一、引言 上篇博文《共享 MetadataRe…

redis和数据库数据不一直问题,缓存常见的三大问题

文章目录 数据一致性缓存常见问题缓存穿透缓存击穿缓存雪崩 数据一致性 1 思路 查询数据的时候&#xff0c;如果缓存未命中&#xff0c;则查询数据库&#xff0c;将数据写入缓存设置超时时间修改数据时&#xff0c;先修改数据库&#xff0c;在删除缓存。 2 代码实现 修改更…

【原创】基于分位数回归的卷积长短期结合注意力机制的神经网络(CNN-QRLSTM-Attention)回归预测的MATLAB实现

基于分位数回归的卷积长短期结合注意力机制的神经网络&#xff08;CNN-QRLSTM-Attention&#xff09;是一种用于时间序列数据预测的深度学习模型。该模型结合了卷积神经网络&#xff08;CNN&#xff09;、长短期记忆网络&#xff08;LSTM&#xff09;和注意力机制&#xff08;A…

P1803 凌乱的yyy / 线段覆盖(贪心)

思路&#xff1a; 这道题让求区间覆盖&#xff0c;它要求只能一个一个的区间&#xff0c;先对n个区间进行排序&#xff0c;按照区间的结束点前后进行排序。所以从后往前看结束时间点&#xff0c;如果下一个的起点在前一个的结束点之后&#xff0c;则数量加1。 代码&#xff1a…

Python进阶编程 --- 1.类和对象

文章目录 第一章&#xff1a;1.初始对象1.1 使用对象组织数据1.2 类的成员方法1.2.1 类的定义和使用1.2.2 创建类对象1.2.3 成员变量和成员方法1.2.4 成员方法的定义语法1.2.5 注意事项 1.3 类和对象1.3.1 基于类创建对象 1.4 构造方法1.5 其他内置方法1.5.1 魔术方法str字符串…

鸿蒙OS开发实战:【网络管理HTTP数据请求】

一、场景介绍 应用通过HTTP发起一个数据请求&#xff0c;支持常见的GET、POST、OPTIONS、HEAD、PUT、DELETE、TRACE、CONNECT方法。 二、 接口说明 HTTP数据请求功能主要由http模块提供。 使用该功能需要申请ohos.permission.INTERNET权限。 涉及的接口如下表&#xff0c;…

python爬取B站视频

参考&#xff1a;https://cloud.tencent.com/developer/article/1768680 参考的代码有点问题&#xff0c;请求头需要修改&#xff0c;上代码&#xff1a; import requests import re # 正则表达式 import pprint import json from moviepy.editor import AudioFileClip, Vid…

QT初识(2)

QT初识&#xff08;2&#xff09; 创建好项目之后&#xff0c;多了些什么东西&#xff1f;main.cppwidget.hwidget.cppwidget.ui.pro项目工程文件 我们今天来继续了解QT。如果没看过上一次QT初识的小伙伴可以点击这里&#xff1a; https://blog.csdn.net/qq_67693066/article/d…

STM32的DMA

DMA(Direct memory access)直接存储器存取,用来提供在外设和存储器之间或者存储 器和存储器之间的高速数据传输&#xff0c;无须CPU干预&#xff0c;数据可以通过DMA快速地移动&#xff0c;这就节 省了CPU的资源来做其他操作。 STM32有两个DMA控制器共12个通道(DMA1有7个通道…

基于YOLOV8+Pyqt5光伏太阳能电池板目标检测系统

1、YOLOV8算法 YOLOv8 是当前效果较好的目标检测 算法&#xff0c;它的核心网络来源于 DarkNet-53&#xff0c;该网络初次在 YOLOv3[11] 中被引入&#xff0c;并深受 ResNet[12] 的影响。DarkNet-53 使用了残差机制&#xff0c;并连续添加了卷积模块来加强其功能性。 这 53 层…

Cortex‐M3/M4/M7内核的操作模式和特权等级介绍

0 前言 如果我们是基于MCU的裸机编程&#xff0c;是不需要关心内核的操作模式和特权等级的。如果是进行RTOS的开发编程&#xff0c;我们就要必要了解一下Cortex‐M3/M4/M7内核的操作模式和特权等级&#xff0c;这在RTOS的线程切换等场合会使用到。 1 Cortex‐M3/M4/M7内核的操…

栈————顺序栈和链式栈

目录 栈 顺序栈 1、初始化顺序栈 2、判栈空 3、进栈 4、出栈 5、读栈顶元素 6、遍历 链式栈 1、初始化链式栈 2、断链式栈是否为空判 3、入栈(插入) ​编辑​编辑 4、出栈(删除) 5、读取栈顶元素 6、输出链式栈中各个节点的值&#xff08;遍历&#xff09; 栈 …