每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
近年来,人工智能行业正越来越多地转向具有更长上下文窗口的生成式AI模型。然而,拥有大上下文窗口的模型往往需要消耗大量计算资源。但是,AI21 Labs的产品负责人Or Dagan声称,情况并非必然如此——而且他的公司发布的一款新型生成模型就是最好的证明。
所谓的上下文窗口,是指模型在生成输出(更多文本)之前所考虑的输入数据(例如文本)。小上下文窗口的模型倾向于忘记即便是非常近期的对话内容,而大上下文窗口的模型则避免了这一缺陷——而且,作为额外的好处,它们更好地掌握了输入数据的流动。
AI21 Labs推出的Jamba,这款全新的文本生成及分析模型,能够执行许多像OpenAI的ChatGPT和Google的Gemini等模型所能完成的任务。Jamba经过了公共及专有数据的混合训练,能够用英语、法语、西班牙语和葡萄牙语编写文本。
Jamba能够在单个GPU上处理高达140,000个标记,而这样的GPU至少需要有80GB的内存(例如高端的Nvidia A100)。这相当于大约105,000个单词,或者210页——一个相当大的小说。
相比之下,Meta的Llama 2拥有32,000标记的上下文窗口——按照今天的标准来看,这属于较小范围——但只需要一个约12GB内存的GPU就能运行。(上下文窗口通常以标记计量,标记是原始文本和其他数据的片段。)
乍一看,Jamba并不引人注目。市面上有大量免费可下载的生成式AI模型,从Databricks最近发布的DBRX到上文提到的Llama 2。
但Jamba独特之处在于其内部结构。它结合了两种模型架构:变压器(transformers)和状态空间模型(SSMs)。
变压器是执行复杂推理任务的首选架构,为像GPT-4和Google的Gemini等模型提供动力。它们有几个独特的特点,但变压器的定义特征远远是它们的“注意力机制”。对于每一条输入数据(例如一个句子),变压器评估每个其他输入(其他句子)的相关性,并从中汲取信息以生成输出(一个新句子)。
另一方面,SSMs结合了旧型AI模型的几个特性,如循环神经网络和卷积神经网络,创建了一种能够处理长序列数据的更具计算效率的架构。
当然,SSMs也有其局限性。但是,一些早期版本,包括普林斯顿和卡内基梅隆研究人员开源的模型Mamba,能够处理比它们的变压器基础对等物更大的输入,同时在语言生成任务上超越它们。
事实上,Jamba就是使用Mamba作为核心模型的一部分——Dagan声称,与同等大小的基于变压器的模型相比,它在处理长上下文方面的吞吐量提高了三倍。
“虽然SSM模型有一些初步的学术示例,但这是第一个商业级别、生产规模的模型,”Dagan在接受TechCrunch采访时说道。“这种架构,除了对社区进一步研究具有创新性和趣味性外,还为效率和吞吐量的提高打开了大门。”
现在,虽然Jamba已经以Apache 2.0许可发布,这是一种相对使用限制较少的开源许可,但Dagan强调这是一次研究发布,不意味着用于商业用途。该模型没有防止生成有害文本的安全措施,也没有解决潜在偏见的措施;一个经过微调、表面上“更安全”的版本将在未来几周内提供。
但Dagan坚称,即使在这个早期阶段,Jamba展示了SSM架构的潜力。
“这个模型的附加价值,既因为其大小,也因为其创新的架构,是它可以轻松适配到单个GPU上,”他说。“我们相信,随着Mamba获得更多调整,性能将进一步提高。”
Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model