2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能

前一篇文章总结了关于计算机视觉方面的论文,这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。

大型语言模型(llm)发展迅速,跟上这些领域新颖的研究将有助于引导模型的持续进步,这些模型更有能力,更健壮,更符合人类价值观。

LLM进展与基准

1、SUTRA: Scalable Multilingual Language Model Architecture

SUTRA是一个多语言的大型语言模型架构,能够理解、推理和生成超过50种语言的文本。

SUTRA的设计独特地将核心概念理解与特定语言处理解耦,从而促进可扩展和高效的多语言对齐和学习。在语言和概念处理中采用混合专家框架,展示了计算效率和响应能力。

通过广泛的评估,SUTRA被证明在多MMLU基准上超越了现有的模型,如GPT-3.5和Llama2,高出20-30%。

https://arxiv.org/abs/2405.06694

2、MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

最近在大型模型方面的突破突出了数据规模、标签和模型的关键意义。MS MARCO Web Search是第一个大规模的信息丰富的Web数据集,包含数百万个真实点击的查询文档标签。

该数据集紧密地模拟了现实世界的web文档和查询分布,为各种下游任务提供了丰富的信息,并鼓励了各个领域的研究,如通用的端到端神经索引器模型、通用嵌入模型和具有大型语言模型的下一代信息访问系统。

MS MARCO Web Search提供了一个检索基准,其中包含三个Web检索挑战任务,这些任务需要在机器学习和信息检索系统研究领域进行创新。

作为第一个满足大型、真实和丰富数据需求的数据集,MS MARCO Web Search为人工智能和系统研究的未来发展铺平了道路。

https://arxiv.org/abs/2405.07526

3、Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon是一个多模态模型能够理解和生成任何任意序列的图像和文本。

论文还描述了一种稳定的训练方法,一种校准流程,以及为早期融合、基于令牌的混合模式设置量身定制的体系结构参数化。这些模型在全面的任务范围内进行评估,包括视觉问题回答、图像字幕、文本生成、图像生成等

Chameleon在图像字幕任务中的获得了最先进性能,在纯文本任1111111务中优于llama-2,同时与Mixtral 8x7B和Gemini-Pro等模型竞争。

https://arxiv.org/abs/2405.09818

4、SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

![]

专家组合(CoE)是一种可选的模块化方法,可以降低训练和服务的成本和复杂性。但当使用传统硬件时,这种方法提出了两个关键挑战:

在融合作业中,较小的模型具有更高的作业强度,这使得高利用率更难实现。

在模型之间动态切换时,托管大量模型要么代价高昂,要么速度缓慢。

论文描述了如何结合CoE、流数据流和三层内存系统来扩展AI内存墙。Samba-CoE是一个拥有150名专家和1万亿个参数的CoE系统。

对于CoE推理部署,8 RDU节点最多可将机器占用空间减少19倍,将模型切换时间加快15倍至31倍,并且比DGX H100实现3.7倍的总体加速,比DGX A100实现6.6倍的总体加速。

https://arxiv.org/abs/2405.07518

5、Large Language Models as Planning Domain Generators

开发领域模型是人工智能规划中为数不多的需要人工劳动的领域之一。因此为了使规划更容易实现,需要将领域模型生成过程自动化。

论文研究了大型语言模型(llm)是否可以用于从简单的文本描述生成规划领域模型。引入了一个框架,通过比较域实例的计划集来自动评估llm生成的域。

对7个大型语言模型进行了实证分析,包括9个不同规划领域的编码和聊天模型,以及三类自然语言领域描述。结果表明,LLM特别是那些具有高参数计数的模型,在从自然语言描述生成正确的规划领域方面表现出中等水平的熟练程度。

https://arxiv.org/abs/2405.06650

6、SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

集成语音和大型语言模型(Integrated Speech and Large Language Models,简称SLMs)能够遵循语音指令并生成相关的文本响应,近年来得到了广泛的应用。但是这些模型的安全性和稳健性在很大程度上仍不清楚。

在这项工作中,研究了这种指令遵循语音语言模型对对抗性攻击和越狱的潜在漏洞。设计的算法可以在没有人类参与的情况下,在白盒和黑盒攻击设置中生成对抗性示例来破解slm。

论文还提出了阻止此类越狱攻击的对策。模型接受了带有语音指令的对话数据的训练,在口语问答任务中取得了最先进的表现,在安全性和有用性指标上的得分都超过了80%。

尽管有安全防护,越狱实验证明了SLM对对抗性扰动和转移攻击的脆弱性,当在精心设计的有害问题的数据集上评估时,平均攻击成功率分别为90%和10%,这些问题跨越12个不同的攻击类别。论文的实验证明了提出的对策显著降低了攻击的成功率。

https://arxiv.org/abs/2405.08317

7、 SpeechVerse: A Large-scale Generalizable Audio Language Model

大型语言模型(llm)在执行需要对自然语言指令进行语义理解的任务方面表现出了令人难以置信的熟练程度。许多研究进一步扩展了这种能力,以感知多模态音频和文本输入,但它们的能力往往局限于特定的微调任务,如自动语音识别和翻译。

论文开发了一个强大的多任务训练和学习框架SpeechVerse,它通过一小组可学习的参数结合了预训练的语音和文本基础模型,同时在训练期间保持预训练模型的冻结。

这些模型使用从语音基础模型中提取的连续潜在表示进行指令微调,在使用自然语言指令的各种语音处理任务上实现最佳的零样本性能。

还评估了模型在域外数据集、新提示和未见任务上的泛化指令能力。实验表明多任务SpeechVerse模型在11个任务中的9个任务上甚至优于传统的特定任务基线。

https://arxiv.org/abs/2405.08295

LLM 微调

1、LoRA Learns Less and Forgets Less

低秩自适应(LoRA)是一种广泛应用于大型语言模型的参数高效调优方法。LoRA通过只训练低秩扰动到选定的权重矩阵来节省内存。论文比较了LoRA和完全调优在两个目标领域的性能,编程和数学。

在大多数情况下,LoRA的性能远远低于完全微调。但是LoRA展示了一种理想的正则化形式:它在目标域之外的任务上更好地维护了基本模型的性能。与权重衰减和dropout等常见技术相比,LoRA提供了更强的正则化;它还有助于维持更多样化的训练批次结果。

https://arxiv.org/abs/2405.09673

LLM训练、评估与推理

1、RLHF Workflow: From Reward Modeling to Online RLHF

在这份技术报告中,提出了基于人类反馈的在线迭代强化学习(RLHF)的工作流程,在最近的大型语言模型(LLM)文献中,该工作流被广泛报道为在很大程度上优于其离线版本。

现有的开源RLHF项目仍然主要局限于离线学习环境。但在这份技术报告中填补这一空白,并提供一个详细的配方,易于复制在线迭代RLHF。

特别是由于在线人类反馈对于资源有限的开源社区通常是不可行的,因此首先使用各种开源数据集构建偏好模型,并使用构建的代理偏好模型来近似人类反馈。

监督微调(SFT)和迭代RLHF可以在完全开源的数据集上获得最先进的性能。最主要的是这个研究已经公开了模型、数据集和全面的一步一步的代码指南。

https://arxiv.org/abs/2405.07863

2、Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

多模态大型语言模型(Multi-modal Large Language Models, mllm)由于其在视觉环境中的优异表现而受到广泛关注。但是它们将可视化表格转化为可执行代码的能力还没有得到彻底的评估。

Plot2Code是一个全面的可视化编码基准,可以对mlm进行公平和深入的评估。从公开可用的matplotlib图库中精心收集了132个手动选择的高质量matplotlib图库,涵盖六种图库类型。对于每个plot,都仔细提供了其源代码和GPT-4总结的描述性说明。

这种方法使Plot2Code能够广泛地评估mllm在各种输入模式下的代码能力。Plot2Code发现大多数现有的mlm在文本密集图表中的视觉编码方面存在困难,严重依赖于文本指令。

https://arxiv.org/abs/2405.07990

3、Understanding the performance gap between online and offline alignment algorithms

基于人类反馈的强化学习(RLHF)是大型语言模型校准的规范框架。然而离线对齐算法的日益普及对RLHF中非策略采样的需求提出了挑战。

在奖励过度优化的背景下,论文从一组开放的实验开始,证明了在线方法相对于离线方法的明显优势。

https://arxiv.org/abs/2405.08448

Transformers和注意力模型

1、Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

增加Transformer模型的大小并不总是会提高性能。这种现象不能用经验标度定律来解释。

随着模型对训练样本的记忆,泛化能力得到提高。论文提出了一个理论框架,阐明了基于Transformers的语言模型的记忆过程和性能动态。

在特定的条件下,论文证明了最小可实现的交叉熵损失由一个近似等于1的常数从下界。通过在各种数据大小上使用GPT-2进行实验,以及在2M令牌的数据集上训练传统的Transformer ,来证实了论文的理论结果。

https://arxiv.org/abs/2405.08707

https://avoid.overfit.cn/post/82e55a4815014b27b8362889f147370a

作者:Youssef Hosni

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/644913.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

0元入驻抖音小店,真的是好事吗?

大家好,我是喷火龙。 抖音小店去年推出0元入驻抖音小店个人店的政策,简而言之就是只要一张身份证就可以开店,不需要营业执照,也不需要交保证金。 很多人一听很心动,因为没有任何成本就可以开店,于是纷纷跑…

echarts配置记录,一些已经废弃的写法

1、normal,4.0以后无需将样式写在normal中了 改前: 改后: DEPRECATED: normal hierarchy in labelLine has been removed since 4.0. All style properties are configured in labelLine directly now. 2、axisLabel中的文字样式无需使用te…

C++Qt操作Lotus Domino数据库 Lotus Domino C++连接Lotus Domino C++快速开发Lotus Domino

java连接domino C#连接domino python连接domino go连接domino,delphi连接domino Excel连接domino Flutter、微信小程序连接domino C 操作 Lotus Domino 数据库:自动化与效率的结合 引言 在企业级应用中,Lotus Domino 提供了一个强大的协作平台&#xff0…

牛客NC324 下一个更大的数(三)【中等 双指针 Java/Go/PHP/C++】参考lintcode 52 · 下一个排列

题目 题目链接: https://www.nowcoder.com/practice/475da0d4e37a481bacf9a09b5a059199 思路 第一步:获取数字上每一个数,组成数组arr 第二步:利用“下一个排列” 问题解题方法来继续作答,步骤:利用lintc…

【Apache Doris】BE宕机问题排查指南

【Apache Doris】BE宕机问题排查指南 背景BE宕机分类如何判断是BE进程是Crash还是OOMBE Crash 后如何排查BE OOM 后如何分析Cache 没及时释放导致BE OOM(2.0.3-rc04) 关于社区 作者|李渊渊 背景 在实际线上生产环境中,大家可能遇…

新建一个STM32工程(精简版)

一、新建一个STM32工程 二、建立三个文件夹 1、Start文件夹里的东西 (1)启动文件:STM32入门教程资料\固件库\STM32F10x_StdPeriph_Lib_V3.5.0\Libraries\CMSIS\CM3\DeviceSupport\ST\STM32F10x\startup\arm (2)STM32…

springboot社区助老志愿服务系统-计算机毕业设计源码96682

摘要 大数据时代下,数据呈爆炸式地增长。为了迎合信息化时代的潮流和信息化安全的要求,利用互联网服务于其他行业,促进生产,已经是成为一种势不可挡的趋势。在图书馆管理的要求下,开发一款整体式结构的社区助老志愿服务…

OFDM 802.11a的FPGA实现(二十)使用AXI-Stream FIFO进行跨时钟(含代码)

目录 1.前言 2.AXI-Stream FIFO时序 3.AXI-Stream FIFO配置信息 4.时钟控制模块MMCM 5.ModelSim仿真 6.总结 1.前言 至此,通过前面的文章讲解,对于OFDM 802.11a的发射基带的一个完整的PPDU帧的所有处理已经全部完成,其结构如下图所示&…

Linux echo命令(在终端输出文本)

文章目录 Linux Echo命令深度解析简介命令语法常见选项- -n:不输出行尾的换行符,这意味着输出后不会换到下一行。- -e:启用反斜杠转义的解释,允许使用特殊字符。- -E:禁用反斜杠转义的解释(默认选项&#x…

CI/CD 管道中的自动化测试:类型和阶段

在上一篇文章中,我们讨论了敏捷团队自动化测试用例的各种用例。其中一种情况是,团队希望将测试与每个构建集成,并将持续集成作为构建过程的一部分。 在本文中,我们将讨论持续集成/持续交付平台中的集成测试。 让我们先从基础知识…

嵌入式全栈开发学习笔记---C语言笔试复习大全22

目录 结构体 结构体的声明 定义结构体变量 访问结构体成员进行初始化 通过结构体变量名访问结构体成员 结构体指针 结构体指针的定义 通过结构体指针访问结构体成员 结构体数组 结构体数组的定义 遍历结构体数组 结构体的长度(笔试重点) 上一…

Attention相关问题笔试解析。

Attention相关问题笔试解析。 题目描述一:【选择】题目描述二:【简答】题目描述三:【代码】Scaled Dot-Product Attention:下面是用PyTorch实现的一个Attention机制的代码。这个实现包括一个简单的Scaled Dot-Product Attention机…

【大模型部署】在C# Winform中使用文生图Stable Diffusion XL 模型

【大模型部署】在C# Winform中使用文生图Stable Diffusion XL 模型 前言 整了一个在C# Winform中调用文生图Stable Diffusion XL的小程序,基于百度智能云千帆平台 步骤 如何注册百度智能云和创建应用,获取API 密钥等和在之前的博客中基本相同&#…

P6160 [Cnoi2020] 向量

[Cnoi2020] 向量 题目背景 向量(vector),指具有大小(Magnitude)和方向(Direction) 的量。 与向量对应的量叫做数量(Scalar),数量只有大小,没有方向。 对于 Cirno 来说,整天环绕氷屋的旋转 Sangetsusei 们是向量而不是数量。 Sun…

spring模块(三)Spring AOP(2)使用

一、demo 1、spring项目 &#xff08;1&#xff09;pom <dependencies><dependency><groupId>org.springframework</groupId><artifactId>spring-core</artifactId><version>4.3.13.RELEASE</version></dependency>&l…

[数组查找]1.图解线性查找及其代码实现

线性查找 线性查找是一种在数组中查找数据的算法。与二分查找不同&#xff0c;即便数据没有按顺序存储&#xff0c;也可以应用线性查找。线性查找的操作很简单&#xff0c;只要在数组中从头开始依次往下查找即可。虽然存储的数据类型没有限制&#xff0c;但为了便于理解&#x…

CorelCAD v2022.5 解锁版 安装教程(2D制图 3D设计和打印的简化软件)

前言 CorelCAD&#xff0c;加拿大Corel公司开发的一款适用于2D制图、3D设计和打印的简化版CAD软件。它是款专业的2D制图和3D设计软件&#xff0c;拥有行业标准文件兼容性&#xff0c;支持 .DWG、.STL、.PDF、 .CDR*等文件格式&#xff0c;轻松实现协作和项目共享&#xff0c;利…

电商零基础的人,可以做抖音小店吗?它操作难度大吗?

大家好&#xff0c;我是电商糖果 随着短视频电商的热度越来越大&#xff0c;很多消费者都有了抖音购物的习惯。 于是入驻抖音开店就成了很多人创业做电商的首选。 可是抖音推出的电商项目——抖音小店&#xff0c;出来的时间不是很久&#xff0c;很多人对它了解也不深&#…

2024年5月LLM最新排名:GPT-4o出道即巅峰!国内3个大模型榜上有名!

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

设计模式 17 组合模式 Composite Pattern

设计模式 17 组合模式 Composite Pattern 1.定义 组合模式&#xff08;Composite Pattern&#xff09;&#xff0c;又叫部分整体模式&#xff0c;是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象&#xff0c;用来表示部分以及整体层次。这种类型的设…