大模型日报|8 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.M2Lingual:在大语言模型中加强多语言、多轮次的指令对齐

指令微调对于大语言模型(LLM)按照指令进行对齐至关重要。最近提出了许多有效的 IFT 数据集,但大多数数据集都集中在英语等高资源语言上。为此,来自 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出了一个完全合成的、以新分类法(Evol)为指导的多语言、多轮次指令微调数据集 M2Lingual,从而更好地调整不同语言和任务集上的 LLM。

M2Lingual 包含共 182K 对 IFT,建立在不同的种子之上,涵盖 70 种语言、17 种 NLP 任务和一般指令响应对。使用 M2Lingual 对 LLM 进行微调后,其性能大大优于大多数现有的多语言 IFT 数据集。重要的是,与现有的多语言 IFT 数据集相比,使用 M2Lingual 训练的 LLM 在各种评估基准中始终取得具有竞争力的结果。具体来说,使用 M2Lingual 进行微调的 LLM 在他们翻译的多语言、多轮次评估基准以及各种多语言任务中都取得了优异的成绩。

论文链接:
https://arxiv.org/abs/2406.16783

2.负责任的基础模型开发手册:工具与资源综述

目前,基础模型开发吸引了越来越多的贡献者、科学家和应用程序。为了帮助形成负责任的开发实践,来自麻省理工学院(MIT)和 EleutherAI 的研究团队提出了基础模型开发工作手册 —— 一个不断扩大的涵盖文本、视觉和语音模式的 250 多种工具和资源的集合。

他们借鉴了大量先前的工作成果,调查了各种资源(如软件、文档、框架、指南和实用工具),这些资源可支持明智的数据选择、处理和理解,精确且具有限制意识的人工制品文档,高效的模型训练,提前意识到训练对环境的影响,对能力、风险和主张进行仔细的模型评估,以及进行负责任的模型发布、许可和部署实践。他们希望这份资源汇编能帮助指导更负责任的开发。在整理这份清单的过程中,他们回顾了人工智能开发生态系统,发现了在现有实践中的工具严重缺失、被滥用或过度使用的情况。

他们发现:(1)数据来源、模型评估和监测工具严重满足不了道德和现实世界的需要(2)模型安全性、能力和环境影响的评估都缺乏可重复性和透明度(3)文本分析,特别是以英语为中心的分析,仍然占主导地位,而不是多语言和多模式分析(4)需要对系统而不仅仅是模型进行评估,以便根据具体情况评估能力和影响。

论文链接:
https://arxiv.org/abs/2406.16746

3.FastMem:快速记忆提示提高大语言模型的上下文感知能力

大语言模型(LLMs)在生成连贯文本方面表现出色,但它们在上下文意识方面往往很吃力,导致在要求忠实于所提供信息的任务中出现不准确的情况。

来自鲁汶大学、中国科学技术大学和上海高级算法研究院及其合作者提出了一种旨在通过快速记忆提示信息来增强指令微调 LLM 的上下文意识的方法 FastMem。FastMem 只对最后一个前馈网络(FFN)模块进行微调,从而在推理之前最大化提示的可能性。这种有针对性的方法确保了在不过度拟合的情况下进行高效优化,从而显著提高了模型理解和准确跟读上下文的能力。

实验证明,在阅读理解、文本摘要和遵循输出结构方面,他们的模型都取得了显著的进步。例如,FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%,并将 Qwen 1.5-4B-Chat 的输出结构失效率从 34.9% 降低到 25.5%。广泛的实验结果凸显了 FastMem 的潜力,它可以提供鲁棒性的解决方案,在各种应用中提高 LLM 的可靠性和准确性。

论文链接:
https://arxiv.org/abs/2406.16069
GitHub 地址:
https://github.com/IAAR-Shanghai/FastMem

4.BigCodeBench:使用多种函数调用和复杂指令生成代码的基准测试

编程大语言模型(LLM)的最新进展极大地增强了自动化软件工程的能力。虽然目前的基准测试表明,LLMs 可以像人类开发人员一样执行各种软件工程任务,但对它们的评估大多局限于简短和独立的算法任务。

要解决具有挑战性和实用性的编程任务,就必须具备利用各种函数调用工具的能力,从而高效地实现数据分析和网络开发等功能。此外,使用多种工具解决任务还需要通过准确理解复杂指令来进行组合推理。要同时满足这两个特点,对 LLM 来说是一个巨大的挑战。

为了评估 LLM 能否很好地解决具有挑战性的实际编程任务,来自莫纳什大学、澳大利亚联邦科学与工业研究组织和新加坡管理大学的研究团队及其合作者提出了 Bench 基准,该基准挑战 LLM 调用来自 139 个库和 7 个领域的多个函数作为工具,完成 1140 个细粒度编程任务。

为了严格评估 LLM,每个编程任务包含 5.6 个测试用例,平均分支覆盖率为 99%。此外,他们还提出了一种面向自然语言的 Bench 变种 Benchi,它能自动将原始文档转化为仅包含基本信息的简短指令。他们对 60 个 LLM 进行的广泛评估表明,LLM 尚不能准确地按照复杂指令使用函数调用,得分率最高为 60%,明显低于人类 97% 的表现。

论文链接:
https://arxiv.org/abs/2406.15877
GitHub 地址:
https://bigcode-bench.github.io/

5.Video-Infinity:分布式长视频生成方法

目前,扩散模型在视频生成方面取得了令人瞩目的成果。

然而,尽管取得了令人鼓舞的成绩,但生成的视频通常仅限于少量帧,导致视频片段只能持续几秒钟。生成较长视频的主要挑战包括对内存的大量需求以及在单个 GPU 上所需的较长的处理时间。一个直接的解决方案是在多个 GPU 上分担工作量,但这会导致两个问题:(1)确保所有 GPU 有效通信,从而共享定时和上下文信息(2)修改现有的视频扩散模型(这些模型通常是在短序列上训练的),以便在不进行额外训练的情况下制作较长的视频。

为此,来自新加坡国立大学的研究团队提出了一种分布式推理管道 Video-Infinity,可在多个 GPU 上进行并行处理,从而生成长视频。具体来说,他们提出了两种连贯机制 —— 剪辑并行和双范围关注。剪辑并行机制优化了 GPU 之间上下文信息的收集和共享,从而最大限度地减少了通信开销;而双范围注意力则调节了时间自注意力,从而在各设备之间有效地平衡本地和全局上下文。这两种机制共同作用,分散了工作负荷,实现了长视频的快速生成。在 8 倍速英伟达的 6000 Ada GPU(48G)设置下,他们的方法可在约 5 分钟内生成多达 2300 帧的视频,使长视频生成速度比之前的方法快 100 倍。

论文链接:
https://arxiv.org/abs/2406.16260

6.VideoHallucer:评估 LVLM 中的内在和外在幻觉

多模态大语言模型(MLLMs)的最新进展已将其功能扩展到视频理解方面。

然而,这些模型经常受到“幻觉”的困扰,即生成的内容与实际视频上下文不相关或无意义。来自北京通用人工智能研究院、国家重点通用人工智能实验室和加州大学圣克鲁斯分校的研究团队提出了第一个大型视频语言模型(LVLM)幻觉检测综合基准 VideoHallucer。

VideoHallucer 将幻觉分为两大类:内在幻觉和外在幻觉,并进一步细分为对象相关幻觉、时间幻觉、语义细节幻觉、外在事实幻觉和外在非事实幻觉,以便进行详细分析。他们采用对抗性二元视频质量保证方法进行综合评估,其中基本问题和幻觉问题成对进行策略性设计。通过在 VideoHallucer 上对 11 种 LVLM 进行评估,他们发现:(1)当前大多数模型在幻觉方面都存在严重问题(2)虽然扩展数据集和参数可以提高模型检测基本视觉线索和反事实的能力,但对检测外在事实幻觉的益处有限(3)与识别幻觉相比,现有模型更擅长检测事实。作为副产品,这些分析进一步指导了他们的自我 PEP 框架的发展,在所有模型架构中,它们平均提高了5.38%的抗幻觉能力。

论文链接:
https://arxiv.org/abs/2406.16338
GitHub 地址:
https://videohallucer.github.io/

7.从语言到视觉的长上下文转移

视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMM)无法理解超长视频。许多作品通过使用视觉重采样器减少视觉 token 的数量来解决这一问题。

来自 LMMs-Lab 团队、新加坡南洋理工大学和新加坡科技设计大学的研究团队则从语言模型的角度来解决这一问题。通过简单地推理语言骨干的上下文长度,使 LMM 无需任何视频训练就能理解数量级更多的视觉 token。他们称这种现象为“长上下文转移”(long context transfer),并仔细剔除其特性。

为了有效衡量 LMM 在视觉模式下的长上下文泛化能力,他们开发了一种纯合成的长视觉基准 Visual Needle-In-A-Haystack(V-NIAH),其灵感来自语言模型的 NIAH 测试。他们提出的长视频助手(LongVA)可以处理 2000 帧或超过 200K 个视觉 token,而无需额外的复杂性。凭借其扩展的上下文长度,LongVA 通过对更多输入帧进行密集采样,在 7B 级模型的 Video-MME 中展示了较强的性能。

论文链接:
https://arxiv.org/abs/2406.16852
GitHub 地址:
https://github.com/EvolvingLMMs-Lab/LongVA

8.通过缩小稳定性差距实现高效持续的预训练

持续预训练已逐渐成为大语言模型(LLM)适应新领域的主要方法。这一过程包括用新领域的语料库更新预训练的 LLM,从而导致训练分布的转变。

为了研究 LLM 在这一转变过程中的行为,来自北京大学、香港科技大学和麻省理工学院的研究团队测量了模型在整个持续预训练过程中的性能。他们观察到,在开始阶段会出现暂时的性能下降,随后是恢复阶段,这种现象被称为“稳定性差距”,以前在视觉模型对新类别进行分类时曾注意到这一现象。为此,在固定预算内提高 LLM 性能,他们提出了三种有效策略:(1)持续在具有适当规模的子集上对 LLM 进行多个历时的预训练,这样比在单个历时内对大型语料库进行预训练能更快地恢复性能(2)只在高质量的子语料库上对 LLM 进行预训练,这样能迅速提升领域性能(3)使用与预训练数据类似的数据混合物来减少分布差距。

他们在 Llama-family 模型上进行了各种实验,以验证他们的策略在医学持续预训练和指令调整方面的有效性。例如,他们的策略只用了原来训练预算的 40%,就将 OpenLlama-3B 模型的平均医疗任务性能从 36.2% 提高到了 40.7%,并且在不引起遗忘的情况下提高了平均一般任务性能。

论文链接:
https://arxiv.org/abs/2406.14833
项目地址:
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/743077.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HALCON-从入门到入门-提取小票上的斑点

测试效果 在一张超市小票上提取点阵数字 处理步骤解析 首先读取两张图,一张是小票的图片,一张是静脉的图片 为了让点阵数字提取更加困难,我们将两张图片合成到一起 read_image (ImageNoise, angio-part) crop_part (ImageNoise, ImagePart…

在 Postman 中使用 Body 进行 POST 请求

Postman 是开发者日常工具箱中不可缺少的一部分,特别是在 API 开发和调试环节中。 为什么使用 POST 请求 POST 请求用于向服务器发送数据,这些数据通常被处理后存储。与 GET 请求不同,POST 请求将数据嵌入请求体(Body&#xff0…

Linux配置网卡详细教程

这个网卡配置然后头痛了两天,看了很多篇关于这方面的文章,但是都没让我成功,可惜工亏不负有心人,然后终于学会了下面此方法 实现完成的效果: 永久修改网卡IP vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPEEther…

【Linux】Docker安装kafka教程(超详细保姆篇)

文章目录 安装1.安装Zookeeper2.安装kafka3.创建zookeeper容器4.创建kafka容器5.测试kafka6.退出bash shell Zookeeper服务启动1.首先找到Zookeeper安装路径2.执行./zkServer.sh start3.查看运行状态3.集群配置(可不阅) kafka服务启动1.进入kafka的config目录2.修改server.prop…

后端返回base64文件流下载

后端返回base64文件流: 前端处理: downloadTemplate () {this.$API.downloadTemplate().then(({ data }) > {const binaryString atob(data) // 解码base64字符串const byteArray new Uint8Array(binaryString.length) // 创建一个Uint8Arrayfor (let i 0; i…

Java面试八股之Mybatis可以映射到枚举类吗

Mybatis可以映射到枚举类吗 Mybatis 可以映射到 Java 的枚举类型。默认情况下,Mybatis 会使用枚举类型的名称来进行映射。例如,如果你有一个如下的枚举类型: public enum UserStatus { ACTIVE, INACTIVE } Mybatis 会将数据库中的字符串值…

PointCloudLib (多线程)快速双边滤波 C++版本

0.实现效果 原始点云 和滤波后的点云对比 1.算法原理 PCL(Point Cloud Library)快速双边滤波是一种高效的点云数据滤波方法,它基于传统双边滤波算法进行了改进,通过引入近似方法加速计算过程。以下是关于PCL快速双边滤波的详细回答: 1. 基本原理 空间滤波:在点云中,相…

PointCloudLib 3D对象的可视化 C++版本

0.实现效果 显示箭头 vtkOutputWindow::SetGlobalWarningDisplay(0);pcl::visualization::PCLVisualizer::Ptr viewer(new pcl::visualization::PCLVisualizer("3D Viewer"));viewer->setBackgroundColor(1, 1, 1);//添加箭头显示pcl::PointXYZ pA(0, 0, 0);pcl:…

SpringBoot-在配置文件中使用Profile

Profile,译为“配置文件” 在这里的Spring Boot也是一样,我们可以配置很多个Profile,每个Profile都对应一整个完整的全局配置,激活哪个,那个对应的全局配置就生效,具体的配置: 1、properties格…

常见硬件工程师面试题(二)

大家好,我是山羊君Goat。 对于硬件工程师,学习的东西主要和电路硬件相关,所以在硬件工程师的面试中,对于经验是十分看重的,像PCB设计,电路设计原理,模拟电路,数字电路等等相关的知识…

怎么在线一次压缩多张图片?分享3款简单的在线图片压缩工具

在日常工作和生活中,经常会需要使用图片处理大小功能,网上有很多的图片压缩工具都能够快速处理图片大小,那么当遇到大量的图片需要压缩大小时,该如何操作才能快速在线压缩图片大小呢?多张图片怎么一次批量压缩&#xf…

现在的Java面试都这么扯淡了吗?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「java的资料从专业入门到高级教程」, 点个关注在评论区回复“666”之后私信回复“666”,全部无偿共享给大家!!!开发兼过半年面试官 刚开始…

算法训练营第七十天 | 最小生成树之prim、最小生成树之Kruskal、拓扑排序

算法训练营第七十天 最小生成树之prim 题目链接:https://kamacoder.com/problempage.php?pid1053 随意将一个节点放入set作为初始状态。每次从和set中节点相连的权值最小的边相连的节点放入并记录权值。直到set大小和节点数相同。 代码如下: #i…

Java核心知识(一):JVM

JVM 前言 文本源自微博客 (www.microblog.store),且已获授权. 一、线程 1.1 基本概念 JVM是可运行java代码的假象计算机,包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收、堆和一个存储方法域。JVM是运行在操作系统之上的,与硬件没有直接的交互。 1.2 运…

C# 中的 StreamReader 和 StreamWriter 类

在这里插入代码片StreamReader 和 StreamWriter 位于 System.IO 命名空间中。当您想要读取或写入基于字符的数据时,这两个类都很有用。这两个类都处理 Unicode 字符。 StreamReader 派生自抽象类“TextReader”,StreamWriter 派生自“TextWriter”。 下…

金融企业数据跨境流动的核心需求是什么?如何才能落地?

在金融行业,涉及到的数据跨境流动的场景多种多样,主要涉及到金融机构的跨国经营、全球贸易以及服务贸易等多个方面: 企业跨国经营:当金融机构进行跨国经营时,如银行在海外设立分支机构或进行跨境投资,会涉及…

Linux 式套娃,把“文件系统”安装在一个“文件”上?

背景 “文件”在文件系统之中,这是人人理解的概念。但“文件”之上还有一个文件系统?那岂不是成套娃了。但这个其实是可以的。这个就涉及到今天我们要讲的 loop 设备。 很多童鞋在学习 Linux 的文件系统时,涉及到对磁盘设备的格式化&#x…

Spring底层原理之bean的加载方式三 用注解声明配置类 以及@Configuration 和 @Component 的区别

bean的加载方式三 用注解声明配置类 我们之前用组件扫描加上注解定义bean 实现了bean的加载 当我们又会发现这个配置文件过于繁琐 我们可以写一个类 不是配置文件而是配置类 我们接下来只需要把这句话的功能写到 配置类里面 这样书写就行 package com.bigdata1421.config;…

全球社交的连接者:Facebook的跨文化影响力

在当今高度数字化和全球化的时代,社交网络不仅仅是人们交流和连接的工具,更成为促进全球文化交流和理解的重要平台。作为全球最大的社交网络之一,Facebook不仅连接了数十亿用户,还在跨文化交流和社会互动方面发挥着重要作用。本文…

【遇到的问题】集群上查看gpu的使用情况

流程: 查看bme_cpu所有节点的详细情况scontrol show node bme_gpu[12-23] 下面这个看起来分配出去较少 查看bme_cpu空闲节点sinfo -p bme_gpu -o "%n %G %C %m %e NVIDIAA10080GBPCIe 卡 gpu 13看起来最少 在命令中选择这个节点 #!/bin/bash #SBATCH -J rati…