大家好,今日必读的大模型论文来啦!
1.M2Lingual:在大语言模型中加强多语言、多轮次的指令对齐
指令微调对于大语言模型(LLM)按照指令进行对齐至关重要。最近提出了许多有效的 IFT 数据集,但大多数数据集都集中在英语等高资源语言上。为此,来自 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出了一个完全合成的、以新分类法(Evol)为指导的多语言、多轮次指令微调数据集 M2Lingual,从而更好地调整不同语言和任务集上的 LLM。
M2Lingual 包含共 182K 对 IFT,建立在不同的种子之上,涵盖 70 种语言、17 种 NLP 任务和一般指令响应对。使用 M2Lingual 对 LLM 进行微调后,其性能大大优于大多数现有的多语言 IFT 数据集。重要的是,与现有的多语言 IFT 数据集相比,使用 M2Lingual 训练的 LLM 在各种评估基准中始终取得具有竞争力的结果。具体来说,使用 M2Lingual 进行微调的 LLM 在他们翻译的多语言、多轮次评估基准以及各种多语言任务中都取得了优异的成绩。
论文链接:
https://arxiv.org/abs/2406.16783
2.负责任的基础模型开发手册:工具与资源综述
目前,基础模型开发吸引了越来越多的贡献者、科学家和应用程序。为了帮助形成负责任的开发实践,来自麻省理工学院(MIT)和 EleutherAI 的研究团队提出了基础模型开发工作手册 —— 一个不断扩大的涵盖文本、视觉和语音模式的 250 多种工具和资源的集合。
他们借鉴了大量先前的工作成果,调查了各种资源(如软件、文档、框架、指南和实用工具),这些资源可支持明智的数据选择、处理和理解,精确且具有限制意识的人工制品文档,高效的模型训练,提前意识到训练对环境的影响,对能力、风险和主张进行仔细的模型评估,以及进行负责任的模型发布、许可和部署实践。他们希望这份资源汇编能帮助指导更负责任的开发。在整理这份清单的过程中,他们回顾了人工智能开发生态系统,发现了在现有实践中的工具严重缺失、被滥用或过度使用的情况。
他们发现:(1)数据来源、模型评估和监测工具严重满足不了道德和现实世界的需要(2)模型安全性、能力和环境影响的评估都缺乏可重复性和透明度(3)文本分析,特别是以英语为中心的分析,仍然占主导地位,而不是多语言和多模式分析(4)需要对系统而不仅仅是模型进行评估,以便根据具体情况评估能力和影响。
论文链接:
https://arxiv.org/abs/2406.16746
3.FastMem:快速记忆提示提高大语言模型的上下文感知能力
大语言模型(LLMs)在生成连贯文本方面表现出色,但它们在上下文意识方面往往很吃力,导致在要求忠实于所提供信息的任务中出现不准确的情况。
来自鲁汶大学、中国科学技术大学和上海高级算法研究院及其合作者提出了一种旨在通过快速记忆提示信息来增强指令微调 LLM 的上下文意识的方法 FastMem。FastMem 只对最后一个前馈网络(FFN)模块进行微调,从而在推理之前最大化提示的可能性。这种有针对性的方法确保了在不过度拟合的情况下进行高效优化,从而显著提高了模型理解和准确跟读上下文的能力。
实验证明,在阅读理解、文本摘要和遵循输出结构方面,他们的模型都取得了显著的进步。例如,FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%,并将 Qwen 1.5-4B-Chat 的输出结构失效率从 34.9% 降低到 25.5%。广泛的实验结果凸显了 FastMem 的潜力,它可以提供鲁棒性的解决方案,在各种应用中提高 LLM 的可靠性和准确性。
论文链接:
https://arxiv.org/abs/2406.16069
GitHub 地址:
https://github.com/IAAR-Shanghai/FastMem
4.BigCodeBench:使用多种函数调用和复杂指令生成代码的基准测试
编程大语言模型(LLM)的最新进展极大地增强了自动化软件工程的能力。虽然目前的基准测试表明,LLMs 可以像人类开发人员一样执行各种软件工程任务,但对它们的评估大多局限于简短和独立的算法任务。
要解决具有挑战性和实用性的编程任务,就必须具备利用各种函数调用工具的能力,从而高效地实现数据分析和网络开发等功能。此外,使用多种工具解决任务还需要通过准确理解复杂指令来进行组合推理。要同时满足这两个特点,对 LLM 来说是一个巨大的挑战。
为了评估 LLM 能否很好地解决具有挑战性的实际编程任务,来自莫纳什大学、澳大利亚联邦科学与工业研究组织和新加坡管理大学的研究团队及其合作者提出了 Bench 基准,该基准挑战 LLM 调用来自 139 个库和 7 个领域的多个函数作为工具,完成 1140 个细粒度编程任务。
为了严格评估 LLM,每个编程任务包含 5.6 个测试用例,平均分支覆盖率为 99%。此外,他们还提出了一种面向自然语言的 Bench 变种 Benchi,它能自动将原始文档转化为仅包含基本信息的简短指令。他们对 60 个 LLM 进行的广泛评估表明,LLM 尚不能准确地按照复杂指令使用函数调用,得分率最高为 60%,明显低于人类 97% 的表现。
论文链接:
https://arxiv.org/abs/2406.15877
GitHub 地址:
https://bigcode-bench.github.io/
5.Video-Infinity:分布式长视频生成方法
目前,扩散模型在视频生成方面取得了令人瞩目的成果。
然而,尽管取得了令人鼓舞的成绩,但生成的视频通常仅限于少量帧,导致视频片段只能持续几秒钟。生成较长视频的主要挑战包括对内存的大量需求以及在单个 GPU 上所需的较长的处理时间。一个直接的解决方案是在多个 GPU 上分担工作量,但这会导致两个问题:(1)确保所有 GPU 有效通信,从而共享定时和上下文信息(2)修改现有的视频扩散模型(这些模型通常是在短序列上训练的),以便在不进行额外训练的情况下制作较长的视频。
为此,来自新加坡国立大学的研究团队提出了一种分布式推理管道 Video-Infinity,可在多个 GPU 上进行并行处理,从而生成长视频。具体来说,他们提出了两种连贯机制 —— 剪辑并行和双范围关注。剪辑并行机制优化了 GPU 之间上下文信息的收集和共享,从而最大限度地减少了通信开销;而双范围注意力则调节了时间自注意力,从而在各设备之间有效地平衡本地和全局上下文。这两种机制共同作用,分散了工作负荷,实现了长视频的快速生成。在 8 倍速英伟达的 6000 Ada GPU(48G)设置下,他们的方法可在约 5 分钟内生成多达 2300 帧的视频,使长视频生成速度比之前的方法快 100 倍。
论文链接:
https://arxiv.org/abs/2406.16260
6.VideoHallucer:评估 LVLM 中的内在和外在幻觉
多模态大语言模型(MLLMs)的最新进展已将其功能扩展到视频理解方面。
然而,这些模型经常受到“幻觉”的困扰,即生成的内容与实际视频上下文不相关或无意义。来自北京通用人工智能研究院、国家重点通用人工智能实验室和加州大学圣克鲁斯分校的研究团队提出了第一个大型视频语言模型(LVLM)幻觉检测综合基准 VideoHallucer。
VideoHallucer 将幻觉分为两大类:内在幻觉和外在幻觉,并进一步细分为对象相关幻觉、时间幻觉、语义细节幻觉、外在事实幻觉和外在非事实幻觉,以便进行详细分析。他们采用对抗性二元视频质量保证方法进行综合评估,其中基本问题和幻觉问题成对进行策略性设计。通过在 VideoHallucer 上对 11 种 LVLM 进行评估,他们发现:(1)当前大多数模型在幻觉方面都存在严重问题(2)虽然扩展数据集和参数可以提高模型检测基本视觉线索和反事实的能力,但对检测外在事实幻觉的益处有限(3)与识别幻觉相比,现有模型更擅长检测事实。作为副产品,这些分析进一步指导了他们的自我 PEP 框架的发展,在所有模型架构中,它们平均提高了5.38%的抗幻觉能力。
论文链接:
https://arxiv.org/abs/2406.16338
GitHub 地址:
https://videohallucer.github.io/
7.从语言到视觉的长上下文转移
视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMM)无法理解超长视频。许多作品通过使用视觉重采样器减少视觉 token 的数量来解决这一问题。
来自 LMMs-Lab 团队、新加坡南洋理工大学和新加坡科技设计大学的研究团队则从语言模型的角度来解决这一问题。通过简单地推理语言骨干的上下文长度,使 LMM 无需任何视频训练就能理解数量级更多的视觉 token。他们称这种现象为“长上下文转移”(long context transfer),并仔细剔除其特性。
为了有效衡量 LMM 在视觉模式下的长上下文泛化能力,他们开发了一种纯合成的长视觉基准 Visual Needle-In-A-Haystack(V-NIAH),其灵感来自语言模型的 NIAH 测试。他们提出的长视频助手(LongVA)可以处理 2000 帧或超过 200K 个视觉 token,而无需额外的复杂性。凭借其扩展的上下文长度,LongVA 通过对更多输入帧进行密集采样,在 7B 级模型的 Video-MME 中展示了较强的性能。
论文链接:
https://arxiv.org/abs/2406.16852
GitHub 地址:
https://github.com/EvolvingLMMs-Lab/LongVA
8.通过缩小稳定性差距实现高效持续的预训练
持续预训练已逐渐成为大语言模型(LLM)适应新领域的主要方法。这一过程包括用新领域的语料库更新预训练的 LLM,从而导致训练分布的转变。
为了研究 LLM 在这一转变过程中的行为,来自北京大学、香港科技大学和麻省理工学院的研究团队测量了模型在整个持续预训练过程中的性能。他们观察到,在开始阶段会出现暂时的性能下降,随后是恢复阶段,这种现象被称为“稳定性差距”,以前在视觉模型对新类别进行分类时曾注意到这一现象。为此,在固定预算内提高 LLM 性能,他们提出了三种有效策略:(1)持续在具有适当规模的子集上对 LLM 进行多个历时的预训练,这样比在单个历时内对大型语料库进行预训练能更快地恢复性能(2)只在高质量的子语料库上对 LLM 进行预训练,这样能迅速提升领域性能(3)使用与预训练数据类似的数据混合物来减少分布差距。
他们在 Llama-family 模型上进行了各种实验,以验证他们的策略在医学持续预训练和指令调整方面的有效性。例如,他们的策略只用了原来训练预算的 40%,就将 OpenLlama-3B 模型的平均医疗任务性能从 36.2% 提高到了 40.7%,并且在不引起遗忘的情况下提高了平均一般任务性能。
论文链接:
https://arxiv.org/abs/2406.14833
项目地址:
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct