大模型日报|今日必读的 13 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.MIT新研究:并非所有语言模型特征都是线性的

最近的研究提出了线性表征假说:语言模型通过操作激活空间中概念(“特征”)的一维表征来执行计算。与此相反,来自麻省理工学院(MIT)的研究团队探讨了某些语言模型表征是否可能本质上是多维的。

他们首先为不可还原的多维特征下了一个严格的定义,该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发,他们设计了一种可扩展的方法,利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括可解释示例,例如代表星期和月份的 circular 特征。他们确定了一些任务,在这些任务中,这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后,通过对 Mistral 7B 和 Llama 3 8B 的干预实验,他们证明这些 circular 特征确实是这些任务中的基本计算单元。

论文链接:
https://arxiv.org/abs/2405.14860
GitHub 地址:
https://github.com/JoshEngels/MultiDimensionalFeatures

2.Google DeepMind 推出图像条件扩散模型 Semantica

Google DeepMind 团队研究了在不进行微调的情况下将图像生成模型适应不同数据集的任务。为此,他们提出了一种图像条件扩散模型——Semantica,其能够根据条件图像的语义生成图像。Semantica 完全是在网络规模的图像对上进行训练的,也就是说,它接收网页中的随机图像作为条件输入,并对同一网页中的另一张随机图像进行建模。他们的实验凸显了预训练图像编码器的表现力,以及基于语义的数据过滤对实现高质量图像生成的必要性。一旦经过训练,只需使用数据集中的图像作为输入,它就能自适应地从该数据集中生成新图像。

论文链接:
https://arxiv.org/abs/2405.14857

3.Visual Echoes:用于音频-视觉生成的简单统一 Transformer

近年来,随着逼真的生成结果和广泛的个性化应用,基于扩散的生成模型在视觉和音频生成领域都获得了极大的关注。与文本-图像生成或文本-音频生成的巨大进步相比,音频-视觉生成或视觉-音频生成的研究相对缓慢。近期的音频-视觉生成方法通常采用大型语言模型或可组合扩散模型。

在这项工作中,来自索尼的研究团队没有为音频-视觉生成设计另一个大型模型,而是退后一步,展示了一个在多模态生成中尚未得到充分研究的简单轻量级生成 Transformer,可以在图像-音频生成中取得优异的效果。Transformer 在离散的音频和视觉矢量量化 GAN 空间中运行,并以掩码去噪方式进行训练。训练完成后,无需额外的训练或修改,即可部署现成的无分类器引导,从而获得更好的性能。由于 Transformer 模型是模态对称的,因此也可直接用于音频-图像生成和协同生成。在实验中,他们发现这一简单方法超越了最近的图像-音频生成方法。

论文链接:
https://arxiv.org/abs/2405.14598

4.大型语言模型的分布式推测

加速大型语言模型(LLM)的推理是人工智能领域的一项重要挑战。

来自魏茨曼科学研究所、英特尔和麻省理工学院(MIT)的研究团队提出了一种新颖的分布式推理算法——分布式推测推理(DSI),与推测推理(SI)和传统的自回归推理(non-SI)相比,其推理速度更快。与其他自回归推理算法一样,DSI 在冻结的 LLM 上工作,不需要训练或架构修改,并能保留目标分布。

之前关于 SI 的研究表明,与 non-SI 相比,DSI 算法的经验速度有所提高,但这需要快速、准确的起草 LLM。在实践中,现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现:当使用速度较慢或准确度较低的起草员时,SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快,弥补了这一差距。通过协调目标和起草器的多个实例,DSI 不仅比 SI 更快,而且还支持 SI 无法加速的 LLM。

仿真显示,在现实环境中,现成的 LLMs 的速度都有所提高:DSI 比 SI 快 1.29-1.92 倍。

论文链接:
https://arxiv.org/abs/2405.14105

5.改进分布匹配蒸馏,实现快速图像合成

最近的一些方法表明,将扩散模型提炼成高效的一步生成器大有可为。其中,分布匹配蒸馏法(DMD)可以生成在分布上与其“教师”模型相匹配的一步生成器,而无需强制与“教师”的采样轨迹一一对应。然而,为了确保稳定的训练,DMD 需要额外的回归损耗,该损耗是使用由“教师”通过多步确定性采样器生成的大量噪声图像对计算得出的。这对于大规模文本到图像的合成来说成本很高,而且限制了“学生”模型的质量,使其与“教师”的原始采样路径过于紧密地联系在一起。

来自麻省理工学院(MIT)和 Adobe 的研究团队提出了一套能解除这一限制并改进 DMD 训练的技术——DMD2。首先,他们消除了回归损失和昂贵的数据集构建需求。他们证明了由此产生的不稳定性是由于假批评家没有准确估计生成样本的分布,并提出了一种双时间尺度更新规则作为补救措施。其次,他们将 GAN 损失集成到蒸馏过程中,以区分生成样本和真实图像。这样,他们就能在真实数据上训练“学生”模型,减轻“教师”模型对真实分数估计的不完美,提高质量。最后,他们修改了训练程序,以实现多步采样。在这种情况下,他们通过在训练期间模拟推理时间生成器采样,发现并解决了训练-推理输入不匹配的问题。

综合来看,他们的改进为一步图像生成设定了新的基准,在 ImageNet-64x64 上的 FID 分数为 1.28,在零样本 COCO 2014 上的 FID 分数为 8.35,尽管推理成本降低了 500 倍,但仍超过了原来的“教师”。此外,他们还展示了这一方法可以通过提炼 SDXL 生成百万像素图像,在几步法中展示了卓越的视觉质量。

论文链接:
https://arxiv.org/abs/2405.14867
项目地址:
https://tianweiy.github.io/dmd/

6.ReVideo:通过运动和内容控制重塑视频

尽管在利用扩散模型生成和编辑视频方面取得了重大进展,但实现精确的本地化视频编辑仍是一项巨大挑战。此外,现有的大多数视频编辑方法主要集中在改变视觉内容上,对动作编辑的研究十分有限。

在这项研究中,来自北京大学和腾讯的研究团队及其合作者,提出了一种新颖的“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现,而基于轨迹的运动控制则提供了直观的用户交互体验。ReVideo 解决了内容和运动控制之间的耦合和训练不平衡问题。为了解决这个问题,他们开发了一种三阶段训练策略,从粗到细逐步解耦这两个方面。此外,他们还提出了一个时空自适应融合模块,以整合不同采样步骤和空间位置的内容和运动控制。

广泛的实验证明,ReVideo 在几种精确的视频编辑应用中具有良好的性能,即:1)局部改变视频内容,同时保持运动不变;2)保持内容不变,同时定制新的运动轨迹;3)同时修改内容和运动轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑,而无需特定的训练,这证明了它的灵活性和鲁棒性。

论文链接:
https://arxiv.org/abs/2405.13865
项目地址:
https://mc-e.github.io/project/ReVideo/

7.360智脑技术报告

360智脑团队提出的 360Zhinao 模型具有 7B 参数大小和包括 4K、32K 和 360K 的上下文长度。为了实现预训练的快速发展,他们建立了一个稳定而灵敏的消融环境,以最小的模型规模对实验运行进行评估和比较。在这样的指导下,他们完善了数据清洗和合成策略,在 3.4T token 上对 360Zhinao-7B-Base 进行预训练。他们还主要强调对齐过程中的数据,通过过滤和重新格式化,努力平衡数量和质量。有了量身定制的数据,360Zhinao-7B 的上下文窗口很容易扩展到 32K 和 360K。RM 和 RLHF 根据 SFT 进行训练,并可靠地应用于特定任务。所有这些贡献使得 360Zhinao-7B 的性能在类似规模的模型中具有竞争力。

论文链接:
https://arxiv.org/abs/2405.13386
GitHub 地址:
https://github.com/Qihoo360/360zhinao

8.GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架

GPT-4V 等预训练视觉语言模型(VLM)具有突出的场景理解和推理能力,因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比,视觉语言模型在多模态信息解析和代码生成方面具有很强的优势,并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力,但它也面临着幻觉、语义复杂性和上下文有限等挑战。

为了解决这些问题,来自复旦大学的研究团队提出了一种多智能体框架——GameVLM,从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说,决策智能体用于规划任务,专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性,并确定最佳解决方案。在真实机器人上进行的实验结果表明,所提出的框架非常有效,平均成功率高达 83.3%。

论文链接:
https://arxiv.org/abs/2405.13751

9.AlignGPT:具有自适应对齐功能的多模态大型语言模型

多模态大型语言模型(MLLM)被广泛认为是探索通用人工智能(AGI)的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,目前的 MLLM 通常采用两阶段训练模式:预训练阶段和指令微调阶段。

尽管这些模型取得了成功,但在对齐能力建模方面仍存在不足。首先,在预训练阶段,模型通常假定所有图像-文本对都是统一对齐的,但实际上不同图像-文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含多种任务,不同任务的指令通常需要不同程度的对齐能力,但以往的 MLLM 忽视了这些差异化的对齐需求。

为了解决这些问题,来自南京大学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段,他们并不是对所有图像-文本对一视同仁,而是为不同的图像-文本对分配不同级别的对齐能力。然后,在指令微调阶段,他们自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求。广泛的实验结果表明,AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。

论文链接:
https://arxiv.org/abs/2405.14129
项目地址:
https://aligngpt-vl.github.io/

10.JiuZhang3.0:通过训练小型数据合成模型有效提高数学推理能力

数学推理是大型语言模型(LLMs)在实际应用中的一项重要能力。为了增强这一能力,现有的工作要么是收集大规模数学相关文本进行预训练,要么是依靠更强大的 LLM(如 GPT-4)来合成大规模数学问题。这两类工作通常都会导致训练或合成方面的巨大成本。

为了降低成本,来自中国人民大学的研究团队及其合作者,提出了一种基于开源文本的高效方法,即训练一个小型 LLM 来合成数学问题,从而有效地生成足够的高质量预训练数据。

为此,他们使用 GPT-4 创建了一个数据集,将其数据合成能力提炼到小型 LLM 中。具体来说,他们根据人类教育阶段精心设计了一套提示语,引导 GPT-4 归纳出涵盖不同数学知识和难度水平的问题。此外,让他们还采用了基于梯度的影响估计方法来选择最有价值的数学相关文本。这两者都被输入到 GPT-4 中,用于创建知识提炼数据集,训练小型 LLM。他们利用它合成了 600 万个数学问题,用于预训练 JiuZhang3.0 模型,该模型只需调用 GPT-4 API 9.3k 次,并在 4.6B 数据上进行预训练。实验结果表明,在自然语言推理和工具操作设置下,JiuZhang3.0 在多个数学推理数据集上都取得了 SOTA。

论文链接:
https://arxiv.org/abs/2405.14365

11.DeepSeek-Prover:通过大规模合成数据推进 LLM 中的定理证明

Lean 等证明助手彻底改变了数学证明验证,确保了高准确性和可靠性。尽管大型语言模型(LLM)在数学推理中大有可为,但由于缺乏训练数据,它们在形式定理证明中的发展受到了阻碍。

为了解决这个问题,来自 DeepSeek 和中山大学的研究团队及其合作者,提出了一种从高中和本科生水平的数学竞赛题中生成大量 Lean 4 证明数据的方法。这种方法包括将自然语言问题转化为形式化语句,过滤掉低质量语句,并生成证明以创建合成数据。

DeepSeekMath 7B 模型由 800 万条带有证明的形式化语句组成,在该合成数据集上对该模型进行微调后,模型在 Lean 4 miniF2F 测试中的整体证明生成准确率在 64 个样本中达到了 46.3%,累计达到了 52%,超过了基线 GPT-4 在 64 个样本中的 23.0%,以及树搜索强化学习方法的 41.0%。此外,模型还成功证明了 Lean 4 形式化国际数学奥林匹克(FIMO)基准测试 148 个问题中的 5 个问题,而 GPT-4 则未能证明任何问题。

这些结果证明了利用大规模合成数据提高 LLM 中定理证明能力的潜力。

论文链接:
https://arxiv.org/abs/2405.14333

12.将具身多智能体协作与高效 LLM 结合

由于物理世界的复杂性,将大型语言模型(LLMs)的推理能力与具身任务相结合是具有挑战性的。特别是多机器人协作的 LLM 规划需要机器人之间的交流或信用分配作为反馈,从而重新调整所提出的计划并实现有效协调。然而,现有方法过度依赖物理验证或自我反思,导致对 LLM 的查询过多且效率低下。

在这项工作中,来自清华大学、上海 AI Lab 和西北工业大学的研究团队及其合作者,提出了一种新颖的多机器人协作框架,该框架结合了强化优势反馈(ReAd)来实现计划的高效自我完善。具体来说,他们通过批判回归从 LLM 计划的数据中学习顺序优势函数,然后将 LLM 计划器视为优化器,生成优势函数最大化的行动。它赋予了 LLM 判断行动是否有助于完成最终任务的前瞻性。他们通过将强化学习中的优势加权回归扩展到多智能体系统,提供了理论分析。

在 Overcooked-AI 和 RoCoBench 的一个高难度变体上进行的实验表明,ReAd 在成功率上超过了基线,而且还显著减少了智能体的交互步骤和LLM的查询轮数,证明了它在为LLM打基础方面的高效率。

论文链接:
https://arxiv.org/abs/2405.14314
项目地址:
https://read-llm.github.io/

13.HippoRAG:神经生物学启发的大型语言模型长期记忆法

为了在恶劣和不断变化的自然环境中茁壮成长,哺乳动物的大脑在进化过程中存储了大量有关世界的知识,并不断整合新信息,同时避免灾难性遗忘。尽管取得了令人瞩目的成就,但大型语言模型(LLMs)即使采用了检索增强生成(RAG)技术,仍难以在预训练后高效地整合大量新经验。

在这项工作中,来自俄亥俄州立大学和斯坦福大学的研究团队提出了一种新颖的检索框架——HippoRAG,其灵感来自于人类长期记忆的海马索引理论,能够对新经验进行更深入、更高效的知识整合。HippoRAG 协同协调了 LLM、知识图谱和个性化 PageRank 算法,从而模拟新皮层和海马体在人类记忆中的不同作用。

他们将 HippoRAG 与现有的多跳问题解答 RAG 方法进行了比较,结果表明,这一方法明显优于其他方法,最高可达 20%。与 IRCoT 等迭代检索法相比,使用 HippoRAG 的单步检索法取得了相当或更好的性能,同时成本降低了 10-30 倍,速度提高了 6-13 倍。最后,他们展示了这一方法可以解决现有方法无法解决的新型场景。

论文链接:
https://arxiv.org/abs/2405.14831
GitHub 地址:
https://github.com/OSU-NLP-Group/HippoRAG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/638545.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机如何将输入文字显示出来的?渲染Image rendering

1.文字渲染的简单理解 渲染图像,可以理解为用cpu/gpu构造出原本不存在的图像。比如输入计算机的英文字符都是ASCII码,而我们在屏幕上看到显示的字符对应的应该是RGB/YUV的像素。计算机把ASCII字符转化成像素的过程就是文字渲染。又比如我们GPU用多个2D图…

BioMistral 7B——医疗领域的新方法,专为医疗领域设计的大规模语言模型

1. 概述 自然语言处理领域正在以惊人的速度发展,ChatGPT 和 Vicuna 等大型语言模型正在从根本上改变我们与计算机交互的方式。从简单的文本理解到复杂的问题解决,这些先进的模型展示了类似人类的推理能力。 特别是,BLOOM 和 LLaMA 等开源模…

【简单介绍下近邻算法】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

案例题(第一版)

案例题目 软件架构设计考点(历年必考) 软件架构设计通常在每年的第一题,该题必考 必备概念 必备概念即考试必须要默写出来的概念 概念描述软件架构风格是指描述特定软件系统组织方式和惯用模式。组织方式描述了系统的组成构件和这些构件的组…

力扣刷题---返回word中所有不重复的单词

当需要从一个数据集合中去除重复元素时,set是一个很好的选择。由于其不允许存储重复的元素,因此可以很容易地实现去重功能。这在处理原始数据或进行数据分析时特别有用。 题目: 给定一个字符串数组 words,请返回一个由 words 中所…

表现层框架设计之表现层设计模式_2.MVP模式

1.MVP模式 MVP(Model-View-Presenter)模式提供数据,View负责显示,Controller/Presenter负责逻辑的处理。MVP是从经典的模式MVC演变而来,它们的基本思想有相通的地方:Controller/Presenter负责逻辑的处理&am…

构建健壮的机器学习大数据平台:任务实现与数据治理的关键

随着数据驱动决策成为现代企业的核心,构建安全、可靠且可扩展的大数据平台变得至关重要。这样的平台不仅需要支持复杂的机器学习任务,还需要在数据质量、合规性和分发方面提供严格的控制。本文旨在探讨构建大型企业机器学习大数据平台时需要考虑的关键要…

【软件设计师】2018年的上午题总结

2018 2018上半年2018下半年 2018上半年 1.小阶向大阶对齐 2.吞吐率是最长流水段操作时间的倒数 3.ssh的端口号是22 4.s所发送的信息使用s的私钥进行数字签名,t收到后使用s的公钥验证消息的真实性 5.数据流分析是被动攻击方式 6.《计算机软件保护条例》是国务院颁布…

OSPF问题

.ospf 选路 域内 --- 1类,2类LSA 域间 --- 3类LSA 域外 --- 5类,7类LSA --- 根据开销值的计算规则不同,还分为类型1和类型2 ospf 防环机制 区域内防环:在同一OSPF区域内,所有路由器通过交换链路状态通告&#xff…

操作视频号小店,新手最关心的问题,一篇给你讲解清楚!

大家好,我是电商小V 新手去做视频号小店的时候,心里面一定是有很多疑问的,会反复咨询一些最关心的问题,因为他们要做好准备,以防后续做店过程中出现问题,其实新手关心的问题就那几个,咱们今天就…

第2天 搭建安全拓展_小迪网络安全笔记

1.常见搭建平台脚本使用: 例如 phpstudy IIS Nginx(俗称中间件): 什么是中间件: 中间件是介于应用系统和系统软件之间的一类软件,它使用系统软件所提供的基础服务(功能),衔接网络上应用系统的各个部分或不同的应用&#…

我的文章分类合集目录

文章目录 Java相关基础常规问题类Docker类RabbitMQ类分库分表 网络工程相关路由交换、Cisco Packet TracerIP地址 前端相关数据库 Java相关 基础 Java开发规范、项目开发流程 SpringBoot整合MyBatis实现增删改查(简单,详细) SpringBoot整合MybatisPlus(详细&#…

HAL库点LED灯

文章目录 一、创建CubeMX项目操作步骤1.STM32CubeMX创建工程2.选择芯片3.Pinout & Configuration配置4.Clock Configuration配置5.Project Manager配置 二、实验(一)LED流水灯1.Keil修改代码2.实验现象3.keil波形仿真 (二)2只…

春秋CVE-2022-23906

简介 CMS Made Simple v2.2.15 被发现包含通过上传图片功能的远程命令执行 (RCE) 漏洞。此漏洞通过精心制作的图像文件被利用。 正文 1.进入靶场2.进入登录界面,弱口令admin/123456 3.进入后台,文件上传点 4.上传一句话木马图片 5.复制图片&#xf…

【MYSQL】分数排名

表: Scores ---------------------- | Column Name | Type | ---------------------- | id | int | | score | decimal | ---------------------- id 是该表的主键(有不同值的列)。 该表的每一行都包含了一场比赛的分数。Score 是…

element-ui输入框和多行文字输入框字体不一样解决

element-ui的type"textarea"的字体样式与其他样式不同 <el-input type"textarea"></el-input> <el-input ></el-input>设置&#xff1a; .el-textarea__inner::placeholder {font-family: "Helvetica Neue", Helvetic…

Transformer详解(3)-多头自注意力机制

attention multi-head attention pytorch代码实现 import math import torch from torch import nn import torch.nn.functional as Fclass MultiHeadAttention(nn.Module):def __init__(self, heads8, d_model128, droput0.1):super().__init__()self.d_model d_model # 12…

吴恩达深度学习笔记:超 参 数 调 试 、 Batch 正 则 化 和 程 序 框 架(Hyperparameter tuning)3.4-3.5

目录 第二门课: 改善深层神经网络&#xff1a;超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第三周&#xff1a; 超 参 数 调 试 、 Batch 正 则 化 和 程 序 框 架&#xff08;Hyperparameter …

TENT: FULLY TEST-TIME ADAPTATION BY ENTROPY MINIMIZATION--论文笔记

论文笔记 资料 1.代码地址 https://github.com/DequanWang/tent 2.论文地址 https://arxiv.org/abs/2006.10726 1论文摘要的翻译 在这种完全测试时适应的情况下&#xff0c;模型只有测试数据和自身参数。我们建议通过测试熵最小化&#xff08;tent&#xff09;进行适应&…

windows查看mysql的版本(三种方法)

方法一&#xff1a;在win r 打开 cmd&#xff0c;在cmd命令状态下&#xff1a;mysql --help 回车即可 方法二&#xff1a;在mysql客户端窗口状态下&#xff1a;输入status并回车即可 在计算机开始菜单搜索以上应用打开即可进入mysql客户端窗口。 方法三&#xff1a;在mys…