大家好,今日必读的大模型论文来啦!
1.EdgeFusion:端侧文本到图像生成,只需不到一秒
用于文本到图像生成的稳定扩散(SD)技术需要大量计算,这对其实际应用构成了重大障碍。为此,最近的研究集中在减少采样步骤的方法上,如潜一致性模型(LCM),以及采用架构优化,包括剪枝和知识提炼。
与现有方法不同,来自 Nota AI 和三星的研究团队从紧凑的 SD 变体 BK-SDM 开始。他们发现,直接将 LCM 应用于 BK-SDM 和常用的抓取数据集会产生令人不满意的结果。为此,他们提出了两种策略:(1)利用来自主要生成模型的高质量图像-文本对(2)设计一个为 LCM 量身定制的高级蒸馏过程。通过对量化、分析和端侧部署的探索,用两步就实现了照片般逼真的、文本对齐的图像的快速生成,在资源有限的端侧设备上的延迟不到一秒。
论文链接:
https://arxiv.org/abs/2404.11925
2.Reka 团队推出三款多模态语言模型:Core,Flash 和 Edge
来自 Reka 的研究团队提出了 Reka Core、Flash 和 Edge,一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理文本、图像、视频和音频输入并进行推理,他们讨论了其中一些模型的训练细节,并提供了全面的评估结果。
实验表明,Reka Edge 和 Reka Flash 不仅是 SOTA 模型,而且还优于许多更大的模型。同时,他们能力最强、规模最大的模型 Reka Core 在自动评估和 blind human 评估中都接近 SOTA。
在图像问题解答基准(如 MMMU、VQAv2)上,Reka Core 的表现与 GPT4-V 不相上下。在多模态聊天方面,Reka Core 在第三方 blind 评估设置下被评为第二最受欢迎的模型,表现优于 Claude 3 Opus 等其他模型。在文本基准上,blind Core 不仅在一组成熟基准(如 MMLU、GSM8K)上的表现与其他前沿模型相比具有竞争力,而且在人工评估上也优于 GPT4-0613。在视频问题解答(感知测试)方面,Core 的表现优于 Gemini Ultra。
论文链接:
https://arxiv.org/abs/2404.12387
项目地址:
https://showcase.reka.ai/
3.BLINK:视觉感知多模态大模型评估基准
来自宾夕法尼亚大学、华盛顿大学和艾伦人工智能研究所的研究团队及其合作者,提出了一个多模态语言模型(LLMs)的新基准 Blink,主要专注于其他评估中未发现的核心视觉感知能力。
大部分 Blink 任务对于人类来说都能“瞬间”解决(例如,相对深度估计、视觉对应、取证检测和多视角推理)。然而,他们发现这些需要感知的任务对当前的多模态 LLMs 提出了巨大挑战,因为它们无法通过自然语言进行调解。Blink 将 14 项经典的计算机视觉任务改编成 3807 道选择题,并配以单幅或多幅图像和视觉提示。
虽然人类的平均准确率为 95.70%,但 Blink 对现有多模态 LLM 的挑战却出人意料,即使是表现最好的 GPT-4V 和 Gemini,准确率也只有 51.26% 和 45.72%,仅比随机猜测高出 13.17% 和 7.63%,这表明这种感知能力尚未在最近的多模态 LLM 中 出现。他们分析还强调,专业的 CV 模型可以更好地解决这些问题,这为未来的改进提供了潜在的途径,Blink 将激励社区帮助多模态 LLMs 赶上人类水平的视觉感知。
论文链接:
https://arxiv.org/abs/2404.12390
项目地址:
https://zeyofu.github.io/blink/
4.TriForce:利用分层投机解码无损加速长序列生成
最近,随着大型语言模型(LLMs)被广泛应用于长内容生成,对高效长序列推理支持的需求日益增长。
然而,为避免重复计算而存储的键值(KV)缓存已成为一个关键瓶颈,其大小随序列长度呈线性增长。由于 LLM 的自动递归特性,每生成一个 token 就会加载整个 KV 缓存,从而导致计算核心利用率低而延迟高。虽然已经提出了各种 KV 缓存压缩方法来缓解这一问题,但这些方法都会导致生成质量下降。
来自卡内基梅隆大学和 Meta 的研究团队提出了一种可扩展至长序列生成的分层推测解码系统 TriForce。这种方法通过检索利用原始模型权重和动态稀疏 KV 缓存作为草稿模型,作为层次结构中的中间层,并由更小的模型进一步推测,从而减少其草稿延迟。TriForce 不仅为 Llama2-7B-128K 带来了令人印象深刻的速度提升,在 A100 GPU 上实现了高达 2.31 倍的速度,而且还展示了在处理更长上下文时的可扩展性。在两个 RTX 4090 GPU 上的卸载设置中,TriForce 实现了 0.108s/token 的速度,仅为 A100 上自动回归基线速度的一半,而在优化的卸载系统上则达到了 7.78 倍。此外,TriForce 在单个 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。TriForce 的鲁棒性凸显了其在各种温度下始终保持出色的性能。
论文链接:
https://arxiv.org/abs/2404.11912
GitHub 地址:
https://github.com/Infini-AI-Lab/TriForce
5.“图生视频”新研究:剪贴画秒变卡通动画
剪贴画是一种预先制作的图形艺术形式,为视觉内容提供了一种方便、高效的说明方式。将静态剪贴画图像转换成动态序列的传统工作流程既费力又费时,其中涉及许多复杂的步骤,如装配、关键动画和中间处理。文本到视频生成技术的最新进展为解决这一问题带来了巨大潜力。
然而,直接应用文字视频生成模型往往难以保留剪贴画图像的视觉特征或生成卡通风格的动作,导致动画效果不尽如人意。来自香港城市大学和莫纳什大学提出了一个将静态剪贴画图像转化为由文本到视频先验指导的高质量运动序列系统 AniClipart。
为了生成卡通风格的平滑运动,他们首先在剪贴画图像的关键点上定义 Bézier 曲线,作为一种运动正则化形式。然后,通过优化视频分数蒸馏采样(VSDS)损失,将关键点的运动轨迹与所提供的文字提示对齐,该损失在预训练的文字视频扩散模型中编码了足够的自然运动知识。该方法采用了可微分的形状变形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持变形刚度的同时进行端到端优化。
实验结果表明,在文本-视频对齐、视觉特性保持和运动一致性方面,AniClipart 始终优于现有的图像-视频生成模型。展示了 AniClipart 的通用性,通过调整它来生成更广泛的动画格式,如分层动画,允许拓扑变化。
论文链接:
https://arxiv.org/abs/2404.12347
项目地址:
https://aniclipart.github.io/
6.MIT、谷歌新研究:基于零样本跨语言对齐的奖励模型转移
根据人类标注的偏好数据对语言模型(LMs)进行对齐,是获得基于 LM 的系统实用且性能良好的的关键一步。
然而,多语言人类偏好数据很难大规模获取,因此将这一框架扩展到多种语言具有挑战性。
来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法,即在一种源语言的偏好数据上训练奖励模型,然后直接应用于其他目标语言。在总结和开放式对话生成方面,他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的,在多达 > 70% 的评估实例中,跨语言对齐模型比非对齐模型更受人类青睐。
此外,不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。
论文链接:
https://arxiv.org/abs/2404.12318
7.LazyDiffusion:用于交互式图像编辑的懒惰扩散 Transformer
来自 Adobe 研究院和特拉维夫大学的研究团队提出了一种新型扩散 transformer——LazyDiffusion,它能高效地生成局部图像更新。他们以交互式图像编辑应用为目标,在这些应用中,用户从空白画布或图像开始,使用二进制掩码和文本提示指定一系列局部图像修改。
他们的生成器分两阶段运行。首先,上下文编码器处理当前画布和用户掩码,生成一个紧凑的全局上下文来适应要生成的区域。其次,以该上下文为条件,基于扩散的 transformer 解码器以“lazy”的方式合成掩膜像素,即只生成掩码区域。
之前的工作要么重新生成整个画布,浪费时间和计算,要么将处理范围限制在掩膜周围的狭小矩形区域,完全忽略了全局图像上下文。他们的解码器的运行时间与掩码大小成比例,掩码大小通常很小,而他们的编码器带来的开销可以忽略不计。实验证明,在质量和保真度方面,他们的方法与最先进的内绘方法相比具有竞争力,同时在典型的用户交互中(编辑掩码占图像的 10%),速度提高了 10 倍。
论文链接:
https://arxiv.org/abs/2404.12382
GitHub 地址:
https://lazydiffusion.github.io/
8.MIT 新研究:让大模型生成有效的旅行规划
近年来,大型语言模型(LLMs)以其丰富的世界知识和工具使用和推理能力,促进了许多 LLM 规划算法的发展。然而,LLMs 还不能准确解决复杂的组合优化问题。
为此,MIT 团队提出了一个框架,使 LLM 能够将旅行规划问题正式表述为可满足性模理论(SMT)问题并加以解决,并使用 SMT 求解器交互式地自动解决组合搜索问题。SMT 求解器能保证输入约束条件的可满足性,而 LLM 则能与他们的框架进行基于语言的交互。当输入约束条件无法满足时,基于 LLM 的框架将通过使用 SMT 求解器进行自动推理,以交互方式向用户提供修改其旅行要求的建议。
他们使用 TravelPlanner 对该框架进行了评估,成功率达到 97%,还创建了一个包含国际旅行基准的单独数据集,并在无法满足初始用户查询时,使用这两个数据集来评估交互式规划框架的有效性。根据人类的不同偏好,该框架可以生成有效的计划,数据集的平均成功率为 78.6%,TravelPlanner 的平均成功率为 85.0%。
论文链接:
https://arxiv.org/abs/2404.11891