1.Customize-A-Video:文生视频,可以自由定制了
图像定制在文本到图像(T2I)扩散模型中已经得到了广泛的研究,并取得了令人印象深刻的成果和应用。随着文本到视频(T2V)扩散模型的兴起,其对应的时间模型、运动定制模型还没有得到很好地研究。
为了应对单次运动定制的挑战,来自马里兰大学、Adobe Research 和延世大学的研究团队提出了 Customize-A-Video 方法,从单个参考视频中建立运动模型,并将其适配到具有空间和时间变化的新主题和场景中。它利用时间注意层上的低秩适应(LoRA)来定制预训练 T2V 扩散模型,以便根据参考视频进行特定的运动建模。
为了在训练过程中分离空间和时间信息,研究团队提出了 appearance absorbers 的概念,在运动学习之前将原始外观从单个参考视频中分离出来。Customize-A-Video 可以以即插即用的方式轻松扩展到各种下游任务,包括定制视频生成和编辑、视频外观定制和多重运动组合。
论文链接:
https://arxiv.org/abs/2402.14780
项目地址:
https://anonymous-314.github.io/
2.微软提出Copilot评估工具包,涵盖各种编程场景和语言
将大型语言模型(LLMs)集成到开发环境(IDEs)中已成为现代软件开发的一个焦点。OpenAI GPT-3.5/4 和 Code Llama 等 LLMs 可作为智能的、聊天驱动的编程助手,大大提高开发人员的工作效率。不过,在任何特定场景下,开箱即用的 LLMs 都不可能达到最佳效果。相反,每个系统都需要根据自己的启发式方法对 LLM 进行磨合,以确保最佳性能。
来自微软公司的研究团队提出了 Copilot 评估工具包,用于评估 LLM 引导的 IDE交互的数据和工具,涵盖各种编程场景和语言。它与以前的评估系统相比更鲁棒、信息更密集。
研究团队设计并计算了涵盖广泛开发者任务场景的静态和基于执行的成功指标,包括从自然语言生成代码(generate)、从代码生成文档(doc)、测试用例生成(test)、错误修复(fix)以及工作区理解和查询解析(workspace)。这些成功指标旨在评估给定 IDE 及其相应参数空间内 LLMs 的性能。我们使用这些指标对三种常见的 LLMs 进行了评估,从中获得的经验可以为 LLM 引导 IDEs 未来应用场景的开发和验证提供参考。
论文链接:
https://arxiv.org/abs/2402.14261
3.Snap Video:基于Transformer的文生视频新模型
当前图像生成模型显示出极高的质量和多功能性,因此,研究界重新调整它们用于生成视频。由于视频内容冗余度很高,将图像模型的先进技术简单地引入视频生成领域会降低运动保真度、视觉质量和可扩展性。
为此,来自 Snap 的研究团队及其合作者建立了一个视频优先模型——Snap Video,来系统地应对这些挑战。研究团队首先扩展了 EDM 框架,用于考虑空间和时间上的冗余像素并自然地支持视频生成。其次,因为 U-Net(图像生成的主要工具)在生成视频时扩展性很差并且需要大量的计算开销,研究团队提出了一种基于 Transformer 的新架构,其训练速度是 U-Net 的 3.31 倍(推理速度约为 4.5 倍)。这使我们能够首次高效地训练具有数十亿个参数的文生视频模型,在许多基准测试中达到最先进的结果,并生成具有更高质量、时间一致性和运动复杂性的视频。
用户研究表明,与最近的方法相比,Snap Video 模型更受青睐。
论文链接:
https://arxiv.org/abs/2402.14797
4.MuLan:像画家一样逐步生成多对象图像
现有的文生图模型在生成多个对象的图像时仍然存在困难,尤其是在处理它们的空间位置、相对大小、重叠和属性绑定方面时。来自香港科技大学、加州大学洛杉矶分校、宾夕法尼亚州立大学和马里兰大学的研究团队,开发了一个无需训练的多模态大型语言模型(LLMs)智能体——MuLan,它能够像人类画家一样进行规划和反馈控制来逐步生成多个对象。
MuLan 利用 LLM 将提示分解为一系列子任务,每个子任务只生成一个对象,并以之前通过 Stable Diffusion 生成的对象为条件。与现有的基于 LLM 的方法不同,MuLan 只在开始时生成一个高级计划,而每个对象的确切大小和位置则由 LLM 和每个子任务的注意力引导决定。
此外,MuLan 还采用视觉语言模型(VLM)为每个子任务中生成的图像提供反馈,并在图像违反原始提示时控制扩散模型重新生成图像。因此,MuLan 每个步骤中的每个模型只需处理其擅长的简单子任务即可。
研究团队在不同的基准中收集了 200 个包含具有空间关系和属性绑定的多对象提示来评估 MuLan,结果表明 MuLan 在生成多对象方面优于基准。
论文链接:
https://arxiv.org/abs/2402.12741
项目地址:
https://github.com/measure-infinity/mulan-code
5.生成式人工智能安全:挑战与对策
生成式人工智能(Generative AI)在各行各业的应用范围不断扩大,这既让人兴奋,也增加了审查的难度。来自加州大学伯克利分校的研究团队深入探讨了生成式人工智能带来的独特安全挑战,并概述了管理这些风险的潜在研究方向。
论文链接:
https://arxiv.org/abs/2402.12617
6.玩转文生图,帮你自动优化 prompt
精心设计的 prompt 已经显示出具有引导文生图模型生成令人惊叹的图像的潜力,尽管现有的 prompt 工程方法可以提供高层次的指导,但由于新手用户输入的提示与模型偏好的 prompt 之间存在差异,新手用户通过手动输入 prompt 来达到预期效果仍然具有挑战性。
为了缩小用户输入行为与模型训练数据集之间的分布差距,来自复旦大学和同济大学的研究团队构建了一个 Coarse-Fine Granularity Prompts 数据集(CFP),并提出了一个 User-Friendly Fine-Grained Text Generation 框架(UF-FGTG),用于自动优化 prompt。对于 CFP,研究团队构建了一个结合了粗粒度和细粒度 prompt 的文本到图像任务的新数据集,从而促进自动提示生成方法的开发。对于 UF-FGTG,研究团队提出了一种可将用户输入的 prompt 自动转换为模型偏好 prompt 的框架。
具体来说,研究团队提出了一个 prompt 优化器,它可以不断改写 prompt 使用户能够选择符合其独特需求的结果。通过将文生图模型中与图像相关的损失函数整合到文本生成的训练过程中,使其生成模型首选 prompt。此外,研究团队还提出了一个自适应特征提取模块,以确保生成结果的多样性。实验证明,这一方法能够生成比以前最先进方法更具视觉吸引力和多样性的图像,在六个质量和美学指标上平均提高了 5%。
论文链接:
https://arxiv.org/abs/2402.12760
项目地址:
https://github.com/Naylenv/UF-FGTG
7.PANDA:无需微调即可增强大模型特定能力
虽然大型语言模型(LLMs)在各种自然语言任务中表现出了相当强的能力,但它们通常无法达到特定领域最先进模型的性能。通过使用相应的数据集对 LLMs 进行微调,可以增强其特定领域的能力。但这种方法既耗费资源又耗费时间,而且不适用于闭源商业 LLMs。
来自清华大学和阿里巴巴集团的研究团队提出了一种无需进行微调的方法—— Preference Adaptation for Enhancing Domain-specific Abilities of LLMs(PANDA),它利用专家模型响应偏好洞察来增强 LLMs 的特定领域能力。
实验结果表明,PANDA 显著增强了 LLMs 在文本分类和交互决策任务中的特定能力。此外,使用 PANDA 的 LLM 甚至在 ScienceWorld 的 4 项任务上优于专家模型。这一发现凸显了探索无需微调方法、实现从弱到强泛化的潜力。
论文链接:
https://arxiv.org/abs/2402.12835
8.VideoPrism:用于理解视频的基础视觉编码器
来自 Google Research 的研究团队提出了一个通用视频编码器——VideoPrism,它可以通过单个冻结模型处理各种视频理解任务。VideoPrism 在一个异构语料库上进行了预训练,该语料库包含 36M 高质量视频字幕对和 584M 个视频剪辑以及带有噪声的平行文本视频片段(如 ASR 转录文本)。
预训练方法在语义视频嵌入的全局-局部蒸馏和 token 洗牌方案上改进了掩蔽自动编码,使 VideoPrism 能够在主要关注视频模态的同时利用与视频相关的文本。研究团队在四大类视频理解任务中进行了广泛测试,VideoPrism 在 33 个视频理解基准中的 30 个基准上实现了最先进的性能。
论文链接:
https://arxiv.org/abs/2402.13217
9.AgentMD:利用“临床计算器”增强智能体的风险预测能力
临床计算器在医疗保健领域发挥着重要作用,可为预后等各种目的提供准确的循证预测。然而,可用性挑战、传播不畅和功能受限等问题限制了这些计算器的广泛使用。利用大量临床计算器集合来增强大型语言模型,为克服这些障碍和提高工作流程效率提供了机会,但手工整理过程的可扩展性是一个重大挑战。
为此,来自美国国立卫生研究院(NIH)、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了一个新型语言智能体——AgentMD,它能够在各种临床环境中整理和应用临床计算器。利用已发表的文献,AgentMD 自动收集了 2164 种具有可执行功能和结构化文档的临床计算器,统称为 RiskCalcs。人工评估显示,RiskCalcs 工具在三项质量指标上的准确率超过了 80%。
在推理时,AgentMD 可以根据患者描述自动选择和应用相关的 RiskCalcs 工具。在新设立的 RiskQA 基准上,AgentMD 明显优于使用 GPT-4 的思维链提示(准确率分别为 87.7%、40.9%)。此外,研究团队还将 AgentMD 应用于真实世界的临床笔记来分析人群和风险级别的患者特征。研究表明,语言智能体与临床计算器在医疗分析和患者护理方面具有实用性。
论文链接:
https://arxiv.org/abs/2402.13225