大家好,今日必读的大模型论文来啦!
1.Sora综述:大型视觉模型的背景、技术、局限和机遇
Sora 是 OpenAI 于 2024 年 2 月发布的文生视频人工智能(AI)模型。经过训练,Sora 能根据文字说明生成逼真或富有想象力的场景视频,并显示出了模拟物理世界的潜力。
在这篇论文中,来自理海大学和微软研究院的研究团队以公开技术报告和逆向工程为基础,全面回顾了 Sora 的背景、相关技术、应用、尚存挑战以及文生视频 AI 模型的未来发展方向。
研究团队首先追溯了 Sora 的发展历程,并研究了用于构建这一“世界模拟器”的底层技术。然后,他们详细介绍了 Sora 在从电影制作、教育到市场营销等多个行业中的应用和潜在影响。研究团队讨论了广泛部署 Sora 所面临的主要挑战和限制,如确保安全和无偏见的视频生成。最后,他们讨论了 Sora 和其他视频生成模型的未来发展,以及该领域的进步如何实现新的人机交互方式,提高视频生成的生产力和创造力。
论文链接:
https://arxiv.org/abs/2402.17177
项目地址:
https://github.com/lichao-sun/SoraReview
2.Sora评估基准:视频符合真实世界的物理原理吗?
近期,Sora 在视频生成方面展现了非凡的能力,引发了有关其模拟真实世界现象能力的激烈讨论,但目前还缺乏成熟的指标来定量评估其与真实世界物理的保真度。
来自南开大学、字节跳动、武汉大学和南开国际先进研究院的研究团队提出了一种新的基准,根据 Sora 生成的视频是否符合真实世界的物理原理来评估其忠实度。由于 3D 重建的准确性在很大程度上取决于视频质量,研究团队将生成的视频转换为 3D 模型。从 3D 重建的角度,研究团队使用构建的 3D 模型所满足的几何约束的保真度,来衡量生成的视频在多大程度上符合真实世界的物理规则。
论文链接:
https://arxiv.org/abs/2402.17403
项目地址:
https://sora-geometrical-consistency.github.io/
3.Google DeepMind:视频是现实世界决策的新语言
互联网上有大量的文本和视频数据,通过对下一个 token 或帧的预测,可支持大规模的自监督学习。然而,文本和视频数据并没有得到同等的利用,语言模型对现实世界产生了重大影响,而视频生成在很大程度上仍局限于媒体娱乐。但实际上,视频数据可以捕捉到难以用语言表达的物理世界中的重要信息。
为此,来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队讨论了扩展视频生成功能来解决现实世界中的任务。与语言类似,视频可以作为一个统一的界面,吸收互联网知识并体现不同的任务。
研究团队展示了视频生成如何像语言模型一样,通过上下文学习、规划和强化学习等技术充当规划者、智能体、计算引擎和环境模拟器。他们确定了机器人、自动驾驶和科学等领域的主要影响机会,并通过近期工作证明了视频生成中的这些先进功能是如何触手可及的。最后,研究团队指出,解决视频生成中阻碍进步的关键挑战将使视频生成模型与语言模型一起,在更广泛的人工智能应用中展现出独特的价值。
论文链接:
https://arxiv.org/abs/2402.17139
4.清华新研究:让大模型参与城市规划
参与式城市规划是现代城市规划的主流,涉及居民的积极参与。传统的参与式范例需要经验丰富的规划专家,往往耗时且成本高昂。幸运的是,大型语言模型(LLMs)在模拟类人智能体方面已显示出相当大的能力,可用于轻松模拟参与式过程。
清华团队为参与式城市规划设计了一个基于 LLM 的多智能体协作框架,该框架可以考虑居民的不同需求,为城市地区生成土地利用规划。研究团队构建了 LLM 智能体来模拟规划者和数千名具有不同特征和背景的居民。
研究团队首先要求规划师执行一个初始土地利用规划。为了满足居民对不同设施的需求,他们在每个社区的居民中发起了关于规划的讨论,居民们根据自己的情况提供反馈意见。为了提高讨论效率,他们采用了鱼缸讨论机制(fishbowl discussion mechanism),即每轮由部分居民讨论,其余居民作为听众。最后,让规划者根据居民的反馈修改计划。
研究团队在北京的两个实际区域部署了这一方法。实验表明,该方法在居民满意度和包容性指标方面达到了最先进的水平,在服务可达性和生态指标方面也优于人类专家。
论文链接:
https://arxiv.org/abs/2402.17161
5.Agent-Pro:在学习中不断进化的智能体
大型语言模型(LLMs)可为各种任务提供强大的问题解决能力。然而,大多数基于 LLMs 的智能体被设计为具有复杂提示工程的特定任务解决程序,而不是能够通过交互进行学习和进化的智能体。这些任务求解器需要人工制作提示来告知任务规则和规范 LLMs 行为,因而无法应对复杂的动态场景(如大型互动游戏)。
为此,来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了一个基于 LLM 的、具有策略级反思和优化功能的智能体——Agent-Pro,它可以从交互体验中学习丰富的专业知识,并逐步提升其行为策略。
Agent-Pro 涉及一个动态的信念生成和策略演化的反思过程。与行动层面的反思不同,Agent-Pro 会反复反思过去的轨迹和信念,微调其不合理的信念以制定更好的策略。此外,它还采用深度优先搜索进行策略优化,确保不断提高策略回报。
Agent-Pro 在两个游戏中进行了评估:在二十一点和德州扑克游戏中,Agent-Pro 的表现优于 vanilla LLM 和专门模型。结果表明,Agent-Pro 可以在复杂的动态场景中学习和进化,这也有利于众多基于 LLM 的应用。
论文链接:
https://arxiv.org/abs/2402.17574
6.SongComposer:让大模型像人类一样创作歌曲
来自香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队提出了一款专为歌曲创作而设计的大型语言模型(LLMs)——SongComposer。
利用 LLMs 的能力,它可以理解并生成符号化歌曲表示中的旋律和歌词。现有的音乐相关 LLMs 将音乐视为量化的音频信号,这种隐式编码会导致编码效率低下和灵活性差。相比之下,研究团队采用了人类为音乐设计的成熟而高效的符号歌曲表示法,使 LLMs 能够像人类一样明确地创作歌曲。在实践中,研究团队设计了一种元组设计来格式化旋律中的歌词和三个音符属性(音高、时长和休止符时长),这保证了 LLMs 对音乐符号的正确理解,并实现了歌词和旋律的精确对齐。
为了向 LLMs 传授基本的音乐理解能力,他们精心收集了一个大规模的歌曲预训练数据集 SongCompose-PT ,其中包括中文或英文歌词、旋律和成对的歌词旋律。经过充分的预训练后使用 10000 个精心制作的 QA 对来增强 LLMs 的指令遵循能力,从而解决各种任务。通过大量实验,SongComposer 在歌词到旋律的生成、旋律到歌词的生成、歌曲续写和文本到歌曲的创作方面表现出卓越的性能,超过了 GPT-4 等先进的 LLMs。
论文链接:
https://arxiv.org/abs/2402.17645
项目地址:
https://github.com/pjlab-songcomposer/songcomposer
7.EMO:从音频生成富有表现力的肖像视频
阿里巴巴团队开展了一项研究,重点关注音频线索与面部动作之间的动态和细微关系,在应对在生成“对话头像”(talking head)视频时如何提高逼真度和表现力的挑战时,传统技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。
为此,研究团队提出了 EMO这一框架,它采用直接从音频到视频的合成方法,无需中间 3D 模型或面部标志。EMO 确保了整个视频的无缝帧转换和一致的身份保持,能够产生极富表现力且栩栩如生的动画。EMO 不仅能生成令人信服的说话视频,还能生成各种风格的唱歌视频,在表现力和逼真度方面明显优于现有的最先进方法。
论文链接:
https://arxiv.org/abs/2402.17485
项目地址:
https://humanaigc.github.io/emote-portrait-alive/