大模型日报|今日必读的7篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Sora综述:大型视觉模型的背景、技术、局限和机遇

Sora 是 OpenAI 于 2024 年 2 月发布的文生视频人工智能(AI)模型。经过训练,Sora 能根据文字说明生成逼真或富有想象力的场景视频,并显示出了模拟物理世界的潜力。

在这篇论文中,来自理海大学和微软研究院的研究团队以公开技术报告和逆向工程为基础,全面回顾了 Sora 的背景、相关技术、应用、尚存挑战以及文生视频 AI 模型的未来发展方向。

研究团队首先追溯了 Sora 的发展历程,并研究了用于构建这一“世界模拟器”的底层技术。然后,他们详细介绍了 Sora 在从电影制作、教育到市场营销等多个行业中的应用和潜在影响。研究团队讨论了广泛部署 Sora 所面临的主要挑战和限制,如确保安全和无偏见的视频生成。最后,他们讨论了 Sora 和其他视频生成模型的未来发展,以及该领域的进步如何实现新的人机交互方式,提高视频生成的生产力和创造力。

论文链接:
https://arxiv.org/abs/2402.17177
项目地址:
https://github.com/lichao-sun/SoraReview

2.Sora评估基准:视频符合真实世界的物理原理吗?

近期,Sora 在视频生成方面展现了非凡的能力,引发了有关其模拟真实世界现象能力的激烈讨论,但目前还缺乏成熟的指标来定量评估其与真实世界物理的保真度。

来自南开大学、字节跳动、武汉大学和南开国际先进研究院的研究团队提出了一种新的基准,根据 Sora 生成的视频是否符合真实世界的物理原理来评估其忠实度。由于 3D 重建的准确性在很大程度上取决于视频质量,研究团队将生成的视频转换为 3D 模型。从 3D 重建的角度,研究团队使用构建的 3D 模型所满足的几何约束的保真度,来衡量生成的视频在多大程度上符合真实世界的物理规则。

论文链接:
https://arxiv.org/abs/2402.17403
项目地址:
https://sora-geometrical-consistency.github.io/

3.Google DeepMind:视频是现实世界决策的新语言

互联网上有大量的文本和视频数据,通过对下一个 token 或帧的预测,可支持大规模的自监督学习。然而,文本和视频数据并没有得到同等的利用,语言模型对现实世界产生了重大影响,而视频生成在很大程度上仍局限于媒体娱乐。但实际上,视频数据可以捕捉到难以用语言表达的物理世界中的重要信息。

为此,来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队讨论了扩展视频生成功能来解决现实世界中的任务。与语言类似,视频可以作为一个统一的界面,吸收互联网知识并体现不同的任务。

研究团队展示了视频生成如何像语言模型一样,通过上下文学习、规划和强化学习等技术充当规划者、智能体、计算引擎和环境模拟器。他们确定了机器人、自动驾驶和科学等领域的主要影响机会,并通过近期工作证明了视频生成中的这些先进功能是如何触手可及的。最后,研究团队指出,解决视频生成中阻碍进步的关键挑战将使视频生成模型与语言模型一起,在更广泛的人工智能应用中展现出独特的价值。

论文链接:
https://arxiv.org/abs/2402.17139

4.清华新研究:让大模型参与城市规划

参与式城市规划是现代城市规划的主流,涉及居民的积极参与。传统的参与式范例需要经验丰富的规划专家,往往耗时且成本高昂。幸运的是,大型语言模型(LLMs)在模拟类人智能体方面已显示出相当大的能力,可用于轻松模拟参与式过程。

清华团队为参与式城市规划设计了一个基于 LLM 的多智能体协作框架,该框架可以考虑居民的不同需求,为城市地区生成土地利用规划。研究团队构建了 LLM 智能体来模拟规划者和数千名具有不同特征和背景的居民。

研究团队首先要求规划师执行一个初始土地利用规划。为了满足居民对不同设施的需求,他们在每个社区的居民中发起了关于规划的讨论,居民们根据自己的情况提供反馈意见。为了提高讨论效率,他们采用了鱼缸讨论机制(fishbowl discussion mechanism),即每轮由部分居民讨论,其余居民作为听众。最后,让规划者根据居民的反馈修改计划。

研究团队在北京的两个实际区域部署了这一方法。实验表明,该方法在居民满意度和包容性指标方面达到了最先进的水平,在服务可达性和生态指标方面也优于人类专家。

论文链接:
https://arxiv.org/abs/2402.17161

5.Agent-Pro:在学习中不断进化的智能体

大型语言模型(LLMs)可为各种任务提供强大的问题解决能力。然而,大多数基于 LLMs 的智能体被设计为具有复杂提示工程的特定任务解决程序,而不是能够通过交互进行学习和进化的智能体。这些任务求解器需要人工制作提示来告知任务规则和规范 LLMs 行为,因而无法应对复杂的动态场景(如大型互动游戏)。

为此,来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了一个基于 LLM 的、具有策略级反思和优化功能的智能体——Agent-Pro,它可以从交互体验中学习丰富的专业知识,并逐步提升其行为策略。

Agent-Pro 涉及一个动态的信念生成和策略演化的反思过程。与行动层面的反思不同,Agent-Pro 会反复反思过去的轨迹和信念,微调其不合理的信念以制定更好的策略。此外,它还采用深度优先搜索进行策略优化,确保不断提高策略回报。

Agent-Pro 在两个游戏中进行了评估:在二十一点和德州扑克游戏中,Agent-Pro 的表现优于 vanilla LLM 和专门模型。结果表明,Agent-Pro 可以在复杂的动态场景中学习和进化,这也有利于众多基于 LLM 的应用。

论文链接:
https://arxiv.org/abs/2402.17574

6.SongComposer:让大模型像人类一样创作歌曲

来自香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队提出了一款专为歌曲创作而设计的大型语言模型(LLMs)——SongComposer。

利用 LLMs 的能力,它可以理解并生成符号化歌曲表示中的旋律和歌词。现有的音乐相关 LLMs 将音乐视为量化的音频信号,这种隐式编码会导致编码效率低下和灵活性差。相比之下,研究团队采用了人类为音乐设计的成熟而高效的符号歌曲表示法,使 LLMs 能够像人类一样明确地创作歌曲。在实践中,研究团队设计了一种元组设计来格式化旋律中的歌词和三个音符属性(音高、时长和休止符时长),这保证了 LLMs 对音乐符号的正确理解,并实现了歌词和旋律的精确对齐。

为了向 LLMs 传授基本的音乐理解能力,他们精心收集了一个大规模的歌曲预训练数据集 SongCompose-PT ,其中包括中文或英文歌词、旋律和成对的歌词旋律。经过充分的预训练后使用 10000 个精心制作的 QA 对来增强 LLMs 的指令遵循能力,从而解决各种任务。通过大量实验,SongComposer 在歌词到旋律的生成、旋律到歌词的生成、歌曲续写和文本到歌曲的创作方面表现出卓越的性能,超过了 GPT-4 等先进的 LLMs。

论文链接:
https://arxiv.org/abs/2402.17645
项目地址:
https://github.com/pjlab-songcomposer/songcomposer

7.EMO:从音频生成富有表现力的肖像视频

阿里巴巴团队开展了一项研究,重点关注音频线索与面部动作之间的动态和细微关系,在应对在生成“对话头像”(talking head)视频时如何提高逼真度和表现力的挑战时,传统技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。

为此,研究团队提出了 EMO这一框架,它采用直接从音频到视频的合成方法,无需中间 3D 模型或面部标志。EMO 确保了整个视频的无缝帧转换和一致的身份保持,能够产生极富表现力且栩栩如生的动画。EMO 不仅能生成令人信服的说话视频,还能生成各种风格的唱歌视频,在表现力和逼真度方面明显优于现有的最先进方法。

论文链接:
https://arxiv.org/abs/2402.17485
项目地址:
https://humanaigc.github.io/emote-portrait-alive/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/414544.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2.27数据结构

1.链队 //link_que.c #include "link_que.h"//创建链队 Q_p create_que() {Q_p q (Q_p)malloc(sizeof(Q));if(qNULL){printf("空间申请失败\n");return NULL;}node_p L(node_p)malloc(sizeof(node));if(LNULL){printf("申请空间失败\n");return…

一周学会Django5 Python Web开发-Django5列表视图ListView

锋哥原创的Python Web开发 Django5视频教程: 2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~共计27条视频,包括:2024版 Django5 Python we…

Java毕业设计-基于springboot开发的冬奥会科普平台系统-毕业论文+PPT(有源代码)

文章目录 前言一、毕设成果演示(源代码在文末)二、毕设摘要展示1.开发说明2.需求分析3、系统功能结构 三、系统实现展示1、登录注册2、系统功能模块3、管理员功能模块 四、毕设内容和源代码获取总结 Java毕业设计-基于springboot开发的冬奥会科普平台系统…

CrossOver2024软件虚拟机下载及使用方法教程步骤

CrossOver的使用方法相对简单,以下是详细的步骤: 下载与安装:首先,您需要从CrossOver的官方网站下载适合您操作系统(Mac OS或Linux)的软件版本。下载完成后,解压文件并按照提示进行安装。安装过…

强大的Docker入门知识

目录 一、Docker简介 1.1、Docker是 1.2、Docker通常会在以下情况下使用: 1.3、Docker和VMware区别 1.4、Docker 的优点 二、环境配置 2.1、代码操作 2.2、效果演示 2.3、配置镜像仓库 开始配置 三、基本命令 3.1、Docker基本命令 3.2、Docker镜像常用…

高并发数据采集:Ebay商家信息多进程爬虫的进阶实践

背景 Ebay作为全球最大的电子商务平台之一,其商家信息包含丰富的市场洞察。然而,要高效获取这些信息,就需要利用先进的技术手段。本文将深入探讨如何通过并发加速技术,实现Ebay商家信息多进程爬虫的最佳实践方法,并附…

分布式存储 ZBS 的 RoCE 技术支持与大数据应用场景性能评测

作者:深耕行业的 SmartX 金融团队 闫海涛 在《解决 SAN 交换机“卡脖子”并升级存储架构?一文解析 RoCE 与相关存储方案趋势》文章中,我们分析了如何利用支持 RoCE 技术的分布式存储,同步实现 IT 基础架构的信创转型与架构升级&a…

Linux中 LVM 逻辑盘卷管理

CSDN 成就一亿技术人! 作者主页:点击! Linux专栏:点击! CSDN 成就一亿技术人! 前言———— LVM 代表逻辑卷管理器,它是一种用于 Linux 和类 Unix 操作系统的磁盘管理和存储技术。LVM 允许用…

Linux终端中的VI/VIM编辑器详细说明

vi/vim —— 终端中的编辑器 目标 vi/vim 简介打开和新建文件三种工作模式常用命令分屏命令常用命令速查图 01. vi 简介 vi 或 vim 是一个强大的文本编辑器,它最初是由 vi 的作者布莱姆米勒开发的,后来由吉多范罗苏姆及其团队进行了扩展和维护&#…

opencascade c#例程解析

1.编译 将msvc.bat文件拖入vs2022的x64 native tools&#xff0c;即可 2.about.xaml <Windowxmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"x:Class"IE_WPF_WinForms…

Linux之定时任务02

一、什么是crond Linux 中 crond 就是定时任务&#xff0c;即根据 crond 指定的时间&#xff0c;由系统按指定的时间&#xff0c;周期性&#xff0c;自动触发的事件。 crond 服务在默认的情况下会每分钟检查系统中是否有定时任务&#xff0c;如果有且符合触发条件&#xff0c;…

docker 容器修改端口和目录映射

一、容器修改端口映射 一般在运行容器时&#xff0c;我们都会通过参数 -p&#xff08;使用大写的-P参数则会随机选择宿主机的一个端口进行映射&#xff09;来指定宿主机和容器端口的映射&#xff0c;例如 docker run -it -d --name [container-name] -p 8088:80 [image-name]…

Vue3之属性传值的四种情况

文章目录 Vue3之属性传值的四种情况一、引言二、父组件向子组件传值三、子组件向父组件传值四、祖先组件向后代组件传值五、兄弟组件之间传值 Vue3之属性传值的四种情况 一、引言 在vue3中&#xff0c;组件与组件之间是可以传递属性的&#xff0c;包括三种类型&#xff1a; …

Java Stream流指南:优雅处理集合数据

文章目录 一、为什么要使用stream流呢&#xff1f;二、如何获取Stream流&#xff1f;三、Stream流的中间方法四、Stream流的终结方法总结 一、为什么要使用stream流呢&#xff1f; 想必我们在日常编程中&#xff0c;会经常进行数据的处理&#xff0c;我们先来看看没有stram流时…

从零开始学习Netty - 学习笔记 -Netty入门-ChannelFuture

5.2.2.Channel Channel 的基本概念 在 Netty 中&#xff0c;Channel 是表示网络传输的开放连接的抽象。它提供了对不同种类网络传输的统一视图&#xff0c;比如 TCP 和 UDP。 Channel 的生命周期 Channel 的生命周期包括创建、激活、连接、读取、写入和关闭等阶段。Netty 中…

CGI程序与ShellShock漏洞

CGI是什么&#xff1f; CGI&#xff08;通用网关接口&#xff0c;Common Gateway Interface&#xff09;程序是一种用于在Web服务器上执行动态内容的技术。与服务器上普通的后端代码相比&#xff0c;CGI程序有几个区别&#xff1a; 执行环境&#xff1a; CGI程序在服务器上作为…

js中Symbol的理解与应用

文章目录 一、Symbol特性1.1 不支持语法new Symbol()1.2 唯一性1.3 不与其他值隐式转换1.4 不可枚举1.5 类型为symbol 二、Symbol常见方法2.1 Symbol.toStringTag2.2 Symbol.iterator2.3 Symbol.for() 三、Symbol应用 在JavaScript中&#xff0c;Symbol 是一种基本数据类型&…

el-table 多选表格存在分页,编辑再次操作勾选会丢失原来选中的数据

el-table表格多选时&#xff0c;只需要添加type"selection"&#xff0c; row-key及selection-change&#xff0c;如果存在分页时需要加上reserve-selection&#xff0c;这里就不写具体的实现方法了&#xff0c;可以查看我之前的文章&#xff0c;这篇文章主要说一下存…

智能指针(C++)

目录 一、智能指针是什么 二、为什么需要智能指针 三、智能指针的使用和原理 3.1、RALL 3.2 智能指针的原理 3.3、智能指针的分类 3.3.1、auto_ptr 3.3.2、unique_ptr 3.3.3、shared_ptr 3.2.4、weak_ptr 一、智能指针是什么 在c中&#xff0c;动态内存的管理式通过一…

VPX基于全国产飞腾FT-2000+/64核+复旦微FPGA的计算刀片

6U VPX计算板 产品简介 产品特点 飞腾计算平台&#xff0c;国产化率100% VPX-MPU6902是一款基于飞腾FT-2000/64核的计算刀片&#xff0c;主频2.2GHz&#xff0c;负责业务数据流的管控和调度。搭配自带独立显示芯片的飞腾X100芯片&#xff0c;可用于于各类终端及服务器类应用场…