大模型日报|今日必读的 5 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Meta 领衔:一文读懂视觉语言建模(VLM)

人们正在尝试将大型语言模型(LLMs)扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手,到仅使用高级文本描述就能生成图像的生成模型,视觉语言模型(VLM)的应用将极大地影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要应对许多挑战。语言是离散的,而视觉是在一个维度更高的空间中发展的,其中的概念并不总是很容易被离散化。

为了更好地理解将视觉映射到语言背后的机制,来自 Meta 的研究团队及其合作者详细介绍了 VLM,希望能对任何想进入这一领域的人有所帮助。首先,他们介绍了什么是 VLM、VLM 如何工作以及如何训练 VLM。然后,他们介绍并讨论了评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言,但他们也讨论了将 VLM 扩展到视频的问题。

论文链接:
https://arxiv.org/abs/2405.17247

2.Transformer 可以通过正确的嵌入进行算术运算

Transformer 在算术任务中表现不佳,似乎在很大程度上是由于它们无法跟踪大跨度数字中每个数字的准确位置。

来自马里兰大学的研究团队及其合作者,通过为每个数字添加嵌入,编码其相对于数字开头的位置,从而解决了这一问题。除了这些嵌入本身带来的提升外,他们还展示了这一修复措施能够通过输入注入和递归层等架构修改进一步提高性能。

在解决位置问题后,他们也研究了 Transformer 的逻辑外推能力——它们能否解决比训练数据更大、更复杂的算术问题?他们发现,只用一个 GPU 对 20 位数字进行为期一天的训练,就能达到 SOTA,在 100 位加法问题上实现高达 99% 的准确率。最后,他们还发现,计算能力的提高还能改善其他多步推理任务,包括排序和乘法。

论文链接:
https://arxiv.org/abs/2405.17399

3.清华朱军团队推出高保真 4D 重构模型 Vidu4D

视频生成模型由于能够生成逼真而富有想象力的画面而受到特别关注。此外,据观察,这些模型还表现出很强的 3D 一致性,大大提高了它们作为世界模拟器的潜力。

在这项工作中,清华大学朱军团队推出了一种新颖的重构模型——Vidu4D,其能从单个生成的视频中精确重构出 4D(即连续的 3D 呈现),解决了与非刚性和帧失真相关的难题。这种能力对于创建保持空间和时间一致性的高保真虚拟内容至关重要。

Vidu4D 的核心为动态高斯曲面(DGS)技术。DGS 优化时变翘曲函数,将高斯曲面(曲面元素)从静态状态转换为动态翘曲状态。这种变换可以精确地描绘运动和变形随时间的变化。

为了保持曲面对齐高斯曲面的结构完整性,他们设计了基于连续翘曲场的翘曲状态几何正则化,用于估计法线。此外,他们还对高斯曲面的旋转和缩放参数进行了细化,从而大大减轻了翘曲过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D 还包含一个新颖的初始化状态,为 DGS 中的翘曲场提供了一个正确的起点。Vidu4D 配备了现有的视频生成模型,整个框架在外观和几何方面都展示了高保真文本到 4D 的生成。

论文链接:
https://arxiv.org/abs/2405.16822
项目地址:
https://vidu4d-dgs.github.io/

4.谷歌新研究:将扩散模型提炼为一步生成器模型

虽然扩散模型可以学习复杂的分布,但采样需要一个计算昂贵的迭代过程。现有的蒸馏方法可以实现高效采样,但也有明显的局限性,例如采样步骤很少就会导致性能下降,依赖于训练数据访问,或可能无法捕捉到完整分布的寻模优化。

来自 Google DeepMind、Google Research 和加州大学洛杉矶分校的研究团队,提出了 EM Distillation(EMD)方法,这是一种基于最大似然法的方法,可将扩散模型提炼为一步生成器模型,同时将感知质量的损失降到最低。该方法从期望最大化(EM)的角度出发,使用扩散教师先验和推断生成器潜变量联合分布的样本来更新生成器参数。

他们开发了一种重新参数化的采样方案和一种噪音消除技术,共同稳定了蒸馏过程。他们进一步揭示了该方法与现有的最小化模式搜索 KL 方法之间的联系。在 ImageNet-64 和 ImageNet-128 上,就 FID 分数而言,EMD 优于现有的一步法生成方法,与之前的文本到图像扩散模型蒸馏方法相当。

论文链接:
https://arxiv.org/abs/2405.16852

5.Collaborative Video Diffusion:利用相机控制生成一致的多视频

视频生成方面的研究最近取得了诸多进步,能够根据文本提示或图像生成高质量视频。在视频生成过程中增加控制是未来的一个重要目标,而最近根据摄像机轨迹调节视频生成模型的方法则在这方面取得了进步。

然而,从多个不同的摄像机轨迹生成同一场景的视频仍然具有挑战性。解决这一多视频生成问题的方法,除其他应用外,还能利用可编辑的摄像机轨迹生成大规模三维场景。

为此,来自斯坦福大学、香港中文大学的研究团队提出了协同视频扩散(collaborative video diffusion,CVD),其包括一个新颖的跨视频同步模块,该模块利用对极注意力机制,促进从不同摄像机姿态渲染的同一视频的相应帧之间的一致性。在用于视频生成的相机控制模块基础上进行训练,CVD 生成的由不同相机轨迹呈现的多个视频的一致性明显优于基线,这一点已在大量实验中得到证实。

论文链接:
https://arxiv.org/abs/2405.17414
项目地址:
https://collaborativevideodiffusion.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/654861.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mysql 备份恢复 mysqldump与xtrabackup备份

1.1 备份的原因 备份是数据安全的最后一道防线,对于任何数据丢失的场景,备份虽然不一定能恢复百分之百的数据 (取决于备份周期),但至少能将损失降到最低。衡量备份恢复有两个重要的指标:恢复点目标(RPO) 和恢复时间目标(RTO)&…

【Android14 ShellTransitions】(一)开篇

说来惭愧,AndroidU都已经开发这么久了,但是我还没有整理过ShellTransition相关的知识。我本来希望能够系统的写一篇关于ShellTransition的笔记出来,但是发现一来这是一个比较庞大的模块,二来我个人能力有限,对ShellTra…

Pytorch入门需要达到的效果

会搭建深度学习环境和依赖包安装 使用Anaconda创建环境、在pytorch官网安装pytorch、安装依赖包 会使用常见操作,例如matmul,sigmoid,softmax,relu,linear matmul操作见文章torch.matmul()的用法 sigmoid&#xff0…

greendao实现增删改查

说明:最近碰到一个需求,在安卓上使用greendao框架,实现增删改查数据 效果图: step1: // Top-level build file where you can add configuration options common to all sub-projects/modules. buildscript {repositories {go…

使用nexus搭建的docker私库,定期清理无用的镜像,彻底释放磁盘空间

一、背景 我们使用nexus搭建了docker镜像,随着推送的镜像数量越来越多,导致nexus服务器的磁盘空间不够用了。于是,我们急需先手动删除一些过期的镜像,可发现磁盘空间并没有释放。 那么,如何才能彻底释放掉呢&#xff…

Android - failed to set system property

记录一次疏忽,起因是我需要在自定义的 receiver 中保存 property 方便,方便在三方 app 中使用,结果直接崩溃了,虽然结果保存成功了,但是这种情况也是无法接收的,错误日志如下: M006082 05-25 1…

[数据集][目标检测]航空发动机缺陷检测数据集VOC+YOLO格式291张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):291 标注数量(xml文件个数):291 标注数量(txt文件个数):291 标注类别…

Python 点云处理-点云半径滤波

点云半径滤波 一、介绍二、代码示例三、结果示例其他参考:C++ 中点云半径滤波 一、介绍 点云半径滤波:删除点云一定范围内没有达到足够多领域的所有点云。通俗的讲:就是要求点云P在半径为R内需要有M个领域点,若在点P的R范围内领域点个数大于M个,则保留该点云,领域点个数…

拌合楼系统开发(二十)解决海康DS-TVL224系列屏幕显示二维码思路

前言: 需求是想在通过程序动态控制显示屏显示二维码,最开始有些担心led这种点阵屏会不会对二维码显示出来后无法识别,实际测时候发现是没问题的。对于显示文字和语音播报,csdn上已经有大神有完整的代码。 海康威视道闸进出口LED屏…

java高级——String字符串探索(在jvm底层中如何实现,常量池中怎么查看)

java高级——String字符串探索(在jvm底层中如何实现,常量池中怎么查看) 文章介绍提前了解的知识点1. 常量池2. Jvm虚拟机3. 字节码 String类详解1. String对象在申明后将不可修改,是不可变类2. String进行相加相减等操作时一定会创…

常见的螺纹防松措施有哪些?——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 螺纹连接作为机械工程中常见的连接方式,其稳定性和可靠性对于整个机械系统的正常运行至关重要。然而,由于振动、冲击、温度变化等因素的影响,螺纹连接往往会出现松动现象,…

react中子传父信息

思路是: 在父组件定义一个函数接受参数,接收的参数用于接收子组件的信息,把函数传给子组件,子组件调用父亲传来的函数并把要告诉父亲的话传到函数中,就实现了子传父消息 import { useState } from reactimport { use…

C++学习/复习7--泛型编程/函数模板/类模板

一、泛型编程 1.Swap()函数的模板实现 二、函数模板 1.概念 2.格式 3.实例化 (1)隐式与显示 注意事项:隐式与显示类型转换会产生临时变量,临时变量有常性,所以形参前加const 三、类模板 1.定义 2.例1 3.例2 4.注意事…

nginx流量监控:goAccess安装与使用

关于goAccess GoAccess 是一款实时、快速的日志分析工具,专门设计用于分析Web服务器日志,特别是Nginx日志。 安装 (1)准备相关依赖 # Missing development libraries for ncursesw # centOS yum install -y ncurses-devel # U…

qmt量化交易策略小白学习笔记第7期【qmt策略之股票快照指标】

qmt策略之股票快照指标 qmt更加详细的教程方法,会持续慢慢梳理。 也可找寻博主的历史文章,搜索关键词查看解决方案 ! 感谢关注,需免费开通量化回测与咨询实盘权限,可以和博主联系! 股票快照指标 提供标…

python双色球选号程序的实现与解析

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:双色球选号游戏的魅力 二、程序设计与实现 1. 生成红色球号码 2. 生…

OpenHarmony迎来首个互联网技术统一标准,鸿蒙OS生态走向如何?

开源三年半,OpenHarmony(以下简称“开源鸿蒙”)迎来了新进展。在5月25日召开的「OpenHarmony开发者大会」上,鸿蒙官宣了开源鸿蒙设备统一互联技术标准。 一直以来,各行业品牌操作系统相互独立、难以协同,成为其互联互通的痛点。为进一步解决…

USST新生训练赛div2+div3题解

目录 前言题解部分B Ichihime and Triangle(800)题目大意题解代码实现 C Kana and Dragon Quest game(900)题目大意题解代码实现 J Squares and Cubes(800)题目大意题解代码实现 F Double Sort(1200)题目大意题解代码实现 I Minimize the Thickness(1100)题目大意题解代码实现 …

华为CE6851-48S6Q-HI升级设备版本及补丁

文章目录 升级前准备工作笔记本和交换机设备配置互联地址启用FTP设备访问FTP设备升级系统版本及补丁 升级前准备工作 使用MobaXterm远程工具连接设备,并作为FTP服务器准备升级所需的版本文件及补丁文件 笔记本和交换机设备配置互联地址 在交换机接口配置IP&#…

LAMP源码编译安装——CentOS7

文章目录 LAMP是什么LAMP软件组件LinuxApacheMySQLPHP 源码安装Apache一、准备工作二、安装环境依赖包三、配置软件模块四、编译及安装五、优化配置文件路径六、添加httpd系统服务(有两种方法)方法一:方法二: 七、修改httpd 服务配…