与Sora一样能生成视频、图像,还能一次解读100万数据!

大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。

因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。

LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini 1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。

图片

开源地址:https://github.com/LargeWorldModel/LWM

论文地址:https://arxiv.org/abs/2402.08268

huggingface:https://huggingface.co/LargeWorldModel

此外,LWM可以精准检索100万tokens文本中的内容,同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍,目前在github获得超6000颗星,有纯文本、视频、图像等多个版本模型可使用。

图片

LWM模型介绍

在传统的注意力机制中,例如,Transformer架构中使用的自注意力,模型需要计算序列中每个元素对于其他所有元素的注意力得分,这就会面临两大难题。

1)内存需求上升:模型需要存储每一对元素间的注意力得分,会随着序列长度的增加而急剧增加内存需求。

2)计算复杂度:当序列很长时,会导致巨大的算力负担。

LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3 数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。

Ring Attention论文地址:https://arxiv.org/abs/2310.01889

图片

尽管Ring Attention减少了每个片段的直接交互范围,但仍然允许信息在序列中传递,保持了模型对长距离依赖的捕捉能力,减少了长序列的处理损失度。

这也是LWM能处理高达100万tokens数据的原因之一。

Ring Attention主要功能

RingAttention是通过使用循环结构来扩展,注意力机制的上下文大小。传统的注意力机制在计算上下文相关性时,通常只关注序列中相对较近的位置。

但在处理长序列时,远距离的上下文信息也可能对模型的理解和推理能力至关重要。RingAttention通过引入环形结构来解决这个难题。

具体来说,使用了一种环形缓冲区来存储先前计算的注意力权重。模型可以在计算当前位置的注意力时,考虑到之前计算的位置的信息,从而无限扩展了上下文范围,主要功能模块如下。

环状分组:该模块将输入序列划分为多个环,每个环中的位置与其他环中的位置之间进行相关性计算。通过这种划分方式,可以有效降低计算复杂度。

图片

环内注意力:在每个环内,该模块计算位置之间的相关性,并根据相关性的权重对位置进行加权。这样,每个位置都可以获得来自同一环的其他位置的信息。

环间注意力:这个模块负责计算不同环之间的相关性。通过将每个环的表示与其他环的表示进行比较,计算它们之间的相关性,这种跨环的交互有助于在不同环之间传递信息。

环间投影:在环间注意力之后,该模块将每个环的表示投影到一个共享的表示空间中,有助于进一步整合不同环之间的信息。

通过这些关键模块的协同工作,Ring Attention实现了对长序列的高效处理和建模,并为训练大规模模型提供了高效方法。

LWM训练流程与数据

第一阶段是语言模型的预训练,主要扩展语言理解的上下文长度。LWM使用了Books3数据集, 从32,000 tokens逐步扩展到100万tokens,同时针对长序列的聊天任务进行了微调。

图片

第二阶段是多模态的预训练,将视觉信息整合到语言模型中。LWM使用了大量包含图像和视频的公开数据集,例如,LAION-2B、COYO-700M、WebVid10M等。

同时训练图像-文本、视频-文本等多种对齐格式。视频以每秒4帧的速度提取关键帧,特别针对32K、128K和1M tokens长度进行了优化训练。

本文素材来源LWM论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/412801.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux下查看某个命令在哪里个安装包程序下,以ifconfig命令举例子

yum list | grep net-tools (查看yum安装列表中有没有安装指定的软件工具)

用 SIL 和 PIL 仿真测试生成的代码

目录 PIL 的目标连接配置 对顶层模型运行 SIL 或 PIL 仿真 对 Model 模块运行 SIL 或 PIL 仿真 SIL 或 PIL 模块仿真 硬件实现设置 使用软件在环 (SIL) 和处理器在环 (PIL) 仿真,测试模型组件与从组件生成的生产代码之间的数字等效性。 使用 SIL 仿真,在您的开发…

JAVA高并发——Future模式

文章目录 1、Future模式解析2、Future模式的主要参与者3、Future模式的简单实现4、JDK中的Future模式5、Guava对Future模式的支持 1、Future模式解析 Future模式是多线程开发中非常常见的一种设计模式,它的核心思想是异步调用。当我们需要调用一个函数时&#xff0…

GaussDB SQL调优:选择合适的分布列

一、背景 GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库,该产品具备企业级复杂事务混合负载能力,同时支持优异的分布式事务,同城跨AZ部署,数据0丢失,支持1000扩展能力,PB级海量存储等企业级数…

王栎鑫前妻晒情侣装,疑与糊糊复合?网友:真的假的

♥ 为方便您进行讨论和分享,同时也为能带给您不一样的参与感。请您在阅读本文之前,点击一下“关注”,非常感谢您的支持! 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 吴雅婷元宵晒情侣装,网友热议是否与王栎鑫复合&am…

春秋招笔试题库整理与购买-值得投资的资源

作为一位资深的IT工程师,我深知求职过程中的不易,尤其是在春秋招季节,竞争激烈,每一个环节都可能成为决定成败的关键。因此,我特别了一份覆盖多家知名企业的秋招笔试题库,希望能帮助到正在备战的朋友们。 这…

leetcode移动零

leetcode移动零 Given an integer array nums, move all 0’s to the end of it while maintaining the relative order of the non-zero elements. Note that you must do this in-place without making a copy of the array. Example 1: Input: nums [0,1,0,3,12] Output…

linux下gcc编译时默认是32位还是64位,怎么指定为32or64?

本来是想研究一下long的字节大小sizeof(long)&#xff0c;于是写了代码&#xff1a; #include <stdio.h> int main() {long a 10;printf("%d\n", sizeof(a));return 0; } 我当时使用的是win10系统&#xff0c;使用的是vs 2022&#xff0c;然后对以上代码进行…

@SpringBootApplication

目录 1. SpringBootApplication注解简介 2. 使用SpringBootApplication注解 3. 自定义SpringBootApplication注解 在Spring Boot中&#xff0c;SpringBootApplication是一个非常重要的注解&#xff0c;它用于开启自动配置&#xff0c;简化了我们的开发工作。本文将详细介绍这…

lv21 QT 常用控件 2

1 QT GUI 类继承简介 布局管理器 输出控件 输入控件 按钮 容器 2 按钮示例 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QCheckBox> #include <QLineEdit> #include <QPushButton>class Widget : public QWidget {Q_OBJECTpublic…

【计算机网络】DNS/ICMP协议/NAT技术

文章目录 一、DNS(Domain Name System)1.DNS背景2.域名3.浏览器中输入url后,发生的事情 二、ICMP协议1.什么是ICMP协议2.ICM功能3.ICMP的报文格式4.ping命令5.traceroute命令 三、NAT技术1.NAT技术背景2.NAT IP转换过程3.NAPT4.NAT技术的缺陷5.NAT和代理服务器 四、TCP/IP五层模…

电脑缺失XInput1_4.dll文件的解决办法

在电脑操作中&#xff0c;有用户遇到了XInput1_4.dll文件缺失的问题&#xff0c;导致一些依赖该文件的电脑应用无法正常运行&#xff0c;从而影响用户正常使用。接下来小编分享不同的解决方法&#xff0c;帮助用户轻松解决该问题&#xff0c;找回XInput1_4.dll文件&#xff0c;…

simple-pytest 框架使用指南

simple-pytest 框架使用指南 一、框架介绍简介框架理念&#xff1a;框架地址 二、实现功能三、目录结构四、依赖库五、启动方式六、使用教程1、快速开始1.1、创建用例&#xff1a;1.2、生成py文件1.3、运行脚本1.3.1 单个脚本运行1.3.2 全部运行 1.4 报告查看 2、功能介绍2.1、…

教育体系是什么意思

每当谈及“教育体系”&#xff0c;很多人可能会觉得它只是一个抽象、宏大的概念。但身为老师&#xff0c;我深知它与我们每个人的成长都息息相关。那么&#xff0c;这个常被提及却又略显神秘的“教育体系”究竟是什么意思呢&#xff1f; 在教育的世界里&#xff0c;我们常把“教…

JDK21 新特性

目录 1. 虚拟线程&#xff08;Virtual Threads&#xff09;2. 有序集合&#xff08;Sequenced Collections&#xff09;3. switch 的模式匹配&#xff08;Pattern Matching for switch&#xff09;4. 记录模式&#xff08;Record Patterns&#xff09;5. ZGC6. 准备禁用动态代理…

Mybatis10、动态SQL

官方文档 10.1、介绍 什么是动态SQL&#xff1a;动态SQL指的是根据不同的查询条件 , 生成不同的Sql语句. 官网描述&#xff1a;MyBatis 的强大特性之一便是它的动态 SQL。如果你有使用 JDBC 或其它类似框架的经验&#xff0c;你就能体会到根据不同条件拼接 SQL 语句的痛苦。例…

C 嵌入式系统设计模式 10:中介者模式

本书的原著为&#xff1a;《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》&#xff0c;讲解的是嵌入式系统设计模式&#xff0c;是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之三&…

【书籍分享 • 第三期】虚拟化与容器技术

文章目录 一、本书内容二、读者对象三、编辑推荐四、前言4.1 云计算技术的发展4.2 KVM、Docker4.3 本书内容简介4.4 作者简介 五、粉丝福利 一、本书内容 《虚拟化与容器技术》通过深入浅出的方式介绍KVM虚拟化技术与Docker容器技术的概念、原理及实现方法&#xff0c;内容包括…

备战蓝桥杯Day17 - 链表

链表 基本概念 链表是由一系列节点组成的元素集合。 每个节点包含两部分&#xff1a;数据域 item 、指向下一个节点的指针 next 通过节点之间的相互链接&#xff0c;形成一个链表 1. 链表的初始化 # 手动建立链表 # 链表的初始化 class Node(object):def __init__(self, …

ChatGPT带火的HBM是什么?

“ChatGPT是人工智能领域的iPhone时刻&#xff0c;也是计算领域有史以来最伟大的技术之一。” 英伟达创始人兼CEO黄仁勋此前这样盛赞ChatGPT。 ChatGPT突然爆火&#xff0c;对大算力芯片提出了更高更多的要求。近日&#xff0c;据韩国经济日报报道&#xff0c;受惠于ChatGPT&am…