大模型日报|今日必读的5篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.杨立昆团队提出图像世界模型:在视觉表征学习中学习和利用世界模型

联合嵌入预测架构(JEPA)通过利用世界模型进行学习,被认为是一种很有前途的自监督方法,但以往仅限于预测输入中的缺失部分。

在这项研究中,深度学习三巨头之一、图灵奖获得者、Meta 首席科学家 Yann LeCun(杨立昆)及其团队,探索了如何将 JEPA 预测任务泛化到更广泛的破坏类型上,并提出了图像世界模型(IWM),这是一种超越遮蔽图像建模的方法,可以学习预测潜在空间中全局光度变换的影响。

他们研究了学习性能良好的图像世界模型的秘诀,并证明它依赖于三个关键方面:条件、预测难度和能力。该研究还证明,通过微调可以调整 IWM 学习到的预测性世界模型,从而解决不同的任务;微调后的 IWM 世界模型与之前的自监督方法性能相当,甚至更胜一筹。

最后,他们还展示了利用 IWM 学习可以控制所学表征的抽象程度,学习不变表征(如对比方法)或等变表征(如遮蔽图像建模)。

论文链接:
https://arxiv.org/abs/2403.00504

2.具身智能新突破:将现实世界中的仿人控制视为下一个 token 预测

类似于语言中的下一个单词(word)预测,来自加州大学伯克利分校的研究团队将现实世界中的仿人控制视为下一个 token 预测问题。

据介绍,该模型是通过传感器运动轨迹的自回归预测训练出来的因果 transformer。为了考虑数据的多模态性质,研究团队以模态对齐的方式进行预测,并对每个输入 token 预测同一模态的下一个 token。这种通用表述方式使模型能够利用模态缺失的数据,如没有动作的视频轨迹。

研究团队在一组模拟轨迹上训练了这一模型,这些轨迹来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和 YouTube 上的人类视频。

结果表明,该模型能让一个全尺寸的仿人机器人在旧金山自由行走。即使仅使用 27 小时的行走数据进行训练,该模型也能迁移到现实世界中,并能泛化到训练过程中未见的指令,如向后行走。这些发现为通过传感器运动轨迹生成建模来学习具有挑战性的真实世界控制任务提供了一条前景广阔的道路。

论文链接:
https://arxiv.org/abs/2402.19469
项目地址:
https://humanoid-next-token-prediction.github.io/

3.Google DeepMind提出AtP:将大模型行为定位到组件的高效且可扩展方法*

Activation Patching 是一种直接计算模型组件行为因果关系的方法。然而,要详尽地应用这种方法,需要对模型组件的数量进行成本线性递增的扫描,而这对于 SoTA 大型语言模型(LLM)来说,成本之高令人望而却步。

Google DeepMind 团队研究了一种基于梯度的快速激活修补近似方法——Attribution Patching(AtP),并发现 AtP 的两种失效模式会导致严重的假否定。因此,他们提出了一种名为 AtP* 的 AtP 变体,在保留可扩展性的同时针对这些失效模式进行了两处修改。该研究首次系统地研究了 AtP 和其他更快激活修补方法,结果表明 AtP 明显优于所有其他研究方法,而 AtP* 则有进一步的显著改进。最后,研究团队提供了一种方法来约束 AtP* 估计值的剩余错误否定(remaining false negatives)概率。

论文链接:
https://arxiv.org/abs/2403.00745

4.中科院、国科大、华南理工新研究:永不停歇的具身机器人学习

在大型语言模型(LLMs)的帮助下,具身机器人可以通过视觉观察执行复杂的多模态机器人操纵任务,且具有强大的泛化能力。然而,大多数视觉行为克隆智能体在适应一系列具有挑战性的未知任务时,会出现操纵性能下降和技能知识遗忘的问题。

在该研究中,来自中科院、国科大、华南理工大学的研究团队,利用具身机器人中的 NBCagent 研究了上述难题。NBCagent 是一种开创性的语言条件下永不停歇的行为克隆智能体,它可以从特定技能和技能共享属性中不断学习新型机器人操纵技能的观察知识。

具体来说,他们建立了一个特定技能演化规划器来执行知识解耦,该规划器可以从潜在和低级空间中不断将新的特定技能知识嵌入到 NBCagent 中。同时,他们提出了技能共享语义渲染模块和技能共享表征提炼模块,从而有效传递抗遗忘技能共享知识,进一步从语义和表征方面解决旧技能的灾难性遗忘问题。最后,他们设计了一个持续的具身机器人操纵基准,实验证明了这一方法的显著性能。

论文链接:
https://arxiv.org/abs/2403.00336
项目地址:
https://neragent.github.io/

5.港大、北大团队提出Multimodal ArXiv:增强 LVLMs 的科学理解能力

以 GPT-4V 为代表的大型视觉语言模型(LVLM)在涉及自然场景中具体图像的各种任务中表现出色。然而,由于缺乏科学领域的训练数据集,它们解释几何图形和科学绘图等抽象图形的能力仍然有限。

为了填补这一空白,来自香港大学和北京大学的研究团队提出了由 ArXivCap 和 ArXivQA 组成的 Multimodal ArXiv,从而增强 LVLMs 的科学理解能力。

据介绍,ArXivCap 是一个由 640 万张图片和 390 万条标题组成的图解标题数据集,这些图片和标题来自 572K 篇 ArXiv 论文,涉及多个科学领域。ArXivQA 是一个通过提示 GPT-4V 生成的基于科学数字的问题解答数据集,极大地增强了 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。

此外,他们还利用 ArXivCap 设计了四个视觉到文本的任务,用于对 LVLMs 进行基准测试。对最先进的 LVLM 进行的评估结果表明,这些 LVLM 在处理学术数字的细微语义时表现较差,而针对特定领域的训练则能大幅提高其性能。

该研究的错误分析揭示了当前 LVLM 对视觉上下文的误读、识别错误以及制作过于简化的标题,为未来的改进提供了启示。

论文链接:
https://arxiv.org/abs/2403.00231
项目地址:
https://mm-arxiv.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/427804.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[环境配置]ssh连接报错“kex_exchange_identification: read: Connection reset by peer”

已经被VScode ssh毒死好几次了,都是执行命令意外中断,然后又VSCode里连不上、本机Terminal也连不上了。。。 重启远程服务器,VSCode可以连上了, 系统ssh还是不行,报错“kex_exchange_identification: read: Connecti…

Linux系统CPU模式部署Qwen1.5-14B

Qwen1.5已适配Ollama。 Ollama 是一个命令行聊天机器人,它使得几乎可以在任何地方使用大型语言模型变得简单。 下载 Ollma 安装文件 访问以下网站:https://ollama.com/download/linux 执行:curl -fsSL https://ollama.com/install.sh | sh…

大地测量学课堂笔记:1、绪论

慕课网址:https://www.icourse163.org/course/WHU-1464124180?fromsearchPage&outVendorzw_mooc_pcssjg_https://www.icourse163.org/course/WHU-1464124180?fromsearchPage&outVendorzw_mooc_pcssjg_ 1. 大地测量学的定义 大地测量学是专门研究精确测量…

MySQL基础-----可视化工具DataGrip安装与使用

目录 前言 安装DataGrip 使用 1.添加数据源 2.展示所有数据库 3. 创建数据库 4.创建表 5.修改表结构 6. 在DataGrip中执行SQL语句 汉化 前言 上一期,我们已经讲解了通过DDL 语句,如何操作数据库、操作表、操作表中的字段,而通过 D…

计算机提示vcruntime140.dll丢失,教你5个方法快速解决dll问题

当计算机系统中无法找到vcruntime140.dll这个特定的动态链接库文件时,可能会引发一系列运行问题,具体表现形式多样且影响范围较广。对于依赖于该文件运行的各类软件应用来说,缺失vcruntime140.dll将直接导致程序无法正常启动或执行&#xff0…

XSS_lab(level6-level10)

level6 仍旧输入:<script>alert(1)</script> script被加了下划线 尝试on事件 也被加了下划线 尝试伪协议:"><a hrefjavascript:alert(1)>1</a>// 还是被加了下划线&#xff0c;那么就要尝试绕过方法了&#xff1a; 我所知的几种绕过方法&a…

ASPICE 4.0 Upgrade Training升版资质更新及升版变化快速解读

ASPICE 4.0 升版变化快速解读 亚远景科技在3月1日举办了ASPICE 4.0 升版变化快速解读培训会&#xff0c;ASPICE首席评估师胡浩在会上进行了精彩分享&#xff0c;部分内容截图&#xff1a; 资料领取请关注我们公众号&#xff1a;研发管理 回复关键词“ASPICE升版变化”即可领取…

牛客练习赛122

D:圆 正着求删除的最小代价不好做&#xff0c;采用逆向思维&#xff0c;求选择一些不相交的线段使得构成一个圆的代价尽量大&#xff0c;最后答案就是所有线段权值之和减去最大代价。 那么如何求这个最大代价呢&#xff1f;显然区间DP 老套路&#xff1a;破环成链&#xff0…

微信小程序中使用特使字体

1、首先下载字体文件 推荐几个常用下载字体的网站 https://font.chinaz.com/zhongwenziti.html https://www.hellofont.cn/ 2、转换字体 使用下面这个网站进行字体转换 https://transfonter.org/ 点击add fonts 按钮进行上传刚刚下载的字体文件选择formats格式&#xff1a;可…

38. 【Linux教程】Linux 修改文件权限

前面小节介绍了用户权限相关的知识&#xff0c;从这一小节开始我们将要开始学习文件权限相关的知识&#xff0c;如何给文件修改权限&#xff0c;之前小节介绍过 ls 命令展示出来的一些文件相关的信息&#xff0c;这里面就有和文件权限相关的信息。 在 Linux 系统中&#xff0c…

Vue3学习记录(三)--- 组合式API之生命周期和模板引用

一、生命周期 1、简介 ​ 生命周期&#xff0c;指的是一个 Vue 实例从创建到销毁的完整阶段&#xff0c;强调的是一个时间段。 ​ 生命周期钩子函数&#xff0c;指的是 Vue 实例提供的内置函数&#xff0c;函数的参数为一个回调函数。这些钩子函数会在实例生命周期的某些固定…

springboot心灵治愈交流平台源码和论文

本论文主要论述了如何使用JAVA语言开发一个心灵治愈交流平台 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将论述心灵治愈交流平台的当前背景以及系统开发的目的&a…

Unity UGUI之Slider基本了解

在Unity中&#xff0c;Slider&#xff08;滑动条&#xff09;是一种常用的用户界面控件之一&#xff0c;允许用户通过拖动滑块来选择一个数值。常常应用于调节数值&#xff08;如调节音量、亮度、游戏难度等&#xff09;、设置选项等。 以下是Slider的基本信息和用法: 1、创建…

深入 Starknet 去中心化世界,探秘实用开发利器

Starknet 近期开放空投&#xff0c;面向 130 万地址总量发放超 7 亿枚 Token&#xff0c;让 ECMP 早期贡献者、GitHub 开源开发者、Starknet 用户等各个层面的生态参与者都得以深度参与。 盛宴的背后&#xff0c;是 Starknet 正迎来发展的关键机遇。在今年以太坊坎昆升级的背景…

python最小公倍数 2023年9月青少年电子学会等级考试 中小学生python编程等级考试二级真题答案解析

目录 python最小公倍数 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序代码 四、程序说明 五、运行结果 六、考点分析 七、 推荐资料 1、蓝桥杯比赛 2、考级资料 3、其它资料 python最小公倍数 2023年9月 python编程等级考试级编程题 一、题目要求…

【Redis】深入理解 Redis 常用数据类型源码及底层实现(6.详解Set和ZSet数据结构)

本文是深入理解 Redis 常用数据类型源码及底层实现系列的第6篇&#xff5e;前5篇可移步(&#xffe3;∇&#xffe3;)/ 【Redis】深入理解 Redis 常用数据类型源码及底层实现&#xff08;1.结构与源码概述&#xff09;-CSDN博客 【Redis】深入理解 Redis 常用数据类型源码及底…

XSS_lab(level1-level5)

level1 直接输入页面没有发现输入框&#xff0c;观察url发现有传参 尝试修改传参为&#xff1a;<script>alert(1)</script> 过啦&#xff01; level2 页面中有输入框&#xff0c;尝试构建语句&#xff1a;<script>alert(1)</script>,传输后查看源代…

SDRPI烧写教程

首先准备好需要烧写的文件&#xff0c;一共有两个 .BIN 和 .elf文件 这里提供测试文件链接&#xff1a;https://pan.baidu.com/s/1P2cjCqOCyJg7hRhbqWue9Q 提取码&#xff1a;49jp 把SDRPI设置为JTAG模式 插上电源和JTAG线&#xff0c;这块板子的电源和UART使用的是同一个接…

Linux编程3.1 进程-进程的概念

前情提及&#xff1a; 程序和进程内核中的进程结构C程序启动过程进程终止方式非局部跳转进程资源限制进程创建、执行和终止进程类型进程状态进程组 进程的概念 进程&#xff1a;程序运行&#xff0c;由操作系统内核对该程序进行资源的分配 &#xff0c; 进程中&#xff0c;再…

LL-34/DO-213AC/MiniMELF/NSMC/DO-213AB封装

最近在找几个特殊的二极管封装&#xff0c;能查到资料太少了&#xff0c;如同大海捞针&#xff0c;好不容易找到了一些资料&#xff0c;把相关信息总结一下. 1、LL-34/DO-213AC/MiniMELF/SOD80这三个封装尺寸很接近 LL-34以c5345992为例 MiniMELF以c131658为例 2、NSMC这个封装…