大家好,今日必读的大模型论文来啦!
1.杨立昆团队提出图像世界模型:在视觉表征学习中学习和利用世界模型
联合嵌入预测架构(JEPA)通过利用世界模型进行学习,被认为是一种很有前途的自监督方法,但以往仅限于预测输入中的缺失部分。
在这项研究中,深度学习三巨头之一、图灵奖获得者、Meta 首席科学家 Yann LeCun(杨立昆)及其团队,探索了如何将 JEPA 预测任务泛化到更广泛的破坏类型上,并提出了图像世界模型(IWM),这是一种超越遮蔽图像建模的方法,可以学习预测潜在空间中全局光度变换的影响。
他们研究了学习性能良好的图像世界模型的秘诀,并证明它依赖于三个关键方面:条件、预测难度和能力。该研究还证明,通过微调可以调整 IWM 学习到的预测性世界模型,从而解决不同的任务;微调后的 IWM 世界模型与之前的自监督方法性能相当,甚至更胜一筹。
最后,他们还展示了利用 IWM 学习可以控制所学表征的抽象程度,学习不变表征(如对比方法)或等变表征(如遮蔽图像建模)。
论文链接:
https://arxiv.org/abs/2403.00504
2.具身智能新突破:将现实世界中的仿人控制视为下一个 token 预测
类似于语言中的下一个单词(word)预测,来自加州大学伯克利分校的研究团队将现实世界中的仿人控制视为下一个 token 预测问题。
据介绍,该模型是通过传感器运动轨迹的自回归预测训练出来的因果 transformer。为了考虑数据的多模态性质,研究团队以模态对齐的方式进行预测,并对每个输入 token 预测同一模态的下一个 token。这种通用表述方式使模型能够利用模态缺失的数据,如没有动作的视频轨迹。
研究团队在一组模拟轨迹上训练了这一模型,这些轨迹来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和 YouTube 上的人类视频。
结果表明,该模型能让一个全尺寸的仿人机器人在旧金山自由行走。即使仅使用 27 小时的行走数据进行训练,该模型也能迁移到现实世界中,并能泛化到训练过程中未见的指令,如向后行走。这些发现为通过传感器运动轨迹生成建模来学习具有挑战性的真实世界控制任务提供了一条前景广阔的道路。
论文链接:
https://arxiv.org/abs/2402.19469
项目地址:
https://humanoid-next-token-prediction.github.io/
3.Google DeepMind提出AtP:将大模型行为定位到组件的高效且可扩展方法*
Activation Patching 是一种直接计算模型组件行为因果关系的方法。然而,要详尽地应用这种方法,需要对模型组件的数量进行成本线性递增的扫描,而这对于 SoTA 大型语言模型(LLM)来说,成本之高令人望而却步。
Google DeepMind 团队研究了一种基于梯度的快速激活修补近似方法——Attribution Patching(AtP),并发现 AtP 的两种失效模式会导致严重的假否定。因此,他们提出了一种名为 AtP* 的 AtP 变体,在保留可扩展性的同时针对这些失效模式进行了两处修改。该研究首次系统地研究了 AtP 和其他更快激活修补方法,结果表明 AtP 明显优于所有其他研究方法,而 AtP* 则有进一步的显著改进。最后,研究团队提供了一种方法来约束 AtP* 估计值的剩余错误否定(remaining false negatives)概率。
论文链接:
https://arxiv.org/abs/2403.00745
4.中科院、国科大、华南理工新研究:永不停歇的具身机器人学习
在大型语言模型(LLMs)的帮助下,具身机器人可以通过视觉观察执行复杂的多模态机器人操纵任务,且具有强大的泛化能力。然而,大多数视觉行为克隆智能体在适应一系列具有挑战性的未知任务时,会出现操纵性能下降和技能知识遗忘的问题。
在该研究中,来自中科院、国科大、华南理工大学的研究团队,利用具身机器人中的 NBCagent 研究了上述难题。NBCagent 是一种开创性的语言条件下永不停歇的行为克隆智能体,它可以从特定技能和技能共享属性中不断学习新型机器人操纵技能的观察知识。
具体来说,他们建立了一个特定技能演化规划器来执行知识解耦,该规划器可以从潜在和低级空间中不断将新的特定技能知识嵌入到 NBCagent 中。同时,他们提出了技能共享语义渲染模块和技能共享表征提炼模块,从而有效传递抗遗忘技能共享知识,进一步从语义和表征方面解决旧技能的灾难性遗忘问题。最后,他们设计了一个持续的具身机器人操纵基准,实验证明了这一方法的显著性能。
论文链接:
https://arxiv.org/abs/2403.00336
项目地址:
https://neragent.github.io/
5.港大、北大团队提出Multimodal ArXiv:增强 LVLMs 的科学理解能力
以 GPT-4V 为代表的大型视觉语言模型(LVLM)在涉及自然场景中具体图像的各种任务中表现出色。然而,由于缺乏科学领域的训练数据集,它们解释几何图形和科学绘图等抽象图形的能力仍然有限。
为了填补这一空白,来自香港大学和北京大学的研究团队提出了由 ArXivCap 和 ArXivQA 组成的 Multimodal ArXiv,从而增强 LVLMs 的科学理解能力。
据介绍,ArXivCap 是一个由 640 万张图片和 390 万条标题组成的图解标题数据集,这些图片和标题来自 572K 篇 ArXiv 论文,涉及多个科学领域。ArXivQA 是一个通过提示 GPT-4V 生成的基于科学数字的问题解答数据集,极大地增强了 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。
此外,他们还利用 ArXivCap 设计了四个视觉到文本的任务,用于对 LVLMs 进行基准测试。对最先进的 LVLM 进行的评估结果表明,这些 LVLM 在处理学术数字的细微语义时表现较差,而针对特定领域的训练则能大幅提高其性能。
该研究的错误分析揭示了当前 LVLM 对视觉上下文的误读、识别错误以及制作过于简化的标题,为未来的改进提供了启示。
论文链接:
https://arxiv.org/abs/2403.00231
项目地址:
https://mm-arxiv.github.io/