大家好,今日必读的大模型论文来啦!
1.SocialGPT:贪婪分段提示优化实现社会关系推理
社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然目前的方法采用了使用标注图像数据端到端训练专用网络的模式,但这些方法在通用性和可解释性方面受到了限制。
为了解决这些问题,来自哈佛大学的研究团队及其合作者首先提出了一个名为 SocialGPT 的简单但精心设计的框架,它在一个模块化框架内结合了视觉基础模型(VFMs)的感知能力和大语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大的 baseline。
具体来说,他们指导视觉基础模型将图像内容转化为文本社交故事,然后利用大语言模型进行基于文本的推理。他们引入了系统的设计原则,以分别适应 VFM 和 LLM,并弥合它们之间的差距。无需额外的模型训练,它就能在两个数据库上实现有竞争力的零样本结果,同时提供可解释的答案,因为 LLM 可以为决策生成基于语言的解释。LLM 在推理阶段的手动提示设计过程非常繁琐,因此需要一种自动提示优化方法。由于他们实质上是将视觉分类任务转换为 LLM 的生成任务,因此自动提示优化会遇到一个独特的长提示优化问题。
为了解决这个问题,他们进一步提出了贪婪分段提示优化(Greedy Segment Prompt Optimization,GSPO),通过利用分段级的梯度信息来执行贪婪搜索。实验结果表明,GSPO 显著提高了性能,而且他们的方法还适用于不同的图像风格。
论文链接:
https://arxiv.org/abs/2410.21411
GitHub 地址:
https://github.com/Mengzibin/SocialGPT
2.机器人预训练机器人:以操纵为中心的机器人表征 MCR
视觉表征的预训练提高了机器人学习的效率。由于缺乏大规模的领域内机器人数据集,先前的研究利用 in-the-wild 人类视频来预训练机器人视觉表征。尽管取得了可喜的成果,但来自人类视频的表征不可避免地会受到分布偏移的影响,并且缺乏对完成任务至关重要的动态信息。
来自加州大学、同济大学、上海交通大学的研究团队及其合作者首先评估了各种预训练表征与下游机器人操纵任务的相关性(即操纵中心性)。有趣的是,他们发现“操纵中心性”是下游任务成功率的有力指标。根据这些发现,他们提出了“以操纵为中心的表征”(Manipulation Centric Representation,MCR)这一基础表征学习框架,它既能捕捉视觉特征,又能捕捉操纵任务的动态信息,如动作和本体感觉,从而提高操纵中心性。
具体来说,他们在 DROID 机器人数据集上预训练视觉编码器,并利用机器人本体感觉状态和动作等运动相关数据。他们提出了一种新的对比损失(contrastive loss),将视觉观察与机器人的本体感觉状态-动作动态相协调,并结合类似行为克隆(BC)的 actor loss 来预测预训练期间的动作,同时还引入了时间对比损失(time contrastive loss)。
4 个模拟域 20 项任务的实证结果证明,MCR 比最强的 baseline 方法高出 14.8%。此外,在 3 个真实世界任务中,MCR 将使用 UR5e 机械臂进行 data-efficient 学习的性能提高了 76.9%。
论文链接:
https://arxiv.org/abs/2410.22325
项目地址:
https://robots-pretrain-robots.github.io/
3.Flow-DPO:通过在线多智能体学习改进 LLM 数学推理
数学推理是大语言模型(LLM)的一项重要能力,然而生成详细而准确的推理轨迹仍然是一项重大挑战。
来自加州大学和微软研究院的研究团队推出了一种利用在线学习 Flow 生成用于 LLM 微调的高质量推理轨迹的新方法。他们的方法采用了增量输出生产流程(incremental output production Flow),其中各组件 LLM 通过迭代通信协作构建解决方案。他们使用在线 DPO 学习与 rollouts 来训练 Flow,为每个训练示例生成 DPO 对,并实时更新模型。
他们直接比较了他们的方法和直接模型推理所生成的推理轨迹的质量,证明了他们的方法在提高数学推理任务中的 LLM 性能方面的有效性。
论文链接:
https://arxiv.org/abs/2410.22304