大模型日报|3 篇必读的大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.SocialGPT:贪婪分段提示优化实现社会关系推理

社会关系推理旨在从图像中识别朋友、配偶和同事等关系类别。虽然目前的方法采用了使用标注图像数据端到端训练专用网络的模式,但这些方法在通用性和可解释性方面受到了限制。

为了解决这些问题,来自哈佛大学的研究团队及其合作者首先提出了一个名为 SocialGPT 的简单但精心设计的框架,它在一个模块化框架内结合了视觉基础模型(VFMs)的感知能力和大语言模型(LLMs)的推理能力,为社会关系识别提供了一个强大的 baseline。

具体来说,他们指导视觉基础模型将图像内容转化为文本社交故事,然后利用大语言模型进行基于文本的推理。他们引入了系统的设计原则,以分别适应 VFM 和 LLM,并弥合它们之间的差距。无需额外的模型训练,它就能在两个数据库上实现有竞争力的零样本结果,同时提供可解释的答案,因为 LLM 可以为决策生成基于语言的解释。LLM 在推理阶段的手动提示设计过程非常繁琐,因此需要一种自动提示优化方法。由于他们实质上是将视觉分类任务转换为 LLM 的生成任务,因此自动提示优化会遇到一个独特的长提示优化问题。

为了解决这个问题,他们进一步提出了贪婪分段提示优化(Greedy Segment Prompt Optimization,GSPO),通过利用分段级的梯度信息来执行贪婪搜索。实验结果表明,GSPO 显著提高了性能,而且他们的方法还适用于不同的图像风格。

论文链接:
https://arxiv.org/abs/2410.21411
GitHub 地址:
https://github.com/Mengzibin/SocialGPT

2.机器人预训练机器人:以操纵为中心的机器人表征 MCR

视觉表征的预训练提高了机器人学习的效率。由于缺乏大规模的领域内机器人数据集,先前的研究利用 in-the-wild 人类视频来预训练机器人视觉表征。尽管取得了可喜的成果,但来自人类视频的表征不可避免地会受到分布偏移的影响,并且缺乏对完成任务至关重要的动态信息。

来自加州大学、同济大学、上海交通大学的研究团队及其合作者首先评估了各种预训练表征与下游机器人操纵任务的相关性(即操纵中心性)。有趣的是,他们发现“操纵中心性”是下游任务成功率的有力指标。根据这些发现,他们提出了“以操纵为中心的表征”(Manipulation Centric Representation,MCR)这一基础表征学习框架,它既能捕捉视觉特征,又能捕捉操纵任务的动态信息,如动作和本体感觉,从而提高操纵中心性。

具体来说,他们在 DROID 机器人数据集上预训练视觉编码器,并利用机器人本体感觉状态和动作等运动相关数据。他们提出了一种新的对比损失(contrastive loss),将视觉观察与机器人的本体感觉状态-动作动态相协调,并结合类似行为克隆(BC)的 actor loss 来预测预训练期间的动作,同时还引入了时间对比损失(time contrastive loss)。

4 个模拟域 20 项任务的实证结果证明,MCR 比最强的 baseline 方法高出 14.8%。此外,在 3 个真实世界任务中,MCR 将使用 UR5e 机械臂进行 data-efficient 学习的性能提高了 76.9%。

论文链接:
https://arxiv.org/abs/2410.22325
项目地址:
https://robots-pretrain-robots.github.io/

3.Flow-DPO:通过在线多智能体学习改进 LLM 数学推理

数学推理是大语言模型(LLM)的一项重要能力,然而生成详细而准确的推理轨迹仍然是一项重大挑战。

来自加州大学和微软研究院的研究团队推出了一种利用在线学习 Flow 生成用于 LLM 微调的高质量推理轨迹的新方法。他们的方法采用了增量输出生产流程(incremental output production Flow),其中各组件 LLM 通过迭代通信协作构建解决方案。他们使用在线 DPO 学习与 rollouts 来训练 Flow,为每个训练示例生成 DPO 对,并实时更新模型。

他们直接比较了他们的方法和直接模型推理所生成的推理轨迹的质量,证明了他们的方法在提高数学推理任务中的 LLM 性能方面的有效性。

论文链接:
https://arxiv.org/abs/2410.22304

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/904958.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity计算二维向量夹角余弦值和正弦值的优化方法参考

如果不考虑优化问题,计算两个向量的余弦值或者正弦值可以直接使用类似的方法: [SerializeField] Vector2 v1, v2;void Start() {float valCos Mathf.Acos(Vector2.SignedAngle(v1, v2));float valSin Mathf.Asin(Vector2.SignedAngle(v1, v2)); } 但是…

利用EasyExcel实现简易Excel导出

目标 通过注解形式完成对一个方法返回值的通用导出功能 工程搭建 pom <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&qu…

Spring Boot框架:校园社团信息管理的现代化解决方案

3系统分析 3.1可行性分析 通过对本校园社团信息管理系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本校园社团信息管理系统采用SSM框架&#xff0c;JAVA作…

基于SpringBoot+Vue的前后端分离的大学自动排课系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 在这个背景下&#xf…

探索无线网IP地址:定义、修改方法及实践指南

在数字化时代&#xff0c;无线网络已成为我们日常生活和工作中不可或缺的一部分。它让我们能够随时随地接入互联网&#xff0c;享受信息交流的便利。然而&#xff0c;对于无线网络背后的技术细节&#xff0c;如IP地址&#xff0c;许多用户可能并不十分了解。IP地址&#xff0c;…

Spring IoC——IoC 容器的使用

1. 应用分层 应用分层是一种软件开发设计思想&#xff0c;它将应用程序分成 N 个层次&#xff0c;这 N 个层次分别负责各自的职责&#xff0c;多个层次之间协同提供完整的功能&#xff0c;根据项目的复杂度&#xff0c;可以分成三层&#xff0c;四层或更多层&#xff0c;MVC 就…

人工智能进程;算子加速的具体计算部分;大模型GPT5:参数18万亿;大模型面临问题

目录 人工智能进程 算子加速的简单理解,举例说明 一、简单理解 二、举例说明 一、算子加速的具体计算部分 二、举例说明 三、算子加速是否仅针对GPU 大模型GPT5:参数18万亿 大模型面临问题 算力集群设计框架 人工智能进程

深入理解Java集合:从基础到高级应用

深入理解Java集合&#xff1a;从基础到高级应用 1. 数组与集合的区别 1.1 相同点 数组和集合都是用于存储多个数据的容器&#xff0c;但它们的使用场景和特性各有不同。 1.2 不同点 长度&#xff1a;数组的长度在创建时就固定了&#xff0c;而集合的长度是动态可变的&…

【自动化测试之oracle数据库】MacOs如何安装oracle- client

操作系统为Mac OS&#xff0c;本地在pycharm上跑自动化脚本时&#xff0c;因为有操作oracle数据库的部分&#xff0c;所以需要安装oracle数据库的客户端&#xff0c;并install cx_oracle,本文主要介绍如何在macOS上完成安装&#xff0c;并在python自动化测试代码中配置&#xf…

如何在vscode中使用鼠标滑轮滚动来改变字体大小

实现内容&#xff1a;如何在vscode中使用鼠标滑轮滚动来改变字体大小 使用场景&#xff1a;我是在Ubuntu中安装的vscode 需求&#xff1a;因为最近在用这个&#xff0c;但是在使用过程中发现vscode的字体大小有点小&#xff0c;所以想改变下 实现滚轮滑动改变字体大小的具体步…

鸿蒙NEXT应用上架与分发步骤详解

大家好&#xff0c;我是 V 哥。今天的文章来聊一聊HarmonyOS NEXT应用上架。当你开发、调试完HarmonyOS应用/元服务&#xff0c;就可以前往AppGallery Connect申请上架&#xff0c;华为审核通过后&#xff0c;用户即可在华为应用市场获取您的HarmonyOS应用/元服务。 V 哥推荐&a…

【隐私计算篇】全同态加密应用场景案例(隐私云计算中的大模型推理、生物识别等)

1.题外话 最近因为奖项答辩&#xff0c;一直在忙材料准备&#xff0c;过程非常耗费时间和精力&#xff0c;很难有时间来分享。不过这段时间虽然很忙碌&#xff0c;但这期间有很多新的收获&#xff0c;特别是通过与领域内专家的深入交流和评审过程&#xff0c;对密码学和隐私计算…

安卓开发之登录页面(跳转版)

目录 前言&#xff1a;基础夯实&#xff1a;效果展示&#xff1a;核心代码&#xff1a;网盘源码&#xff1a; 前言&#xff1a; 熟悉安卓开发的基础知识&#xff0c;了解&#xff0c;弹窗&#xff0c;两个页面进行跳转&#xff0c;页面的布局&#xff0c;按钮&#xff0c;文本…

【牛客刷题实战】二叉树遍历

大家好&#xff0c;我是小卡皮巴拉 文章目录 目录 牛客题目&#xff1a; 二叉树遍历 题目描述 输入描述&#xff1a; 输出描述&#xff1a; 示例1 解题思路 问题理解 算法选择 具体思路 解题要点 完整代码&#xff08;C语言&#xff09; 兄弟们共勉 &#xff01;&…

多个项目同时进行,如何做好项目管理?

多项目管理相较于单一项目管理&#xff0c;要面临更大的挑战和难度。多项目管理需要同时管理和协调多个项目&#xff0c;使用项目管理工具可以帮助项目经理和团队成员更好地规划、执行和监控项目。以下是七款多项目管理软件&#xff0c;它们各具特色&#xff0c;能够满足不同项…

[vulnhub] Brainpan1

https://www.vulnhub.com/entry/brainpan-1,51/ 主机发现端口扫描 使用nmap扫描网段类存活主机 因为靶机是我最后添加的&#xff0c;所以靶机IP是166 nmap -sP 192.168.75.0/24 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-1…

Java避坑案例 - 线程池使用中的风险识别与应对

文章目录 线程池的基本概念创建线程池的注意事项实例1&#xff1a; newFixedThreadPool 使用无界队列&#xff0c;可能因任务积压导致 OOM实例2&#xff1a; newCachedThreadPool 会创建大量线程&#xff0c;可能因线程数量过多导致无法创建新线程。 线程池参数设置的最佳实践线…

Pytest-Bdd-Playwright 系列教程(5):仅执行测试用例的收集阶段

Pytest-Bdd-Playwright 系列教程&#xff08;5&#xff09;&#xff1a;仅执行测试用例的收集阶段 一、为什么需要仅收集测试用例二、应用场景三、方法详解【方法1】&#xff1a;添加pytest.ini文件的addopts配置项【方法2】&#xff1a;通过命令行参数运行 四、CI/CD 环境下的…

机器人技术基础(4章逆运动解算和雅克比矩阵)

逆运动解算&#xff1a; 雅克比矩阵&#xff1a; 将动力学分析转向运动的物体 下图中的 n o y 反映了机器人的姿态矩阵&#xff0c; 最后一列 p 反应了机器人在空间中的位置&#xff1a;

未来已来:人工智能赋能软件开发新篇章

引言 在数字化转型的浪潮中&#xff0c;数据已成为推动企业创新与增长的核心资产&#xff0c;而人工智能&#xff08;AI&#xff09;则是将这些数据转化为商业价值的关键动力。随着技术的迅速演进&#xff0c;AI 正逐步渗透到软件开发的各个环节&#xff0c;从需求预测到用户体…