NLP论文速读(MPO)|通过混合偏好优化提高多模态大型语言模型的推理能力

论文速读|Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models

论文信息:

图片

简介:

      本文探讨的背景是多模态大型语言模型(MLLMs)在多模态推理能力上的局限性,尤其是在链式推理(Chain-of-Thought,CoT)性能方面。现有的开源MLLMs通常采用预训练和监督式微调(Supervised Fine-Tuning,SFT)的训练过程,但这些模型在推理时受到分布偏移的影响,限制了它们的多模态推理能力。特别是在CoT任务中,模型的表现往往不如直接回答任务。本文动机在于提升MLLMs的多模态推理能力,使其能够更好地处理多模态数据并提高CoT任务的性能。作者希望通过引入偏好优化(Preference Optimization,PO)技术,使模型的输出更符合期望的推理模式,从而增强模型的推理能力,并减少幻觉(hallucinations)现象。

论文方法:

图片

      本文提出了一种名为混合偏好优化(Mixed Preference Optimization,MPO)的方法,它结合了偏好优化和监督式微调。具体来说,本文的方法包括两个主要部分:数据层面和模型层面。  

      数据层面:作者设计了一个自动化的偏好数据构建流程,创建了一个大规模的多模态推理偏好数据集(MMPR)。这个数据集包含了约300万个样本,通过自动化流程高效生成高质量的偏好对。         

      模型层面:在模型层面,作者探索了将PO与MLLMs集成的方法,提出了MPO方法。MPO通过结合偏好损失(Lp)、质量损失(Lq)和生成损失(Lg)来训练模型,使模型能够学习响应之间的相对偏好、单个响应的绝对质量以及生成偏好响应的过程。具体来说:   

      偏好损失(Lp):使用直接偏好优化(DPO)作为偏好损失,使模型能够学习选择响应和拒绝响应之间的相对偏好。   

      质量损失(Lq):使用二分类优化(BCO)作为质量损失,帮助模型理解单个响应的绝对质量。 

      生成损失(Lg):使用SFT损失作为生成损失,帮助模型学习生成偏好响应的过程。  

      此外,本文还提出了Dropout Next Token Prediction(DropoutNTP)方法来生成没有明确真值的样本的拒绝响应,以及基于正确性的流程来生成有明确真值的样本的偏好对。通过这些方法,模型在多模态推理任务中表现出了显著的性能提升。


论文实验:

图片

      根据Table 2,论文的实验部分主要评估了作者提出的InternVL2-8B-MPO模型在多个多模态基准测试中的表现,并与其他领先的多模态大型语言模型(MLLMs)进行了比较。实验涉及了多个不同的基准测试,包括多模态推理、复杂视觉问答(VQA)和幻觉评估任务。

      作者的模型InternVL2-8B-MPO在所有基准测试中都展现出了优越的性能,特别是在多模态推理任务上。在M3CoT(多领域多步多模态链式推理)基准测试中,InternVL2-8B-MPO的得分为79.2,远高于InternVL2-8B的59.3,显示出MPO方法在增强推理能力方面的有效性。在MathVista(多模态数学推理)基准测试中,InternVL2-8B-MPO的准确率达到了67.0%,比InternVL2-8B的58.3%高出8.7个百分点,并且与比InternVL2-8B大10倍的InternVL2-76B的性能相当。InternVL2-8B-MPO在8个多模态基准测试中的整体得分均优于InternVL2-8B,这表明通过MPO方法,模型在多模态推理、VQA和幻觉评估方面的能力都得到了显著提升。

论文链接:

https://arxiv.org/pdf/2411.10442

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/920401.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何更改手机GPS定位

你是否曾想过更改手机GPS位置以保护隐私、玩游戏或访问受地理限制的内容?接下来我将向你展示如何使用 MagFone Location Changer 更改手机GPS 位置!无论是在玩Pokmon GO游戏、发布社媒贴子,这种方法都快速、简单且有效。 第一步:下…

Java项目实战II基于微信小程序的图书馆自习室座位预约平台(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。 一、前言 在知识爆炸的时代,图书馆和…

图像处理 - 色彩空间转换

色彩空间转换的含义与原理 色彩空间转换是指将一种颜色模型或表示方式中的颜色数据映射到另一种颜色模型中的过程。色彩空间(Color Space)本质上是一个三维坐标系统,每个点都表示图像中的某种颜色。在实际应用中,由于不同的色彩空…

web——sqliabs靶场——第十三关——报错注入+布尔盲注

发现是单引号加括号闭合的 尝试联合注入 发现不太行,那尝试报错注入。 测试报错注入 unameadmin) and updatexml(1,0x7e,3) -- &passwdadmin&submitSubmit 爆数据库 unameadmin) and updatexml(1,concat(0x7e,database(),0x7e),3) -- &passwdadmin&a…

大语言模型中Softmax函数的计算过程及其参数描述

文章目录 概要Softmax的定义 概要 **Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。 **Softmax使用场景:**Llama-7B模型中,其在自注意层…

Jmeter中的断言(三)

9--MD5Hex断言 功能特点 数据完整性验证:验证响应数据的 MD5 哈希值是否符合预期。简单配置:只需提供预期的 MD5 哈希值即可。灵活配置:可以设置多个断言条件,满足复杂的测试需求。 配置步骤 添加 MD5Hex 断言 右键点击需要添加…

后端开发如何高效使用 Apifox?

对于后端开发者来说,日常工作中少不了接口的设计、调试和文档编写。你是否也曾因接口文档更新不及时、测试工具分散而头疼不已?Apifox,这款全能型工具,或许能成为你的效率神器! Apifox究竟有哪些功能能帮助后端开发者…

JMeter监听器与压测监控之 InfluxDB

1. 简介 在本文中,我们将介绍如何在 Kali Linux 上通过 Docker 安装 InfluxDB,并使用 JMeter 对其进行性能监控。InfluxDB 是一个高性能的时序数据库,而 JMeter 是一个开源的性能测试工具,可以用于对各种服务进行负载测试和性能监…

操作系统基础——针对实习面试

目录 操作系统基础什么是操作系统?简述其主要功能请举例几种不同类型的操作系统,并简要说明它们的特点 操作系统基础 什么是操作系统?简述其主要功能 一、操作系统的定义 操作系统(Operating System,简称OS&#xff…

uni-app快速入门(十)--常用内置组件(下)

本文介绍uni-app的textarea多行文本框组件、web-view组件、image图片组件、switch开关组件、audio音频组件、video视频组件。 一、textarea多行文本框组件 textarea组件在HTML 中相信大家非常熟悉,组件的官方介绍见: textarea | uni-app官网uni-app,un…

CSS中Flex布局应用实践总结

① 两端对齐 比如 要求ul下的li每行四个,中间间隔但是需要两段对齐,如下图所示: 这是除了基本的flex布局外,还需要用到:nth-of-type伪类来控制每行第一个与第四个的padding。 .hl_list{width: 100%;display: flex;align-items…

Spring Boot + Vue 基于 RSA 的用户身份认证加密机制实现

Spring Boot Vue 基于 RSA 的用户身份认证加密机制实现 什么是RSA?安全需求介绍前后端交互流程前端使用 RSA 加密密码安装 jsencrypt库实现敏感信息加密 服务器端生成RSA的公私钥文件Windows环境 生成rsa的公私钥文件Linux环境 生成rsa的公私钥文件 后端代码实现返…

Three.js + AI:AI 算法生成 3D 萤火虫飞舞效果~

AI 驱动 3D 动画 大家好,我是石小石!随着 Web 技术的发展,Three.js 成为构建 3D 图形和动画的主流工具。与此同时,人工智能(AI)在图像处理、动作生成等领域表现出强大能力。将 AI 与 Three.js 结合&#x…

bpmn.js显示流程图

目标&#xff1a;vue2 接口返回xml - 弹窗显示流程图 - 根据需求高亮节点 一、安装依赖 npm i bpmn-js 添加上的版本是 "bpmn-js": "^11.5.0" 二、只读显示流程图 <div ref"canvas" style"width:100%;height: calc(100vh…

Vue Form表单的使用,rules格式校验网络校验,键盘按键监听

Form表单 rules格式校验 可以在validator中进行网络请求&#xff0c;实现网络校验 const formRules {userName: [{required: true, message: "用户名不能为空", trigger: blur}, {min: 5,max: 10,message: "长度必须5-10位",trigger: blur}],passWord: …

单片机智能家居火灾环境安全检测-分享

目录 前言 一、本设计主要实现哪些很“开门”功能&#xff1f; 二、电路设计原理图 电路图采用Altium Designer进行设计&#xff1a; 三、实物设计图 四、程序源代码设计 五、获取资料内容 前言 传统的火灾报警系统大多依赖于简单的烟雾探测器或温度传感器&#xff0c;…

TCP并发服务器

端口号快速复用函数 通过getsockopt和setsockopt函数&#xff0c;管理套接字的端口号复用设置。具体操作如下&#xff1a; getsockopt函数 int getsockopt(int sockfd, int level, int optname, void *optval, socklen_t *optlen);功能&#xff1a;获取套接字的某些选项的属性。…

vue3的宏到底是什么东西?

前言 从vue3开始vue引入了宏&#xff0c;比如defineProps、defineEmits等。我们每天写vue代码时都会使用到这些宏&#xff0c;但是你有没有思考过vue中的宏到底是什么&#xff1f;为什么这些宏不需要手动从vue中import&#xff1f;为什么只能在setup顶层中使用这些宏&#xff…

无重复字符的最长子串习题分析

习题&#xff1a;&#xff08;leetcode 3 &#xff09; 给定一个字符串s&#xff0c;请你找出其中不含有重复字符的最长子串的长度。 分析&#xff1a; 对于寻找子串、数组中某部分等&#xff0c;我们可以使用滑动窗口和双指针思想来求解。 滑动窗口通常用于解决需要连续子…

Linux服务器的Tomcat9中部署War包

文章目录 Linux服务器的Tomcat9中部署War包一、引言二、部署Tomcat91、安装Tomcat91.1、下载Tomcat91.2、解压安装1.3、启动Tomcat9 2、配置环境变量&#xff08;可选&#xff09; 三、部署War包1、准备War包2、部署War包3、配置Context&#xff08;可选&#xff09; 四、启动和…