MDPO:Conditional Preference Optimization for Multimodal Large Language Models

MDPO: Conditional Preference Optimization for Multimodal Large Language Models

相关链接:arxiv
关键字:多模态大型语言模型偏好优化条件偏好优化幻觉减少

摘要

直接偏好优化(DPO)已被证明是大型语言模型(LLM)对齐的有效方法。近期的研究尝试将DPO应用于多模态场景,但发现难以实现一致的改进。通过比较实验,我们确定了多模态偏好优化中的无条件偏好问题,即模型在优化过程中忽略了图像条件。为了解决这个问题,我们提出了MDPO,这是一个多模态DPO目标,它通过同时优化图像偏好来防止过度优先考虑仅基于语言的偏好。此外,我们引入了一个奖励锚点,强制奖励对于选定的响应为正,从而避免了它们的似然度降低——这是相对偏好优化的一个内在问题。在不同大小的两个多模态LLM和三个广泛使用的基准测试上的实验表明,MDPO有效地解决了多模态偏好优化中的无条件偏好问题,并显著提高了模型性能,特别是在减少幻觉方面。

核心方法


MDPO(多模态直接偏好优化)提出了一种针对多模态场景的改进的偏好优化方法。核心方法包括以下几个关键点:

  1. 条件偏好优化:通过引入新的偏好对来强调图像与响应之间的关系,解决模型在偏好数据中忽略视觉信息的问题。

  2. 奖励锚点:通过正则化奖励为正,保持选定响应的似然度,避免在相对偏好优化中选定响应的似然度降低。

  3. 多模态偏好数据:MDPO在优化过程中同时考虑视觉和语言特征,以确保模型能够基于图像和问题文本的条件学习响应偏好。

  4. 实验验证:通过在不同规模的多模态LLM上进行实验,验证MDPO在减少幻觉和提高模型性能方面的有效性。

  5. 性能提升:MDPO通过条件偏好优化和奖励锚点,显著提高了模型对图像的理解能力,并减少了模型响应中的语言偏差。

实验说明

实验使用了两个不同大小的多模态LLM(Bunny-v1.0-3B和LLaVA-v1.5-7B),并在三个广泛使用的基准测试(MMHalBench、Object HalBench和AMBER)上进行了评估。实验结果表明MDPO在多模态场景中的表现优于标准DPO,特别是在减少幻觉方面。

以下是实验结果的Markdown表格展示:

基准测试指标Bunny-v1.0-3B (DPO)Bunny-v1.0-3B (MDPO)LLaVA-v1.5-7B (DPO)LLaVA-v1.5-7B (MDPO)
MMHalBench分数2.282.962.142.39
幻觉率0.560.420.650.54
Object HalBenchCHAIRs44.327.049.035.7
CHAIRi7.64.613.09.8
AMBER分数74.167.455.152.4
覆盖率58.937.734.524.5
幻觉率4.82.42.32.4

实验结果数据来源于论文中的实验部分,展示了MDPO在不同基准测试上的性能提升。数据要求反映了模型在减少幻觉和提高响应质量方面的表现。

结论

MDPO是一种针对多模态场景的偏好优化方法,它通过条件偏好优化和奖励锚点,有效地提高了多模态LLM的性能,并显著减少了幻觉。实验结果表明,MDPO在不同模型规模和数据规模上均能实现性能提升,证明了其在多模态偏好优化中的有效性和潜力。

整个论文的梳理保持了连贯性,并采用了技术性语言来描述方法和结果。对于深度学习的专业术语,如“大型语言模型(LLM)”和“直接偏好优化(DPO)”,保留了原文中的英文表述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/720415.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源表单流程设计器:做好流程化办公 实现提质增效!

在社会竞争激烈的今天,如何通过各种渠道和方式实现提质增效?低代码技术平台、开源表单流程设计器的出现,正是助力企业实现流程化办公,进入数字化转型的得力助手。想要利用好企业内部数据资源,打破信息化孤岛&#xff0…

排序算法、堆排序、大顶堆、小顶堆、手写快排-215. 数组中的第K个最大元素、2336. 无限集中的最小数字

目录 215. 数组中的第K个最大元素 题目链接及描述 题目分析 堆排序分析 堆排序代码编写 快排分析 快排代码编写 2336、无限集中的最小数字 题目链接及描述 题目分析 代码编写 215. 数组中的第K个最大元素 题目链接及描述 215. 数组中的第K个最大元素 - 力扣&#…

高压防触碰预警装置,工期重要还是命重要?

“说了多少遍了,不要在高压线下赶工期”吊车违规施工碰撞到高压线,导致供电线路跳闸停电事故,现场火花四溅及其危险, 高压线路被外力破坏的情况,违规施工、赶工期、视觉盲区导致线路外破等情况,想必大家也…

银行数仓项目实战(三)--使用Kettle进行增量,全量抽取

文章目录 使用Kettle进行全量抽取使用Kettle进行增量抽取 使用Kettle进行全量抽取 一般只有项目初始化的时候会使用到全量抽取,全量抽取的效率慢,抽取的数据量大。 我们在第一次进行全量抽取的时候,要在表中新建一个字段记录抽取时间&#x…

QPST的使用

QPST(Qualcomm Product Support Tool)是一个针对高通芯片开发的传输软件。 下载软件 进行安装 安装后使用,QPSTConfig 可以自动抓取dump的log 使用QFile 刷机

uniapp滚动加载

uniapp实现滚动加载,先获取10条数据,滚动到底时,再获取10条数据,以此类推,直至没有数据为止。 使用scroll-view,注意一定要给一个固定高度,隐藏滚动条会更美观 2. 在data中定义 3. 获取数据 …

【PyQt5】一文向您详细介绍 self.setLayout() 的作用

【PyQt5】一文向您详细介绍 self.setLayout() 的作用 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕…

5G工业路由器在智慧交通车路协同应用的深度解析

随着科技的飞速发展,智慧交通已成为现代城市发展的重要方向。在智慧交通的众多技术中,5G工业路由器凭借其高速、稳定、安全等特性,成为车路协同应用中不可或缺的一环。本文将在本文中深度解析5G工业路由器在智慧交通车路协同应用中的重要作用…

文件操作(2)(C语言版)

文件的随机读写: fseek函数: 前面讲解了顺序读写的相关函数,这里介绍一些可以“指哪写哪的函数” 有三个参数: 1、文件的地址 2、相对于第三个参数origin偏移的位置 3、起始位置(有三种) 第一种&#xff…

【三】【QT开发应用】VSQT和QTCreator项目互相转化的方法,QTCreator项目转化VSQT,VSQT转化为QTCreator

VSQT和QTCreator项目互相转化的方法 QTCreator项目转化VSQT 环境变量配置 将qmake.exe所在的目录添加到系统path里面. 转化命令 qmake -tp vc xxx.pro 生成.vcxproj文件 环境变量配置 将qmake.exe所在的目录路径添加到系统path中. 接着用cmd命令行转换,可能出现的问题 …

基于机器学习和深度学习的C-MAPSS涡扇发动机剩余寿命RUL预测(Python,Jupyter Notebook环境)

涡扇发动机全称为涡轮风扇发动机,是一种先进的空中引擎,由涡轮喷气发动机发展而来。涡扇发动机主要特点是首级压缩机的面积比涡轮喷气发动机大。同时,空气螺旋桨(扇)将部分吸入的空气从喷射引擎喷射出来,并…

Vue使用vue-esign实现在线签名 加入水印

Vue在线签名 一、目的二、样式三、代码1、依赖2、代码2.1 在线签名组件2.1.1 基础的2.1.2 携带时间水印的 2.2父组件 一、目的 又来了一个问题,直接让我在线签名(还不能存储base64),并且还得上传,我直接***违禁词。 好…

基于Python的垃圾分类检测识别系统(Yolo4网络)【W8】

简介: 垃圾分类检测识别系统旨在利用深度学习和计算机视觉技术,实现对不同类别垃圾的自动识别和分类。应用环境包括Python编程语言、主流深度学习框架如TensorFlow或PyTorch,以及图像处理库OpenCV等,通过这些工具集成和优化模型&a…

M41T00串行实时时钟-国产兼容RS4C1339

RS4C1340是一种实时时钟(RTC)/日历,与ST M41T00引脚兼容,功能等效,包括软件时钟校准。该器件还提供VBAT引脚上的涓流充电能力、较低的计时电压和振荡器STOP标志。寄存器映射的块访问与ST设备相同。涓流充电器和标志需要…

MATLAB 二维平面绘图

x 0:0.01:2pi: 大家还记得这个是什么意思吧 就是0到2π 每次所取的数 是相差0.01进行选取的 ysin(x): figure (这个意思就是建立一个幕布) plot(x,y) 这个主要是绘制当前的二维平面的图 但是大家会发现这张图里没有标…

ArcGIS arcpy代码工具——批量要素裁剪栅格影像

系列文章目录 ArcGIS arcpy代码工具——批量对MXD文件的页面布局设置修改 ArcGIS arcpy代码工具——数据驱动工具批量导出MXD文档并同步导出图片 ArcGIS arcpy代码工具——将要素属性表字段及要素截图插入word模板 ArcGIS arcpy代码工具——定制属性表字段输出表格 ArcGIS arc…

2024最新AI大模型-LLm八股合集(三)

常见的大模型 1.ChatGLM 1.1 背景 主流的预训练框架主要有三种: autoregressive自回归模型(AR模型) :代表作GPT。本质上是一个left-to-right的语言模型。 通常用于生成式任务 ,在长文本生成方面取得了巨大的成功…

每日一练:攻防世界:qr-easy

本题思路与CTFSHOW: 36D杯 misc ez-qrcode思路相同 工具链接:补全二维码QRazyBox - QR Code Analysis and Recovery Toolkit (h3110w0r1d.com) 1.首先,我们需要基于上图的干净图像。 此二维码的大小为 29x29,版本V的大小为N N,…

msvcp100.dll已加载但找不到入口点的处理方法,分析比较靠谱的msvcp100.dll解决方法

用户在日常使用中有时会遇到一个错误提示:“已加载 msvcp100.dll,但找不到入口点”。这一信息不仅引发了使用上的不便,也对软件的稳定性产生了质疑。理解并解决该问题不仅对确保计算机正常运行至关重要,也对维护软件的长期稳定性和…

最新扣子(Coze)实战案例:扣子图像流的创建及使用,完全免费教程

🧙‍♂️ 诸位好,吾乃斜杠君,编程界之翘楚,代码之大师。算法如流水,逻辑如棋局。 📜 吾之教程,内含诸般技术之秘诀。吾欲以此笔记,传授编程之道,助汝解技术难题。 &#…