NLP论文速读(剑桥大学出品)|分解和利用专家模型中的偏好进行改进视觉模型的可信度

论文速读|Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

论文信息:

简介:

      本文探讨的背景是多模态大型语言模型(MLLMs),这类模型通过结合视觉特征和文本空间来增强语言模型的能力。尽管MLLMs在视觉-语言任务中取得了显著的性能,但它们往往表现出过度自信,并可能提供与图像内容不一致的问题性回应。为了提高MLLMs的可信度,对齐人类偏好是一个有效的方法,但获取人类偏好标注既昂贵又费力。因此,近期的工作采用评估模型来自动构建偏好数据集,以评估MLLMs的回应。然而,MLLMs的回应通常较长且复杂,需要多样化的推理技能,单一评估模型可能无法完全具备这些技能。本文动机在于现有的评估模型(Eval-M)在评估MLLMs的回应时存在局限性,特别是在处理MLLMs的长且组合性的回应时。此外,现有的方法主要依赖于封闭源评估模型,这不仅成本高昂,而且不够透明。为了克服这些限制,本文提出了一个可分解的框架DecompGen,它使用一组开源专家模型来提供对MLLMs回应的细粒度评估,并自动构建偏好数据集。

论文方法:

      本文提出了一个名为DecompGen的框架,它通过以下几个步骤来实现:

      1)响应分解(Response Decomposition)

       DecompGen将MLLMs的回应分解为与视觉检查相关的短小部分,然后将每个部分进一步分解为原子验证任务。这些任务包括对象存在验证、对象关系验证、对象属性验证、对象计数验证和图像文本验证。

      2)专家模型执行(Expert Execution)

       在分解回应为原子验证任务后,DecompGen会动态组装并执行专家模型,每个模型负责一个特定的原子验证任务。这些专家模型包括对象检测模型、视觉问答模型(VQA)和光学字符识别(OCR)工具等。

      3)偏好数据生成(Preference Data Generation)

       DecompGen使用从专家模型执行中获得的细粒度反馈分数来构建偏好数据集DGPref。这个数据集用于通过直接偏好优化(DPO)方法对MLLMs进行偏好对齐。

      4)模型对齐(Model Alignment)

       使用DGPref数据集,MLLMs通过DPO进行偏好学习,以最大化选择偏好回应与拒绝回应之间的奖励差异。

论文实验:

       论文使用了三个基准数据集来评估MLLMs的幻觉(hallucinations)问题。

       论文中使用了两个MLLMs作为基础模型:LLaVA-v1.5和Qwen-VL-Chat,两者都有7B模型参数。

       为了构建DGPref,使用了Visual Genome(VG)作为图像源,产生了16k图像和52k偏好数据样本。

       在DPO训练中,为了参数效率,采用了低秩适应(LoRA)技术,并且设置采样温度为0,生成的最大长度为1024。

       与基础MLLMs比较:偏好学习后,DGPrefLLaVA和DGPrefQwen在幻觉率上有显著下降,同时保持或提高了信息丰富度。

       与基线比较:使用偏好数据的方法通常比仅使用解码策略的方法表现更好。DGPrefQwen在错误率上与最强的基线相当或更低,同时在幻觉缓解和信息丰富度之间取得了更好的平衡。

       消融研究:分析了考虑的检查方面、专家模型性能和图像源对DecompGen偏好数据收集的影响。

论文链接:

https://arxiv.org/pdf/2411.13697

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IntelliJ IDEA 中,自动导包功能

在 IntelliJ IDEA 中,自动导包功能可以极大地提高开发效率,减少手动导入包所带来的繁琐和错误。以下是如何在 IntelliJ IDEA 中设置和使用自动导包功能的详细步骤: 一、设置自动导包 打开 IntelliJ IDEA: 启动 IntelliJ IDEA 并打…

红外小目标检测

目录 背景概述算法原理演示效果核心逻辑 使用方式基础镜像配置环境直接运行 参考文献 文章声明,非广告,仅个人体验。 背景 红外图像在许多领域中都有所应用。例如军事领域中,经常需要通过红外成像设备对远距离的目标进行侦察和监视&#xff…

hive的存储格式

1) 四种存储格式 hive的存储格式分为两大类:一类纯文本文件,一类是二进制文件存储。 Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET 第一类:纯文本文件存储 textfile: 纯文本文件存储格式…

ReentrantLock(可重入锁) Semaphore(信号量) CountDownLatch

目录 ReentrantLock(可重入锁) &Semaphore(信号量)&CountDownLatchReentrantLock(可重入锁)既然有了synchronized,为啥还要有ReentrantLock?Semaphore(信号量)如何确保线程安全呢?CountDownLatch ReentrantLock(可重入锁) &Semaphore(信号量…

51单片机从入门到精通:理论与实践指南入门篇(二)

续51单片机从入门到精通:理论与实践指南(一)https://blog.csdn.net/speaking_me/article/details/144067372 第一篇总体给大家在(全局)总体上讲解了一下51单片机,那么接下来几天结束详细讲解,从…

STM32C011开发(2)----nBOOT_SEL设置

STM32C011开发----2.nBOOT_SEL设置 概述硬件准备视频教学样品申请源码下载参考程序自举模式BOOT0设置配置 nBOOT_SEL生成STM32CUBEMX串口配置LED配置堆栈设置串口重定向主循环演示 概述 STM32CubeProgrammer (STM32CubeProg) 是一款用于编程STM32产品的全功能多操作系统软件工…

基于 AI 的软件工程: 超级程序员

徐昊 《AI时代的软件工程》-极客时间课程学习总结 帮助你更好地利用 LLM 提高效率,还可以站在一个更全面的立场上,讨论如何将 LLM 引入团队或是组织。 核心观点: AI 辅助业务建模:通过将模型转化为 Mermaid 格式,将我们的模型表达为大语言模型能够理解的形式。通过添加注…

【消息序列】详解(7):剖析回环模式--设备测试的核心利器

目录 一、概述 1.1. 本地回环模式 1.2. 远程环回模式 二、本地回环模式(Local Loopback mode) 2.1. 步骤 1:主机进入本地环回模式 2.2. 本地回环测试 2.2.1. 步骤 2a:主机发送HCI数据包并接收环回数据 2.2.2. 步骤 2b&…

如何使用GCC手动编译stm32程序

如何不使用任何IDE(集成开发环境)编译stm32程序? 集成开发环境将编辑器、编译器、链接器、调试器等开发工具集成在一个统一的软件中,使得开发人员可以更加简单、高效地完成软件开发过程。如果我们不使用KEIL,IAR等集成开发环境,…

计算机网络 第4章 网络层

计算机网络 (第八版)谢希仁 第 4 章 网络层4.2.2 IP地址**无分类编址CIDR**IP地址的特点 4.2.3 IP地址与MAC地址4.2.4 ARP 地址解析协议4.2.5 IP数据报的格式题目2:IP数据报分片与重组题目:计算IP数据报的首部校验和(不正确未改) …

【Git】常用命令汇总

目录 一.安装及配置 1.在 Windows 上安装 2.用户信息 3.差异分析工具 二.基础 1.创建仓库 2.提交与修改 三.分支管理 1.创建分支 2.合并分支 四.远程操作 1.管理 Git 仓库中的远程仓库 2.数据的获取与推送 五.标签 1.创建轻量标签和附注标签 2.查看标签和标签信…

jvm核心组件介绍

1. 类加载器(ClassLoader): • 想象它是一个快递员,负责把Java类(.class文件)这个“包裹”从磁盘这个“发货地”送到JVM内部这个“目的地”。类加载器确保每个类只被加载一次,并维护一个类的层级…

【Docker】常用命令汇总

Docker 是1个开源的应用容器引擎,基于Go 语言并遵从 Apache2.0 协议开源。 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱机制,相…

ChatGPT如何辅助academic writing?

今天想和大家分享一篇来自《Nature》杂志的文章《Three ways ChatGPT helps me in my academic writing》,如果您的日常涉及到学术论文的写作(writing)、编辑(editing)或者审稿( peer review)&a…

对比C++,Rust在内存安全上做的努力

简介 近年来,越来越多的组织表示,如果新项目在技术选型时需要使用系统级开发语言,那么不要选择使用C/C这种内存不安全的系统语言,推荐使用内存安全的Rust作为替代。 谷歌也声称,Android 的安全漏洞,从 20…

【网络安全设备系列】12、态势感知

0x00 定义: 态势感知(Situation Awareness,SA)能够检测出超过20大类的云上安全风险,包括DDoS攻击、暴力破解、Web攻击、后门木马、僵尸主机、异常行为、漏洞攻击、命令与控制等。利用大数据分析技术,态势感…

UE5 slate BlankProgram独立程序系列

源码版Engine\Source\Programs\中copy BlankProgram文件夹,重命名为ASlateLearning,修改所有文件命名及内部名称。 ASlateLearning.Target.cs // Copyright Epic Games, Inc. All Rights Reserved.using UnrealBuildTool; using System.Collections.Ge…

铲屎官进,2024年宠物空气净化器十大排行,看看哪款吸毛最佳?

不知道最近换毛季,铲屎官们还承受的住吗?我家猫咪每天都在表演“天女散花”,家里没有一块干净的地方,空气中也都是堆积的浮毛,幸好有宠物空气净化器这种清理好物。宠物空气净化器针对宠物浮毛设计,可以有效…

VOLO实战:使用VOLO实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

AI加持,华为全屋智能品牌升级为“鸿蒙智家”

1.传统智能家居的困境:从便利到繁琐 近年来,智能家居因其便捷性和科技感受到消费者的青睐。然而,随着用户需求的多样化,传统智能家居的弊端逐渐显现: 设备连接复杂,品牌间兼容性不足,用户不得不…