复旦大学:一个小技巧探测大模型的知识边界,有效消除幻觉

孔子说“知之为知之,不知为不知,是知也”,目前的大模型非常缺乏这个能力。虽然大模型拥有丰富的知识,但它仍然缺乏对自己知识储备的正确判断。近年来LLMs虽然展现了强大的能力,但它们偶尔产生的内容捏造,即所谓的“幻觉”,限制了其在专业领域的应用,人们也对它们的专业建议持怀疑态度,这些幻觉现象的根源正在于LLMs无法准确表达其知识边界

最近,复旦大学提出了COKE方法( Confidence-derived Knowledge boundary Expression),通过利用模型内部的置信信号,教导LLMs识别和表达其知识边界,从而减少幻觉现象。实验结果表明,COKE显著提升了模型在域内和域外的表现,使模型能够在回答已知问题的同时,坦诚面对其未知领域的问题。

简而言之,就是增加大模型“知道自己不知道”的知识,减少大模型“不知道自己不知道”的知识。就比如图中的大模型在面对自己未知的问题“《迷失太空2018》中的机器人是谁”时,它如果不知道,就应该给出“不知道”,而不是编造一个“Max Robinson”的答案。

图片

论文标题:Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals

论文链接https://arxiv.org/abs/2406.10881

图片

COKE方法的核心思想

大语言模型的学习机制让它们能够在自己的参数中找到最接近查询q的知识点k作为答案。虽然训练可以让模型准确地测量这些q和k的距离,但并没有教会它们如何根据距离拒绝回答。因此,我们希望模型能够学会使用内部信号来识别何时较大的距离表示模型缺乏回答问题q的知识。

COKE分为两个阶段:

图片

在第一阶段(图左下,探测阶段),模型对未标记的问题进行预测。基于模型置信度,我们得到了两个部分,Dk和Dunk,分别对应模型知道的问题数据集和模型不知道的问题数据集。这一步可以理解为数据标注,给一些问题,然后用模型计算出对于该问题的答案的置信度。

在第二阶段(图右下,训练阶段),对同一个问题使用不同的提示进行训练,并使用无监督损失和一致性损失来教授模型表达知识边界。这一步可以理解为使用第一步标注的数据集训练模型。

经典的“标注-训练”两阶段方法

探测阶段(标注阶段)

在COKE方法的探测阶段,利用模型内部的信号来探测其知识边界,具体步骤如下:

  1. 信号选择:确定反映模型置信度的关键信号。研究发现,最小标记概率(Min-Prob)是最有效的置信度指标。Min-Prob是指模型生成的答案中,所有标记的最小概率。

  2. 数据集划分:根据置信度信号,将问题划分为两类:

    • Dk:置信度高于某个阈值的答案,表示模型拥有足够的知识来回答这些问题。

    • Dunk:置信度低于某个阈值的答案,表示模型缺乏足够的知识,容易捏造答案。

  3. 置信度计算:对未标注的问题集Q,使用贪婪解码法生成答案,并计算每个答案的最小标记概率。将置信度低于阈值的答案归入Dunk,高于阈值的归入Dk。

训练阶段

在COKE方法的训练阶段,旨在通过提示和正则化训练,教导模型表达其知识边界,具体步骤如下:

  1. 提示设计:为每个问题构建三种提示类型,分别是:

    • 先验提示(Prior awareness):在提供答案之前,评估模型是否有能力回答问题。例如,提示“你知道‘熊猫是哪个国家的国宝’的答案吗?如果知道,请回答‘是’,否则回答‘否’。”

    • 直接提示(Direct awareness):直接询问问题,如果模型知道答案则回答,如果不知道则承认。例如,提示“回答‘熊猫是哪个国家的国宝’。”

    • 后验提示(Posterior awareness):在提供答案后,评估模型对其答案的确定性。例如,提示“你确定‘熊猫是哪个国家的国宝’的答案是‘中国’吗?”

  2. 一致性正则化:为了确保模型在不同提示下对同一问题的回答一致,设计了一种正则化方法,将不同提示下的置信度差异纳入损失函数中。具体来说,损失函数定义为:

    其中,表示置信度在不同提示下的一致性损失,其公式为:

    通过这种一致性训练,使得模型在不同提示下对同一问题的回答置信度一致,提升模型在不同领域的泛化能力。

模型能力显著提升

整体性能

本文在多个数据集上进行了广泛的实验,包括域内数据集TriviaQA和域外数据集Natural Questions (NQ) 以及PopQA。结果如表所示,COKE方法在各个设置中均显著优于其他方法。

图片

  • Llama2-Chat-7B:在TriviaQA数据集上,COKE方法的Saware达到75.0,而基于提示的方法最高为64.2。在PopQA数据集上,COKE方法的Saware为77.0,而基于提示的方法最高为63.8。这表明模型在表达知识边界方面存在显著的改进。

  • Llama2-Chat-13B:随着模型规模的增加,COKE方法在多个数据集上的表现也有所提升。然而,尽管数据集准确性有所提高,但模型的自我认知能力并未显著提升,这可能需要更大的模型来体现。

与利用标记数据确定阈值的基于不确定性的方法相比,COKE方法在大多数设置中表现更佳。这表明COKE方法能够有效地学习并利用模型内部的置信信号,并且在域外数据集上表现出更好的泛化能力。

信号的有效性

为了验证置信度计算方法的有效性,本文对Llama2-Chat-7B模型在TriviaQA训练集上的响应进行了实证研究。如图显示了模型正确和错误预测的置信度分布。结果表明,置信度小于0.4的预测大多是错误的,而正确预测的置信度通常为1.0。这表明模型信号能够反映模型的置信度,从而暗示其是否具备相关知识。

图片

模型是否学会了使用信号

本文进一步分析了模型在不同置信度水平下的响应,如图所示,当置信度较高时,模型很少回应“未知”;而当置信度较低时,模型经常回应“未知”。例如,当置信度低于0.4时,模型几乎总是回应“未知”;而接近1.0时,模型则自信地提供答案。这表明模型有效地使用置信度信号来划定其知识边界,并且在域外数据上表现出良好的泛化能力。

图片

哪种信号更准确

本文比较了不同信号在反映模型知识边界方面的准确性及其对方法的影响。结果如表所示,基于最小标记概率的多标记产品在域内和域外数据集上的表现最佳。这表明最小标记概率信号更易于模型掌握,且能更好地反映模型的置信度。

图片

一致性损失的益处

本文还探讨了一致性损失对模型训练的益处。通过构建不同提示下的同一问题,并应用一致性正则化损失函数,发现这一策略不仅提高了模型的泛化能力,还确保了在不同提示下的一致性表达。如表所示,尽管在域内数据集上Saware有所下降,但在域外数据集上取得了显著的提升,表明一致性训练增强了模型的泛化能力。

图片

结语

罗翔说过,人需要承认自己的有限性,人这一生就是在走出偏见。人类的成长过程就是不断认清自己的边界和消除偏见的过程,大模型的成长亦是如此。

图片

图片

参考资料

[1]https://x.com/markgurman/status/1808240961522159862

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/768453.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于改进YOLOv5s的跌倒行为检测 | 引入SKAttention注意机制 + 引入空间金字塔池化结构SPPFCSPC + 结合ASFF自适应空间融合

前言:Hello大家好,我是小哥谈。为了实现电厂人员跌倒行为的实时检测,防止跌倒昏迷而无法及时发现并救援的事件发生,针对跌倒行为检测实时性以及特征提取能力不足的问题,提出了一种改进YOLOv5s的跌倒行为检测算法网络&a…

MySQL期末答辩—仓库管理系统

仓库管理系统:仓库管理系统是一种基于互联网对实际仓库的管理平台,旨在提供一个方便、快捷、安全的存取货物和查询商品信息平台。该系统通过在线用户登录查询,可以线上操作线下具体出/入库操作、查询仓库商品信息、提高仓库运作效率&#xff…

一文包学会ElasticSearch的大部分应用场合

ElasticSearch 官网下载地址:Download Elasticsearch | Elastic 历史版本下载地址1:Index of elasticsearch-local/7.6.1 历史版本下载地址2:Past Releases of Elastic Stack Software | Elastic ElasticSearch的安装(windows) 安装前所…

1000T的文件怎么能快速从南京传到北京?最佳方案你肯定想不到

今天刷面试题看到一个有意思的面试题, 1000T的文件怎么能以最快速度从南京传到北京? 网络传输 首先我们考虑通过网络传输,需要多长时间。 我特地咨询了在运营商工作的同学,目前带宽: 家庭宽带下行最大1Gbps&#…

双指针系列第 8 篇:盛水最多的容器。几句话讲明白!

Leetcode 题目链接 思路 取首尾双指针和水量如下所示&#xff0c;设高度函数为 h ( i ) h(i) h(i)&#xff0c;在下图中 h ( l ) < h ( r ) h(l) < h(r) h(l)<h(r)。 观察以 l l l 为左边界所能构成的其他水量&#xff0c;与矮的右边界搭配结果如下。 与高的…

每日两题 / 20. 有效的括号 155. 最小栈(LeetCode热题100)

20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 遇到左括号入栈 遇到右括号判断栈顶是否为匹配的左括号 最后判断栈是否为空 func isValid(s string) bool {var stk []runefor _, value : range s {if value ( || value { || value [ {stk append(stk, value)}…

计算机操作系统部分选填及大题整理

并发和&#xff08; 共享 &#xff09; 是操作系统的两个最基本的特征,&#xff08; 虚拟 &#xff09;和&#xff08; 异步 &#xff09; 是操作系统的重要特征&#xff0c;并发执行的程序失去可再现性现代操作系统的两个基本特征是&#xff08;程序的并发执行&#xff09;和资…

Docker 部署 Minio 对象存储服务器

文章目录 Github官网文档简介dockerdocker-compose.ymlmc 客户端mc 基础命令Golang 示例创建 test 账号密钥文件上传示例 Github https://github.com/minio/minio 官网 https://min.io/https://www.minio.org.cn/ 文档 https://www.minio.org.cn/docs/minio/kubernetes/up…

1.4 ROS2集成开发环境搭建

1.4.1 安装VSCode VSCode全称Visual Studio Code&#xff0c;是微软推出的一款轻量级代码编辑器&#xff0c;免费、开源而且功能强大。它支持几乎所有主流的程序语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比Diff、GIT 等特性&#xff0c;支持插件…

上位机第二弹

之前写的代码用上了 现在想想 &#xff0c;北向一侧还挺难搞&#xff0c;设计很巧妙

10 Posix API与网络协议栈

POSIX概念 POSIX是由IEEE指定的一系列标准,用于澄清和统一Unix-y操作系统提供的应用程序编程接口(以及辅助问题,如命令行shell实用程序),当您编写程序以依赖POSIX标准时,您可以非常肯定能够轻松地将它们移植到大量的Unix衍生产品系列中(包括Linux,但不限于此!)。 如…

使用pyinstaller 如何打包python项目

参考&#xff1a;【python项目正确打包方法-哔哩哔哩】 https://b23.tv/EDB6zbG Pyinstaller 详解多种打包过程(去坑,填坑)。_pyinstaller -f -w-CSDN博客 1.打开命令提示符&#xff1a; 找到python项目所在位置&#xff0c;输入cmd即可 2. 安装pipenv: 在命令提示符&#…

【Linux】多线程(一万六千字)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 文章目录 前言 线程的概念 线程的理解(Linux系统为例) 在Linux系统里如何保证让正文部分的代码可以并发的去跑呢&#xff1f; 为什么要有多进程呢&#xff1f; 为…

CVD-Risk-Prevent 个性化心血管健康推荐系统:基于医学指南的规则框架与 LLM 的结合

CVD-Risk-Prevent 个性化心血管健康推荐系统&#xff1a;基于医学指南的规则框架与 LLM 的结合 提出背景推荐算法的选择选择疑问健康指标管理心血管风险因素目标设定实现目标的计划推荐的多维性 算法关键点&#xff1a;如何将心血管健康指标转换为多维推荐&#xff1f;确定风险…

antfu/ni 在 Windows 下的安装

问题 全局安装 ni 之后&#xff0c;第一次使用会有这个问题 解决 在 powershell 中输入 Remove-Item Alias:ni -Force -ErrorAction Ignore之后再次运行 ni Windows 11 下的 Powershell 环境配置 可以参考 https://github.com/antfu-collective/ni?tabreadme-ov-file#how …

【操作系统】进程管理——调度基础(个人笔记)

学习日期&#xff1a;2024.7.3 内容摘要&#xff1a;调度的概念、层次&#xff0c;进程调度的时机&#xff0c;调度器和闲逛进程&#xff0c;调度算法的评价指标 调度的基本概念 有一堆任务需要处理&#xff0c;但由于资源有限&#xff0c;有的事情不能同时处理&#xff0c;这…

Django学习第三天

python manage.py runserver 使用以上的命令启动项目 实现新建用户数据功能 views.py文件代码 from django.shortcuts import render, redirect from app01 import models# Create your views here. def depart_list(request):""" 部门列表 ""&qu…

什么牌子的充电宝最好耐用?多款热门无线磁吸充电宝推荐

在现代生活中&#xff0c;手机、平板等电子设备已成为我们日常工作的必需品&#xff0c;而充电宝则是这些设备的续航神器&#xff01;无论是长途旅行、外出办公&#xff0c;还是日常通勤&#xff0c;一个耐用且高效的充电宝都是必不可少的选择。然而&#xff0c;市场上充电宝品…

如何选择适合自己的虚拟化技术?

虚拟化技术已成为现代数据中心和云计算环境的核心组成部分。本文将帮助您了解如何选择适合自己需求的虚拟化技术&#xff0c;以实现更高的效率、资源利用率和灵活性。 理解虚拟化技术 首先&#xff0c;让我们了解虚拟化技术的基本概念。虚拟化允许将一个物理服务器划分为多个虚…

探讨命令模式及其应用

目录 命令模式命令模式结构命令模式适用场景命令模式优缺点练手题目题目描述输入描述输出描述题解 命令模式 命令模式是一种行为设计模式&#xff0c; 它可将请求转换为一个包含与请求相关的所有信息的独立对象。 该转换让你能根据不同的请求将方法参数化、 延迟请求执行或将其…