语言模型的校准技术:增强概率评估

使用 DALLE-3 模型生成的图像

目录

一、说明

二、为什么校准对 LLM 模型至关重要

三、校准 LLM 概率的挑战

四、LLM 的高级校准方法

4.1 语言置信度

4.2 增强语言自信的先进技术

4.3 基于自一致性的置信度

4.4 基于 Logit 的方法

五、代理模型或微调方法

5.1 使用代理模型进行置信度评估

5.2 识别不确定性:R-tuning

5.3 LITCAB:小改变,大影响

5.4 ASPIRE:更智能的模型响应

六、结论


一、说明

        语言模型,尤其是大型语言模型 (LLM),凭借其理解和生成类人语言的能力,彻底改变了人工智能领域。这些模型不仅能够在零样本设置下或通过定制提示执行各种任务,而且它们的灵活性和多样性也使它们在多个领域中非常有用。

        然而,尽管它们很有效,但一个经常面临挑战的关键方面是这些模型的校准——确保它们提供的关于各种输出的概率真实反映这些输出正确的真实可能性。

        本文探讨了 LLM 校准的必要性,确定了围绕其概率评估的核心问题,并探讨了实现更好模型校准的当代方法。

二、为什么校准对 LLM 模型至关重要

        LLM 的本质是围绕处理和生成基于语言的输出,这些输出不仅准确,而且被分配了正确的置信水平。校准(或使模型的置信度与其准确性保持一致的过程)是必不可少的,因为:

        - 值得信赖的 AI 决策:正确校准的置信度分数使用户能够信任和依赖 AI 做出的决策,了解模型何时可能正确或不正确。

        - 风险管理:在医疗诊断或自动驾驶等安全关键应用中,过度自信但不正确的预测可能会导致灾难性后果。

        - 模型调试和改进: 校准可以帮助开发人员了解模型的弱点并相应地对其进行优化。

三、校准 LLM 概率的挑战

        大型语言模型通常面临几个影响其概率校准的障碍:

        - 封闭模型约束:许多 LLM 以黑匣子的形式运行,直接访问对数概率的访问受到限制,使理解和调整置信度分数的过程变得复杂。

        - 训练中的错位:使用人类反馈强化学习 (RLHF) 等技术改进的模型可能会变得天真地校准错误。根据论文[1],使用最广泛的LLMs是通过人类反馈的强化学习(RLHF-LLMs)进行微调的。一些研究表明,RLHF-LLMs产生的条件概率校准非常差。研究结果表明,RLHF-LLMs可能会优先考虑严格遵守用户偏好,而不是产生校准良好的预测,这可能导致校准不良。这显示了一个关键挑战,即使用 RLHF 训练的模型可能缺乏准确可靠输出所需的必要概率校准。

        - 特定任务的校准需求: LLM 的通用训练通常不会针对特定任务或领域进行调整,需要额外的校准以使其与特定需求或应用程序保持一致。

四、LLM 的高级校准方法

为了应对校准挑战,我们可以尝试多种技术,如下所述:

描述各种校准技术

4.1 语言置信度

        “语言置信度”是指语言模型(LLM)不仅提供答案,而且还明确地评估其响应的置信度的技术。这种方法涉及使用某些方法来获得对模型对其答案的置信度的更可靠评估。

        基本实现

        在最简单的形式中,口头信心涉及向 LLM 提出问题和任何相关上下文,然后明确要求提供信心分数。这种直接方法为更复杂的技术奠定了基础。

4.2 增强语言自信的先进技术

  1. 思维链 (CoT) 提示: 思维链提示涉及在模型提供答案之前从模型中引出分步推理过程。该方法不仅增强了模型响应的清晰度和丰富性,还可以通过观察推理步骤中的逻辑一致性来提高置信水平的估计。
  2. 多步骤置信度激发:该技术通过在推理或解决问题过程的各个步骤捕获置信度分数来优化置信度测量。最终置信水平是所有个人置信度分数的乘积,提供了确定性的复合度量。
  3. Top-K 响应和置信度评分: 该模型生成多个可能的答案(Top-K 响应),而不是单个响应,每个答案都伴随着一个单独的置信度分数。然后,选择置信度得分最高的答案作为最终答案。这种方法反映了涉及评估多个假设的决策过程。
  4. 多种提示技术:利用各种提示可以更准确地校准置信度估计。提示的多样性可能源于不同的措辞、上下文或概念角度,使模型的评估对有偏见或信息不足的响应更加稳健。
  5. 数值概率与语言表达式:在某些情况下,模型通过与正确可能性直接相关的数值概率来表达其置信度。相反,也可以使用“极有可能”或“可能不会”等语言表达方式。
  6. 使用多个假设进行提示: 最初,模型会生成多个没有置信度评级的答案候选者。在随后的交互中,他们评估每个答案的正确概率。研究表明,以这种方式评估多个假设可以显着改善校准。

参考论文

有效表达置信度的能力因模型而异,在不同的模型架构和世代中观察到一些差异。

4.3 基于自一致性的置信度

        基于自一致性的置信度方法是一种复杂的方法,通过生成对同一查询的多个响应并分析这些响应之间的一致性来评估语言模型的置信度。该技术基于这样一种想法,即不同条件下的高一致性表明对响应准确性的高度置信度。

        生成多个响应

        为了从模型中获得一系列答案,采用了几种策略:

        自我随机化: 这涉及在不同的设置下多次输入相同的问题。调整“温度”参数是这里的常用方法,它通过改变输出的预测性或随机性来操纵模型响应的多样性。

        提示扰动: 通过释义改变问题的措辞,以唤起不同角度的回答。这通过检查模型是否在措辞不同但概念相似的提示中保持一致来测试模型的稳健性。

        误导性提示:在提示中引入故意错误或误导性提示,以评估模型的稳定性。与人体测试类似,这种方法观察模型是否像一个自信的人一样,可以忽略误导性信息并坚持正确或一致的反应。

        聚合策略

为了综合调查结果并分配最终置信度分数,可以考虑不同的聚合策略:

        一致性测量: 这检查了模型在不同条件下提供相同答案的一致性,反映了稳定性和可靠性。

        平均置信度(平均值):计算加权平均值,其中对具有较高一致性和个人置信度得分的答案给予更多权重,从而提供总体置信度的精细度量。

        配对排名策略: 此策略在使用模型的 Top-K 预测的场景中特别有用,它强调模型预测中的排名信息,有助于评估最可能和最一致的响应。

4.4 基于 Logit 的方法

        基于 Logit 的校准是提高大型语言模型 (LLM) 概率预测可靠性的关键技术。当模型输出原始分数(如对数)时,它们通常不会直接转换为真正的概率分布。校准技术调整这些对数以反映更准确的概率,这对于实际应用中的稳健决策至关重要。下面,我们将深入探讨用于基于 logit 的校准的一些方法:

        1. 对代币(token)的平均置信度

        为了在语言模型的预测中得出更一致的置信度估计,一种常用的方法是对标记的置信度(对数概率)进行平均。这可以针对所有令牌或选择性子集完成,具体取决于特定应用程序或数据集的特征。其结果是更平滑、更通用的模型确定性度量,减少了任何单个代币可变性的影响。

        2. 普拉特缩放(Sigmoid)

        Platt 缩放或 S 形标定是一种逻辑回归模型,应用于原始模型的输出对数。通过在 logit 上拟合 sigmoid 函数,此方法将它们转换为校准概率。校准涉及学习两个参数,通常表示为“A”和“B”,它们缩放和移动对数以更好地与实际观察到的概率保持一致。这种方法特别有用,因为它对于二元分类任务简单且有效。

参考

        3. 等渗回归

        与 Platt 缩放不同,等渗回归在对数和概率之间不假定任何函数形式。它是一种非参数方法,拟合非递减函数,使预测概率与目标概率对齐。这种分段常数函数非常灵活,可以更准确地反映某些场景中的真实分布,特别是当对数和概率之间的关系更复杂或非线性时。

        4. 温度标度

        温度缩放是一种后处理技术,可在不更改模型预测的情况下调整模型的置信度。它涉及在应用 softmax 函数将它们转换为概率之前,将 logits 除以称为“温度”的常量。最佳温度通常通过最小化验证数据集上的交叉熵损失来确定。这种方法很有吸引力,因为它对校准过程产生了极简主义的影响,保持了原始对数的相对顺序。

五、代理模型或微调方法

微调是一种高级校准方法,它使用特定数据和目标调整模型,以便更好地为特定任务做好准备。让我们探索几种创新方法,这些方法有助于微调这些模型,以提供更可靠、更精确的置信度分数。

5.1 使用代理模型进行置信度评估

一种引人入胜的方法[2]使用第二种通常更简单的模型来评估主要模型(如 GPT-4)的答案的可信度:

它的作用:例如,LLAMA2 等辅助模型可用于通过提供相同的提示并提取 GPT-4 模型响应的分数来获取其他模型(如 GPT-4)生成的答案的对数概率

令人惊讶的效果:尽管二级模型可能不那么强大,但与单独使用语言线索相比,这种方法已被证明可以产生更好的结果(通过曲线下面积或 AUC 测量)。

5.2 识别不确定性:R-tuning

R-tuning 在可以说“我不知道”的时候教一个模型——认识到它自己的局限性。微调过程包括以下步骤

识别不确定性: 它通过进行预测并将其与地面事实进行比较,发现模型的答案在火车集中可能不稳定或有问题的情况

有把握地训练:然后,它使用标记为“确定”或“不确定”的示例来教授模型,确保它从这些区别中学习。在训练期间使用“我确定”或“我不确定”等短语来表达置信度,重点是从令牌生成到降低错误。

参考

5.3 LITCAB:小改变,大影响

LITCAB 引入了一个微小而有效的校准层:

简单添加:它在模型末尾添加一个线性层,该层根据输入文本调整每个响应的预测可能性。

- 高效和有效: 这种微小的调整增强了模型的判断力,而不会增加太多复杂性——原始模型大小的变化不到 2%。

5.4 ASPIRE:更智能的模型响应

为预测分配置信度分数并允许选择性预测。ASPIRE,包括三个阶段:

1.T Ask 特定调优:它使用 PEFT 技术修改特定的自适应参数,同时保持主模型不变,优化特定任务的响应。

2. 答案抽样:它使用这些调整为每个问题生成多个可能的答案,它使用波束搜索作为解码算法来生成高似然输出序列,并使用 Rouge-L 度量来确定生成的输出序列是否正确基于真实

3.自我评价学习:最后,引入另一组调整,帮助模型自行判断其反应是对还是错,提高其自我评价能力。

        通过这些方法,语言模型不仅变得更加先进,而且更符合用户的上下文和期望,从而实现更可靠和更上下文感知的交互。

六、结论

        校准大型语言模型是一项复杂而重要的工作,可以提高 AI 应用程序的可靠性和安全性。通过使用和组合上面讨论的各种创新方法,我们可以显着改善这些模型在无数上下文中的理解和交互方式,为真正的智能系统铺平道路,这些系统可以以高度的可信度和正确性做出决策。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/672504.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python 网络爬虫:深入解析 Scrapy

大家好,在当今数字化时代,获取和分析网络数据是许多项目的关键步骤。从市场竞争情报到学术研究,网络数据的重要性越来越被人们所认识和重视。然而,手动获取和处理大量的网络数据是一项繁琐且耗时的任务。幸运的是,Pyth…

Winform ListView 嵌入组合框、布尔、图片等复杂控件

一、Winform ListView 显示复杂控件示例 以下展示了两种实现思路方案。最后修改日期 2024-05 surfsky 1.1 方案一:ListView 结合组合框进行模拟编辑 基本思路 在界面上放置一个lisview和一个combobox,combobox平时是隐藏的。点击listview&#xff0c…

机械设计手册第一册:公差

形位公差的标注: 形位公差框格中,不仅要表达形位公差的特征项目、基准代号和其他符号,还要正确给出公差带的大小、形状等内容。 1.形位公差框格: 形位公差框格由两个框格或多个格框组成,框格中的主要内容从左到右按…

mysql中基于规则的优化

大家好。我们在平时开发的过程中可能会写一些执行起来十分耗费性能的语句。当MySQL遇到这种sql时会依据一些规则,竭尽全力的把这个很糟糕的语句转换成某种可以比较高效执行的形式,这个过程被称作查询重写,今天我们就来聊一下mysql在查询重写时…

FreeRTOS基础(八):FreeRTOS 时间管理

前面我们用了FreeRTOS中的延时函数,本篇博客就来探讨FreeRTOS中的延时函数,看看他们是如何发挥作用的。当我们在裸机开发中调用delay_ms()函数时,我们的处理器将不处理任何事,造成处理器资源的浪费。 为此,为了提高CPU…

ChatTTS改良版 - 高度逼真的人类情感文本生成语音工具(TTS)本地一键整合包下

先介绍下ChatTTS 和之前发布的 Fish Speech 类似,都是免费开源的文本生成语音的AI软件,但不同的是,ChatTTS测试下来,对于人类情感语调的模仿,应该是目前开源项目做的最好的,是一款高度接近人类情感、音色、…

计算机工作原理(程序猿必备的计算机常识)

目录 一、计算机工作原理1.冯诺依曼体系2. CPU执行指令的过程 二、操作系统三、进程的概念四、进程的管理五、进程的调度 一、计算机工作原理 1.冯诺依曼体系 现在的计算机大多都遵循冯诺依曼体系结构 CPU: 中央处理器,进行算术运算和逻辑判断&#…

百度文心一言API批量多线程写文章软件-key免费无限写

百度文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费,即刻生效。 百度文心大模型的两款主力模型 这意味着,大模型已进入免费时代! 据了解,这两款大模型发布于今年 3 月,支持 8K 和 128k 上下文长度。 ER…

赢销侠的秘密武器:如何提升客户满意度?

在竞争激烈的商业战场上,客户满意度是企业能否长盛不衰的关键。它如同一面镜子,映照出企业的服务质量和产品实力。那么,赢销侠们是如何运用秘密武器来提升客户满意度的呢?本文将深入探讨这一课题,并揭示背后的策略与智…

灾备方案中虚拟化平台元数据备份技术应用

首先需要介绍下元数据是什么? 元数据(Metadata)是一个重要的概念,它描述了数据的数据,也就是说,元数据提供了关于数据属性的信息。这些属性可能包括数据的存储位置、历史数据、资源查找、文件记录等。 元…

LabVIEW与欧陆温控表通讯的实现与应用:厂商软件与自主开发的优缺点

本文探讨了LabVIEW与欧陆温控表通讯的具体实现方法,并对比了使用厂商提供的软件与自行开发LabVIEW程序的优缺点。通过综合分析,帮助用户在实际应用中选择最适合的方案,实现高效、灵活的温控系统。 LabVIEW与欧陆温控表通讯的实现与应用&#…

基于Jenkins+Kubernetes+GitLab+Harbor构建CICD平台

1. 实验环境 1.1 k8s环境 1)Kubernetes 集群版本是 1.20.6 2)k8s控制节点: IP:192.168.140.130 主机名:k8s-master 配置:4C6G 3)k8s工作节点 节点1: IP:192.1…

day-37 最大正方形

思路 动态规划,这题主要得弄明白状态转换方程,dp[i][j]表示以(i,j)为右下角的最大正方形 解题方法 1.首先将第一行和第一列初始化,当对应位置的matrix为’0’时,dp数组对应位置也为零,否则为1 …

上位机图像处理和嵌入式模块部署(f407 mcu中fatfs中间件使用)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们已经实现了spi norflash的驱动,理论上这已经可以实现数据的持久化保存了。为什么还需要一个文件系统呢?主要原因还…

HTML静态网页成品作业(HTML+CSS)——家乡常德介绍网页(1个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有1个页面。 二、作品演示 三、代…

【Qt 学习笔记】Qt窗口 | 对话框 | Qt对话框的分类及介绍

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt窗口 | 对话框 | 模态对话框 文章编号:Qt 学习笔记 / 51…

API开发秘籍:揭秘Swagger与Spring REST Docs的文档自动化神技

在这个数字化时代,如何让你的业务像外卖一样快速送达顾客手中?本文将带你走进Spring Boot的世界,学习如何利用RESTful API构建一个高效、直观的“外卖帝国”。从基础的REST架构风格,到Spring MVC的魔力,再到Swagger和S…

解决kettle界面右上角的connect消失——且使用admin登录不上Kettle资源库

一、问题描述 1.1、Kettle界面右上角的connect消失了 当我们配置Kettle界面的资源库(Other Repositories)内容后,Kettle界面右上角的connect消失了;如下图所示: 1.2、使用默认的账户【admin】和密码【admin】登录不上kettle资源库 当我们切换到我们配置的数据库使用超管账…

排序-希尔排序

介绍 希尔排序属于那种没有了解过的直接看代码一脸懵逼的, 所以同学们尽量不要直接看代码,仔细阅读本篇博客内容。 插入排序本来算是一个低效排序, 一次只可以挪动一个数据, 但是,它的强来了!&#xff01…

513.找树左下角的值

给定一个二叉树,在树的最后一行找到最左边的值。 示例 1: 示例 2: 思路: 深度最大的叶子结点一定是最后一行。 优先左边搜索,记录深度最大的叶子节点,此时就是树的最后一行最左边的值 代码: class Solution:def fi…