探索大型语言模型自动评估 LLM 输出长句准确性的方法

LLM现在能够自动评估较长文本中的事实真实性

源码地址:https://github.com/google-deepmind/long-form-factuality
论文地址:https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的,提出了新的数据集、评估方法和衡量标准,用于对 LLM 长式事实性(长式事实性)和信息准确性进行基准测试。

研究要点包括:

  • 挑战:没有数据集、评估方法或指标来评估LLM长式产出的真实性
  • 解决方法:数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
  • 第 1 点:上述方法可以量化 “法律硕士长式成果的事实性”。
  • 第 2 点:模型越大,越长的陈述越符合事实。

换句话说,这项研究可用于自动评估 LLM 输出的长式信息的准确性,并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来,法律硕士的成绩有了显著提高,但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是,"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答,因此很难评估长式答案的真实性。此外,还没有确定量化长刑期事实的方法或指标,因此无法对其进行成功评估。

本研究提出的方法。

如前所述,该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

  • LongFact
  • SAFE(搜索增强事实评估器)。
  • F1@K

让我们依次来详细了解一下。

数据集: LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

  • 包括 38 个主题的 2,280 个事实调查问题
  • 主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文科学和其他。
  • 包括需要长时间回答的问题
  • 使用 GPT-4生成问题。
  • 从生成的问题中删除重复问题,并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”,右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比,LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下,LongFact 在 GitHub 上公开发布,任何人都可以使用。因此,它有望成为未来 LLM 研究的基础。

评估方法:SAFE(Search-Augmented Factuality Evaluator)

SAFE(Search-Augmented Factuality Evaluator)是本文提出的一种用于自动评估长格式事实性(LLM)的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

  1. 向 LLM 输入 “提示”,并让它输出 “响应”。
  2. 使用 LLM 将回复文本分解为若干 “要素”。
  3. 使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
  4. 使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
  5. 使用生成的查询进行谷歌搜索
  6. 确定谷歌搜索结果中的 "个别元素 "是否为正确信息(以及是否有充分依据)。

实质上,如下图所示,输出文本被分解为其元素、查询生成和谷歌搜索,从搜索结果中寻找支持事实的信息。

当然,"正确信息元素数量 "越多,LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时,他们发现 SAFE 的正确率为 76%,而人类的正确率仅为 19%。此外,SAFE 的表现优于人类,而成本却不到人类评分者的二十分之一。

这意味着,SAFE 将被证明成本相对较低,准确性较高。

顺便提一下,SAFE 的实施代码也在GitHub 上以开源方式提供,任何人都可以使用。

评价指标:F1@K

F1@K 是一个同时考虑拟合率(精确度)和重复率(召回率)的指标。其具体定义如下

  • 一致率 Prec(y):输出 y 中 "正确信息要素 "的百分比
  • 复制率 RK(y):输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度(正确信息元素数量)的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说,F1@K 的值介于 0 和 1 之间,越接近 1 表示长文本的事实性越强�

K 是一个超参数,代表用户偏好的输出文本长度(正确信息元素的数量)。假设用户认为最多 K 个 "信息正确元素 "越多越好,但对超过 K 个的 "信息正确元素 "则漠不关心。

例如,如果 K=64,用户认为 64 以内的 "正确信息要素 "越多越好,但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实,还可以评估信息是否包含足够的信息量。

事实上,本文使用 F1@K 对 13 个 LLM 进行了基准测试,并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM(Gemini、GPT、Claude 和 PaLM-2 系列)进行了基准测试,以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说,每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果,并使用 SAFE 进行评估。

然后,他们对 F1@K(K=64 和 K=178)的性能进行了量化和比较。

结果

实验结果表明,模型越大,越长的陈述越符合事实。

例如,GPT-4-Turbo 的事实性高于 GPT-4,GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到,Gemini-Ultra 的事实性高于 Gemini-Pro,PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外,无论 K 值如何,三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标,用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状,并为今后的研究提供基础。

本研究的局限性如下:

  • LongFact 和 SAFE 依赖于 LLM,因此直接受到所用 LLM 功能的影响
  • SAFE 依靠谷歌搜索,可能无法正确评估某些事实
  • 至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好,尚未进行测试。

因此,他们计划今后开展有关学习、微调和使用外部工具的研究,以提高较长法律硕士课程的事实性。他还表示,SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/765905.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章搞懂时间复杂度和空间复杂度

不知道小伙伴们有没有刷过力扣上的算法题,我在上研究生的时候,刷过了前40道题,上面的算法题,我觉得还挺难的,当你写完代码的时候,就可以提交自己写的代码到系统上,系统会给你写的代码计算时间复…

嵌入式c语言1——gcc以及linux嵌入式

GCC全名GNU Complier Collection,是一个开源的程序语言解释器,运行在linux系统中 对以程序名后缀结尾源代码文件,gcc可以做解释并生成可执行文件

uniapp做小程序内打开地图展示位置信息

使用场景&#xff1a;项目中需要通过位置信息打开地图查看当前位置信息在地图那个位置&#xff0c;每个酒店有自己的经纬度和详细地址&#xff0c;点击地图按钮打开内置地图如图 方法如下&#xff1a; <view class"dttu" click"openMap(info.locationY,info.…

解决Linux环境Qt报“cannot find -lgl“问题

今天&#xff0c;在Ubuntu 18.04.6环境下&#xff0c;安装Qt5.14.2之后&#xff0c;运行一个QWidget工程&#xff0c;发现Qt报"cannot find -lgl"错误。     出现这种现象的原因&#xff1a;Qt的Path路径没有配置&#xff0c;缺少libqt4-dev依赖包和一些必要的组件…

128陷阱详解

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

基于机器学习的永磁同步电机矢量控制策略-高分资源-下载可用!

基于机器学习的永磁同步电机矢量控制策略 优势 训练了RL-Agent&#xff0c;能够提高电机在非线性负载下的性能。 部分程序 仿真结果 转矩估计及dq轴电流。 代码有偿&#xff0c;50&#xff0c;需要的可以联系。

Vue前端练习

此练习项目只涉及前端&#xff0c;主要是vue和ElementUI框架的使用。&#xff08;ElementUI官网&#xff1a;Element - The worlds most popular Vue UI framework&#xff09; 一、环境准备 安装idea 安装Node.js 一键式安装(不需要做任何配置) npm -v&#xff08;也可用nod…

C语言 | Leetcode C语言题解之第198题打家劫舍

题目&#xff1a; 题解&#xff1a; int rob(int* nums, int numsSize){// dp0: 不偷这个屋子能窃到的最高金额int dp0 0;// dp1: 偷这间屋子能窃到的最高金额int dp1 nums[0];for (int i 1; i < numsSize; i) {int dp0new fmax(dp0, dp1);int dp1new dp0 nums[i];dp…

前端知识点

HTML、CSS 相关 1、 BFC 1、BFC 是什么&#xff1f; BFC&#xff08;Block Formatting Context&#xff09; 格式化上下文&#xff1b; 指一个独立的渲染区域&#xff0c;或者说是一个隔离的独立容器&#xff1b;可以理解为一个独立的封闭空间。无论如何不会影响到它的外面 …

day09了 加油

浅拷贝 指向同一个地址空间 右边不可取地址 左边一定是到了具体的位置 右值引用std&#xff1a;&#xff1a; move 相信大家默认构造函数都没有问题&#xff0c;所以就不贴例子了 浅拷贝构造函数 只负责复制地址&#xff0c;而不是真的把完整的内存给它 #include <iostre…

【MySQL备份】Percona XtraBackup基础篇

目录 1.关于Percona XtraBackup 2. Percona XtraBackup有哪些特点&#xff1f; 3.安装Percona XtraBackup 3.1.环境信息 3.2.安装步骤 4. xtrabackup内部流程图 5.Percona XtraBackup基础语法 5.1.全量备份 5.2.增量备份 5.2.1.基于全量备份的增量备份 5.2.2.基于前…

超越所有SOTA达11%!媲美全监督方法 | UC伯克利开源UnSAM

文章链接&#xff1a;https://arxiv.org/pdf/2406.20081 github链接&#xff1a;https://github.com/frank-xwang/UnSAM SAM 代表了计算机视觉领域&#xff0c;特别是图像分割领域的重大进步。对于需要详细分析和理解复杂视觉场景(如自动驾驶、医学成像和环境监控)的应用特别有…

深入解读OkHttp3中的Request5

OkHttp 是由 Square 开发的一个高效的 HTTP 客户端库&#xff0c;广泛应用于 Android 开发中。作为资深安卓开发工程师&#xff0c;我们经常需要与网络通信打交道&#xff0c;而 OkHttp 提供了一个简洁而强大的 API 来处理这些通信。在这篇文章中&#xff0c;我们将深入探讨 Ok…

python自动化运维--DNS处理模块dnspython

1.dnspython介绍 dnspython是Pyhton实现的一个DNS工具包&#xff0c;他几乎支持所有的记录类型&#xff0c;可以用于查询、传输并动态更新ZONE信息&#xff0c;同事支持TSIG&#xff08;事物签名&#xff09;验证消息和EDNS0&#xff08;扩展DNS&#xff09;。在系统管理方面&a…

EVE-NG网络仿真平台搭建

现在目前实验都是使用华为的Ensp模拟器&#xff0c;但是有时候一些功能模拟器无法实现&#xff0c;要不就是使用真机进行实验&#xff0c;第二个就是换个支持相关命令的模拟器了&#xff0c;今天来简单学习下EVE-NG这个模拟器。 一、EVE-NG简介 EVE-NG&#xff08;Emulated Vir…

【深度学习】注意力机制

https://blog.csdn.net/weixin_43334693/article/details/130189238 https://blog.csdn.net/weixin_47936614/article/details/130466448 https://blog.csdn.net/qq_51320133/article/details/138305880 注意力机制&#xff1a;在处理信息的时候&#xff0c;会将注意力放在需要…

HarmonyOS开发实战:UDP通讯示例规范

1. UDP简介 UDP协议是传输层协议的一种&#xff0c;它不需要建立连接&#xff0c;是不可靠、无序的&#xff0c;相对于TCP协议报文更简单&#xff0c;在特定场景下有更高的数据传输效率&#xff0c;在现代的网络通讯中有广泛的应用&#xff0c;以最新的HTTP/3为例&#xff0c;…

2024年6月29日 (周六) 叶子游戏新闻

老板键工具来唤去: 它可以为常用程序自定义快捷键&#xff0c;实现一键唤起、一键隐藏的 Windows 工具&#xff0c;并且支持窗口动态绑定快捷键&#xff08;无需设置自动实现&#xff09;。 喜马拉雅下载工具: 字面意思 《星刃》性感女主私密部位细节逼真 让玩家感到惊讶《星刃…

探索NVIDIA A100 显卡 如何手搓A100显卡

NVIDIA A100 显卡&#xff08;GPU&#xff09;是基于NVIDIA的Ampere架构设计的高性能计算和人工智能任务的处理器。 A100显卡主要由以下几种关键芯片和组件组成&#xff1a; 1. GPU芯片 NVIDIA GA100 GPU&#xff1a; 核心组件&#xff0c;是整个显卡的核心处理单元。GA100芯…

Ubuntu24.04 Isaacgym的安装

教程1 教程2 教程3 1.下载压缩包 link 2. 解压 tar -xvf IsaacGym_Preview_4_Package.tar.gz3. 从源码安装 Ubuntu24.04还需首先进入虚拟环境 python -m venv myenv # 创建虚拟环境&#xff0c;已有可跳过 source myenv/bin/activate # 激活虚拟环境python编译 cd isaa…