【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述

论文信息:
在这里插入图片描述
用于医疗领域摘要任务的大型语言模型评估:一篇叙述性综述, 文章是由
Emma Croxford , Yanjun Gao 博士 , Nicholas Pellegrino , Karen K. Wong 等人近期合作发表。


目录

文章目录

  • 【大语言模型-论文精读】用于医疗领域摘要任务的大型语言模型评估综述
    • 目录
    • 1. 摘要
    • 2. 引言
    • 3. 电子健康记录文档中的人工评估
      • 3.1 人工评估标准
      • 3.2 人工评估分析
      • 3.3 人工评估的缺点
    • 4. 前 LLM 自动化评估
      • 4.1 自动化评估类别
      • 4.2 自动化指标的弊端
    • 5. 未来方向:大型语言模型(LLM)作为评估器来补充人类专家评估器:提示工程大型语言模型(LLM)作为评委
      • 5.1 零样本和上下文学习
      • 5.2 参数高效微调
      • 5.3 利用人感知的损失函数进行参数高效微调(Parameter Efficient Fine-Tuning with Human-Aware Loss Function)
    • 后记
    • 参考文献


1. 摘要

大型语言模型已经推动了临床自然语言生成的发展,为管理大量医疗文本创造了机会。 但是,医疗的重大利益性质需要可靠的评估,而这仍然是一个挑战。 在这篇叙述性综述中,我们评估了当前针对临床摘要任务的评估状况,并提出了未来方向,以解决专家人工评估的资源限制问题。

2. 引言

大型语言模型(LLM)的快速发展,导致了自然语言生成(NLG)领域的重大进展。 在医疗领域,LLM 在减轻医疗保健提供者基于文档的认知负担方面表现出了潜力,特别是在摘要和问答等 NLG 任务中。 随着电子健康记录(EHR)中医疗文本数量的不断增长,对临床文档进行摘要已成为一项关键的 NLG 任务 [1]。

最近的进展,例如在 LLM 中引入了更大的上下文窗口(例如,谷歌的 Gemini 1.5 Pro,其容量为 100 万个符元 [2]),允许处理大量的文本数据,从而能够在一个输入中对整个病历进行摘要。 但是,将 LLM 应用于医疗等高风险环境中的一个主要挑战是确保其性能的可靠评估。 与传统方法不同,生成式人工智能(GenAI)通过生成使用语言动态地完成任务的自然语言叙述,提供了更大的灵活性。 然而,这种灵活性在评估生成的输出的准确性、可靠性和质量方面引入了额外的复杂性,其中所需的响应并非静态的。

对 LLM 进行的临床摘要评估必须解决复杂医疗文本的复杂性,并解决 LLM 特定的挑战,例如相关性、幻觉、遗漏以及确保事实准确性 [3]。 医疗保健数据会进一步加剧 LLM 特定的挑战,因为它们可能包含冲突或不正确的信息。 目前用于摘要任务的指标,例如 n 元组重叠和语义得分,不足以满足医疗领域的细致需求 [4]。 虽然这些指标可能在简单的提取式摘要中表现良好,但它们在应用于抽象式摘要 [5] 时却力不从心,因为抽象式摘要需要复杂的推理和深入的医学知识。 它们也无法区分不同用户的需求,并提供考虑生成相关性的评估。

在 GenAI 时代,自动化偏差进一步加剧了 LLM 带来的潜在风险,尤其是在临床环境中,错误的后果可能非常严重。 因此,高效且自动化的评估方法至关重要。 本综述考察了 LLM 在摘要任务中的评估现状,重点介绍了其在医疗领域的应用和局限性。 我们还提出了一个未来方向,以克服专家人工评估的劳动密集型过程,该过程耗时、成本高,且需要专门的培训。

3. 电子健康记录文档中的人工评估

目前用于人工编写的临床笔记的人工评估框架主要基于 GenAI 前的评分标准,这些评分标准评估临床文档质量。 这些框架根据评估者类型、内容以及生成评估分数所需的分析而有所不同。 这种灵活性允许定制评估方法,捕捉确保高质量生成的特定任务方面。 专家评估者凭借其领域特定的知识,在维护高标准的评估中发挥着至关重要的作用。

一些常用的 GenAI 前评分标准包括 SaferDx [6]、医师文档质量工具 (PDQI-9) [7] 和修订版 IDEA [8] 评分标准。 SaferDx 评分标准侧重于通过一项针对 12 个问题的回顾性调查,识别 EHR 文档中的诊断错误和分析错失的机会,旨在改善诊断决策和患者安全。 PDQI-9 评估医师笔记质量,涵盖九个标准问题,确保临床文档和患者护理持续改进。 Revised-IDEA 工具通过 4 项评估提供对临床推理文档的反馈。 这三个评分标准都强调了在整个鉴别诊断过程中省略相关诊断以及与这些诊断相关的相关客观数据、过程和结论。 它们还要求临床文档中不包含错误、不恰当或不完整的信息,强调了临床文档中存在的证据和推理质量的重要性。 每个评分标准都包含基于特定临床文档的来源和用途的额外问题——例如 PDQI-9 对组织的评估,以确保读者能够理解患者的临床病程。 这三个评分标准也使用不同的评估方式,基于问题的粒度和评估背后的意图。 例如,Revised-IDEA 工具对 4 个项目中的 3 个使用计数式评估,以保证包含最少数量的客观数据点,并包含高质量诊断推理文档所需的特征。 在最近的出版物中,SaferDx 工具已被用作对 GenAI 在临床实践中使用的回顾性分析 [9],而 PDQI-9 和 Revised-IDEA 工具已被用于比较临床医生和 GenAI 方法编写的临床文档的质量 [10, 11, 12]。 尽管这些评分标准最初并非旨在评估 LLM 生成的内容,但它们为评估在医疗领域生成的文本提供了宝贵的见解。

人工评估仍然是 LLM 输出的黄金标准 [13]。 但是,由于这些评分标准最初是为评估临床医生生成的笔记而开发的,因此可能需要针对评估 LLM 生成的输出的特定目的进行调整。 为了应对 LLM 生成的内容带来的独特挑战,包括评估生成的文本的一致性和事实准确性(即幻觉),已经出现了一些新的和修改后的评估评分标准。 这些调整后的评分标准的共同主题包括安全性 [14]、模态 [15, 16] 和正确性 [17, 18]。

3.1 人工评估标准

一般来说,用于构成 LLM 输出评估评分标准的标准可以分为七个广泛的标准:(1) 幻觉 [4, 17, 18, 19, 20, 21, 22],(2) 省略 [14, 19],(3) 修改 [23],(4) 忠实度/置信度 [15, 16, 23],(5) 偏见/危害 [14, 16, 22],(6) 扎根性 [14, 15],(7) 流畅性 [15, 17, 20, 23]。 幻觉包括任何旨在捕捉生成的文本中的信息是否遵循源材料的评估性问题。 无依据的声明、无意义的陈述、不可能的场景以及错误或矛盾的事实将在这些标准中的问题中被标记出来。 基于遗漏的问题用于识别生成的文本中缺失的信息。 如果医疗专业人员会在生成的文本中包含这些项目,则医疗事实、重要信息和关键诊断决策都可被视为在未包含在生成的文本中时被遗漏。 当要求评估人员对生成的文本进行修订或估计所需的修订次数时,评估性问题将属于“修订”类别。 生成的文本将被修订,直到它们满足研究人员、医院系统或更大的政府机构制定的标准。 忠实度/置信度通常以捕捉生成文本是否保留了源文本的内容以及呈现反映源文本中置信度和特异性的结论的问题为特征。 关于偏见/伤害的问题评估生成的文本是否正在对患者造成潜在伤害或反映对答复的偏见。 不准确、不适用或应用不当的信息将被属于此标准的问题捕获。 扎根性是指评估生成文本的源基础证据质量的评估性问题。 任何包含阅读理解能力差、知识回忆、推理步骤或与科学共识相悖的证据都将导致扎根性评分较低。 除了生成文本的内容外,生成的文本的流畅性也包含在评估中。 连贯性、可读性、语法正确性和词汇正确性都属于此标准。 在许多情况下,为了专注于基于内容的评估标准,假设流畅性是足够的。

3.2 人工评估分析

评估指标的分析方法也会根据环境和任务而有所不同。 评估分数可以使用二元/李克特分类[14, 15]、预先指定的实例的计数/比例[22]、编辑距离[23]或类似于医疗考试中使用的惩罚/奖励方案[24]来计算。 二元分类使用真/假或是/否的响应模式来回答评估性问题。 这种设置允许将复杂的评估分解为更简单、更可能客观性的决定。 二元分类通过将响应推到可接受或不可接受来对较小的错误进行更多处罚。 Likert 量表分类通过提供一个序数量表,允许评分有更高的特异性。 这些量表可以包含任意数量的级别,在许多情况下,包括一个中立选项来处理不清楚的响应,它们有 3 到 9 个级别。 级别较多的量表会带来更多问题,这些问题会导致分析中满足正态分布的假设,以及审阅者之间复杂性和意见不一致。 基于计数/比例的评估要求评估者识别与特定评估标准相关的正确或不正确关键短语的预先指定实例。 然后,可以根据评估者的标注计算精确率、召回率、F1 分数或比率,以建立生成的文本的数值分数。 编辑距离评估也要求评估者对正在评估的生成文本进行标注。 在这些情况下,评估者会对生成的文本进行编辑,直到它令人满意或不再包含严重错误。 这些编辑可能是对事实错误的更正、对遗漏内容的补充或对不相关内容的删除。 评估分数是根据需要编辑的字符、单词等数量计算的,从原始生成的文本到编辑版本的距离。 Levenshtein 距离 [25] 是用于计算生成的文本与其编辑版本之间的距离的算法示例。 该距离计算为将原始文本更改为编辑版本的所需最小替换、插入和删除单个字符的数量。 最后,计算评估分数的一种更复杂的方法是使用惩罚/奖励模式。 这些模式对评估问题的正面结果进行奖励,对负面结果进行惩罚。 此模式类似于国家考试中所见模式,该模式考虑正分和负分,并使用与不同问题相关的权重和难度。 例如,用于评估 Med-HALT 数据集上的 LLMs 的模式是正确和错误答案的平均值,分别分配 和 -0.25 分 [24]。 此评估模式为分配代表假阳性和假阴性之间权衡的权重提供了高度的特殊性。

3.3 人工评估的缺点

虽然人工评估提供了细致入微的评估,但它们资源密集且严重依赖于招募具有临床领域知识的评估人员。 评估人员的经验和背景会显著影响他们如何解释和评估生成的文本。 此外,评估说明中指导和具体性的程度决定了评估中多大程度上受评估人员对任务的个人解释和信念的影响。 虽然增加评估人员的数量可以减轻一些这些偏差,但资源(时间和财务)通常限制了人工评估的规模。 这些评估还需要大量的体力劳动,如果没有明确的指导和培训,评判者之间的一致性可能会受到影响。 确保人工评估人员符合评估标准的意图需要培训,就像 NLP 共享任务的标注指南一样 [26, 27, 28]。 在临床领域,医疗专业人员通常被用作专家评估人员,但他们的时间限制限制了他们参与大规模评估的可用性。 招募更多医疗专业人员的难度,加上彻底评估所需的时间,使得频繁、快速评估变得不切实际。

另一个问题是评估标准本身的有效性。 一个健全的人工评估框架必须具有强大的心理测量特性,包括结构效度、效标效度、内容效度和评分者之间信度,以确保可重复性和普遍适用性。 不幸的是,许多用于临床评估的框架没有提供关于其创建的足够细节,这使得难以评估其有效性 [15, 24]。 通常,人工评估框架是针对特定项目开发的,只有一个评估人员,虽然评分者之间信度等指标对于建立有效性至关重要,但它们并不总是被报道 [18, 23]。 此外,与临床相关的评估标准尚未专门设计用于评估 LLM 生成的摘要。 大多数现有的评估指标侧重于评估人类撰写的笔记质量,它们不包含评估 LLM 生成的输出的独特方面所需的所有元素 [6, 7, 8]。

4. 前 LLM 自动化评估

自动化指标为人类评估的资源限制提供了一个实用的解决方案,尤其是在自然语言处理 (NLP) 等领域,其中问答、翻译和摘要等任务长期以来一直依赖于这些方法。 自动化评估采用算法、模型或启发式技术来评估生成文本的质量,无需持续的人工干预,这使得它们在时间和人力方面效率更高。 然而,这些指标在很大程度上取决于高质量参考文本的可用性,这些文本通常被称为“黄金标准”。将生成的文本与这些黄金标准参考文本进行比较,以评估其准确性以及它在多大程度上满足了任务的要求。 尽管自动化指标效率很高,但它们可能难以捕捉到更复杂领域(如临床诊断)中所需的细微差别和上下文理解,在这些领域,措辞或推理的细微差别会导致重大影响。 因此,虽然自动化评估在可扩展性方面很有价值,但它们的有效性与评估中使用的参考文本的质量和相关性密切相关。

4.1 自动化评估类别

临床领域中的自动化评估可以分为五种主要类型(图 1),每种类型都针对特定的评估目标,并取决于为生成文本提供的参考和源材料的可用性:(1) 基于词语/字符的,(2) 基于嵌入的,(3) 学习指标,(4) 基于概率的,(5) 预定义知识库。

基于词语/字符的评估依赖于参考文本和生成文本之间的比较来计算评估分数。 这些评估可以基于字符、词语或子序列重叠,具体取决于评估的需要以及文本中可能存在的细微差别。 用于摘要评估的回忆导向型学习者 (ROUGE) [29] 是基于词语/字符的指标的典型例子。 ROUGE 的许多变体——N 元共现 (N)、最长公共子序列 (L)、加权最长公共子序列 (W)、跳过二元共现 (S)——代表了参考文本和生成文本之间的比较级别。 ROUGE-L 是目前自动评估的黄金标准,尤其是在摘要中,它依赖于参考文本和生成文本之间的最长公共子序列。 评估分数计算为文本中属于最长公共子序列的词语的比例。 编辑距离指标 [25] 也属于这一类,因为它们基于需要改变的词语或字符数量,以使参考文本和生成文本匹配。 编辑可以被分类为在生成的文本中插入、删除、替换或转置词语/字符。

基于嵌入的评估为参考文本和生成文本创建上下文化或静态嵌入,用于比较,而不是依赖于词语或字符之间的精确匹配。 这些基于嵌入的指标能够捕获两个文本之间的语义相似性,因为词语或短语的嵌入将基于其周围的文本以及自身。 BERTScore [30] 是一个常用的指标,属于此类。 对于此指标,使用来自 Transformer 的双向编码器表示 (BERT) 模型 [31] 在计算基于这些嵌入的贪婪余弦相似度得分之前生成上下文化嵌入。
在这里插入图片描述
图 1:预 LLM 自动评估指标分类 根据其基础和对地面实况参考的需求对预 LLM 自动评估指标进行结构化组织。 那些为临床领域构建或已应用于临床领域的指标以粗体显示。

基于学习指标的评估依赖于训练模型来计算评估。 这些指标可以根据示例评估分数或直接根据参考文本和生成的文本对进行训练。 回归模型和神经网络模型是这些指标的基础,为可学习参数提供了不同程度的复杂性。 用于翻译评估的跨语言优化指标 (COMET) [51] 是一个属于此类的指标,因为它是一个经过评估训练的神经模型。 它最初是为机器翻译评估而创建的,但后来被应用于其他生成任务。 COMET 使用一个神经网络,以生成的文本作为输入来产生评估分数。 此指标可以应用于无参考数据集以及具有参考文本的数据集。

概率评估依赖于根据领域知识、参考文本或源材料计算生成的文本的可能性。 这些指标将高质量的生成与那些具有高概率与参考文本或源文本一致或相关的生成等同起来。 它们还对包含主题外或不相关信息的文本进行惩罚。 一个例子是 BARTScore [74],它根据参考文本计算生成输出的日志概率之和。 在这种情况下,日志概率是使用双向和自回归 Transformer (BART) 模型计算的,该模型评估了生成的文本与预期内容的匹配程度 [78]。

预定义知识库指标依赖于已建立的特定领域知识数据库来为生成的文本评估提供信息。 这些指标在医疗保健等专业领域特别有价值,因为通用语言模型可能缺乏必要的知识深度。 通过结合特定领域的知识库,例如美国国家医学图书馆的统一医疗语言系统 (UMLS) [79],这些指标提供了更准确、更符合语境的评估。 预定义的知识库可以通过将上下文嵌入、机器学习或基于概率的指标与特定领域独有的专业术语和关系相结合,来增强其他评估方法。 这种组合确保评估既能考虑语言准确性,又能考虑临床医学等领域所需的专业知识。 BERTScore 有一种在 UMLS 上训练的变体,称为 SapBERTScore [80]。 该评分函数与通用领域 BERTScore 相似,但利用使用 UMLS 数据微调的 BERT 模型来生成更特定于领域的嵌入。 其他基于 UMLS 的指标包括 CUI F-Score [50] 和 UMLS Scorer [73]。 UMLS Scorer 利用基于 UMLS 的知识图嵌入来评估文本的语义质量 [19],为评估临床内容提供了一种更结构化的方法。 同时,CUI F-Score 使用来自 UMLS 的概念唯一标识符 (CUI) 来表示文本,计算反映生成的文本与关键医学概念匹配程度的 F-score。 这使得能够更细致地评估生成的文本中医学术语的相关性和准确性。

4.2 自动化指标的弊端

在大型语言模型出现之前,自动化指标会生成一个单一分数,表示生成的文本的质量,而不管其长度或复杂性。 此单一评分方法难以准确定位文本中的特定问题,对于大型语言模型(LLM),几乎无法理解导致特定评分的精确因素[13]。 虽然自动化指标具有速度优势,但这是以依赖于表面层面的启发式方法为代价的,例如词汇和结构度量,这些方法无法捕捉医疗文本中更抽象的摘要挑战,例如需要应用临床推理和知识来适当地优先排序和综合医疗信息。

5. 未来方向:大型语言模型(LLM)作为评估器来补充人类专家评估器:提示工程大型语言模型(LLM)作为评委

在这里插入图片描述
图 2:提示工程大型语言模型(LLM)作为评委的阶段 第 5 节中扩展的提示工程的三个不同方面。 这三个部分——零样本和上下文学习 (ICL)、参数高效微调 (PEFT) 以及带有人类感知损失函数 (HALO) 的 PEFT——组合成一个更大的模式,用于训练和提示大型语言模型 (LLM) 作为评估器来补充人类专家评估器。

大型语言模型 (LLM) 是通用的工具,能够执行各种任务,包括评估其他大型语言模型 (LLM) 的输出。 这种大型语言模型 (LLM) 作为人类专家评估器模型的概念随着指令调优和人类反馈强化学习 (RLHF) [81] 的出现而得到了发展。 这些进步极大地提高了大型语言模型 (LLM) 将其输出与人类偏好对齐的能力,如从 GPT-3 到 GPT-4 的转变,标志着大型语言模型 (LLM) 准确性和性能的范式转变 [82]。

一个有效的大型语言模型 (LLM) 评估器将能够以与人类专家相当的精度和准确性回答评估性问题,遵循人类评估指标中使用的框架。 基于大型语言模型 (LLM) 的评估可以提供与传统自动化指标相同的许多优势,例如速度和一致性,同时有可能克服对高质量参考文本的依赖。 此外,大型语言模型 (LLM) 可以通过直接与内容互动来评估复杂任务,绕过对简单启发式方法的需要,并提供更多关于事实准确性、幻觉和遗漏的信息。

虽然将大型语言模型 (LLM) 用作评估器在研究中仍处于起步阶段,但早期研究表明了它们作为人类评估的替代方案的实用性,为手动评估的局限性提供了一种可扩展的解决方案 [83]。 随着方法的不断发展,基于大型语言模型 (LLM) 的评估有望解决传统自动化指标和人工评估的不足,特别是在临床文本生成等复杂、上下文丰富的领域。

5.1 零样本和上下文学习

设计大型语言模型 (LLM) 以进行评估的一种方法是使用手动策划的提示(图 3)。 提示包括提供给大型语言模型 (LLM) 以指导其响应的任务描述和说明。在这种情况下,采用了两种主要的提示策略:零样本和少样本 [3]。在零样本提示中,在要求 LLM 进行评估之前,只会提供任务描述,而没有任何示例。少样本提示提供任务描述以及一些示例,以帮助指导 LLM 生成输出。示例的数量因 LLM 的架构、输入窗口限制以及模型最佳性能点而异。通常,使用 1 到 5 个少样本示例。通过零样本和少样本(“情境学习”)方法(统称为“硬提示”)的提示工程,使 LLM 能够执行未经明确训练的任务。但是,性能可能会因模型的预训练及其与新任务的相关性而有很大差异。

在这里插入图片描述
除了这些手动方法之外,一种更具适应性的策略涉及“软提示”,也称为机器学习提示,其中包括提示调整和 p 调整等技术 [84]。软提示是可学习的参数,作为虚拟标记添加到模型的输入中,以发出特定于任务的指令。与硬提示不同,软提示经过训练并纳入模型的输入层,使模型能够处理更广泛的专门任务。事实证明,软提示的表现优于 FewShot 提示,尤其是在大型模型中,因为它可以在不改变核心权重的情况下微调模型的行为。当单靠提示无法达到预期的性能时,可能需要微调整个 LLM 才能实现最佳任务执行。

5.2 参数高效微调

即使 LLM 可能在庞大的语料库上进行了预训练,但它在需要领域特定知识或处理细微输入的任务中仍会遇到困难。为了应对这些挑战,可以采用使用量化和低秩适配器的参数高效微调 (PEFT) 和监督微调 (SFT) 方法,其中模型在针对当前任务量身定制的提示/响应对的专门数据集上进行训练。微调 LLM 中的每个权重可能需要大量的时间和计算资源。在这些情况下,量化和低秩适配器被添加到 PEFT 的微调过程中。量化通过对 LLM 权重使用较低精度的数据类型(通常为 4 位和 8 位)来减少训练的时间和内存成本 [85]。低秩适配器 (LoRA) 冻结 LLM 的权重并将其分解为更少数量的可训练参数,最终也降低了 SFT 的成本 [86]。 PEFT 通过嵌入特定于任务的知识来帮助完善 LLM,确保模型能够在特定环境中做出准确响应。这些数据集的创建至关重要——性能改进与用于微调的提示/响应对的质量和相关性直接相关。目标是通过 PEFT 将重点缩小到特定于任务的行为,调整 LLM 以在特定用例(例如医疗诊断或法律推理)中表现更好。

5.3 利用人感知的损失函数进行参数高效微调(Parameter Efficient Fine-Tuning with Human-Aware Loss Function)

在某些应用中,微调的重点是使 LLM 与人类的价值观和偏好保持一致,尤其是当模型有可能生成有偏见、不正确或有害的内容时。这种对齐称为人类对齐训练,由集成到训练过程中的高质量人类反馈驱动。该领域一种广受认可的方法是带人类反馈的强化学习 (RLHF) [87]。RLHF 用于更新 LLM,引导其输出在奖励量表上得分更高的输出。在奖励模型阶段,使用带有人类反馈注释的数据集来确定特定响应的奖励(通常为标量)。然后,通过称为近端策略优化 (PPO) [88] 的过程训练 LLM 以产生将获得更高奖励的响应。这个迭代过程可确保模型符合人类的期望,但它可能耗费大量资源,需要大量内存、时间和计算能力。

为了应对这些计算挑战,出现了新的范式,通过直接优化基于人类偏好的 LLM,无需使用直接偏好优化 (DPO) [89] 的奖励模型,从而简化了人类对齐训练。DPO 将对齐过程重新表述为人类感知损失函数 (HALO),该函数在人类偏好数据集上进行了优化,其中提示与偏好和不喜欢的响应配对(图 4)。这种方法对于将 LLM 与人类偏好对齐特别有前景,并且可以应用于序数响应,例如人类评估标准中常见的李克特量表。虽然 PPO 通过将输出与人类偏好对齐来提高 LLM 性能,但它通常样本效率低下,并且可能受到奖励黑客攻击的影响 [90]。相比之下,DPO 直接根据人类偏好优化模型输出,而无需明确的奖励模型,使其更具样本效率,并且与人类价值观更加一致。DPO 通过直接关注期望的结果来简化训练过程,从而实现更稳定和可解释的对齐。虽然这些方法已成功应用于其他领域 [91, 92, 93],但它们在医学领域的应用尚未得到充分探索。为了克服劳动力限制,可以将来自人类评估标准的小规模训练数据纳入使用 DPO 为人体对齐设计的损失函数中。

在过去的一年里,出现了许多用于对齐训练方法的 DPO 变体,这些方法可以通过修改底层模型和损失函数来防止过度拟合和规避 DPO 的建模假设(图 5)。联合偏好优化(JPO)[94] 和简单偏好优化(SimPO)[95] 等替代方法都是从 DPO 衍生而来的。这些方法引入了正则化项并修改了损失函数,以防止过早收敛并确保在更广泛的输入范围内实现更稳健的对齐。其他替代方法,如卡尼曼-特沃斯基优化(KTO)[96] 和多元对齐框架(PAL)[97],使用了 DPO 所依赖的 Bradley-Terry 偏好模型的替代方案。这些方法中使用的替代建模假设可以防止在没有直接偏好数据和异构人类偏好的情况下 DPO 的对齐失效。
在这里插入图片描述

LLM 有望实现自动化评估,但与其他自动化评估方法一样,它也面临着重大挑战。一个主要问题是 LLM 及其相关培训策略的快速发展。这种快速发展往往超过了在实践中使用之前彻底验证基于 LLM 的评估器的能力。在某些情况下,新的优化技术在其前身尚未经过同行评审之前就被引入,而这些进步可能缺乏足够的数学依据。LLM 的发展速度可能使得分配时间和资源进行适当的验证变得困难,这可能会损害其可靠性。

此外,尽管 LLM 取得了进步,但它仍然对收到的提示和输入很敏感。随着 LLM 不断更新和更改其内部知识表示,并且其提示也发生变化,输出可能会有很大差异。所使用的确切 LLM 或模型版本也可能增加另一层可变性。根据 LLM 的内部结构和预训练模式,相同的提示和输入可能会产生不同的结果。LLM 还因自我中心偏见而受到关注,这可能会影响评估,因为越来越多的 LLM 生成的文本出现在源文本中 [112]。因此,使用 LLM 作为评估器必须进行严格的测试和安全检查以降低风险。确保其回应的公平性也至关重要,特别是在医疗保健等敏感领域,偏见或污名化的语言可能会造成严重后果。这些挑战凸显了持续评估、测试和改进的必要性,以使基于 LLM 的评估器既可靠又安全,可用于医疗评估。

在这里插入图片描述

随着 GenAI 的创新速度超过这些技术验证的速度,开发可靠的评估策略变得越来越重要。在医疗保健领域,对临床安全的关注还必须应对医疗专业人员的时间限制。虽然人工评估标准具有高度的可靠性和准确性,但它们受到担任评估员的医疗专业人员所需的时间投入的严重限制。具有讽刺意味的是,被评估的技术通常旨在减轻这些专业人员的认知负担,但他们需要进一步投入时间来进行绩效评估。

如果针对临床领域进行了适当的设计,自动化评估将为人工评估提供一种有希望的替代方案。然而,传统的非 LLM 自动化评估迄今为止还不够,未能始终如一地达到人工评估标准的严格性 [5, 13]。这些指标经常忽略幻觉,无法评估推理质量,并且难以确定生成文本的相关性。随着 LLM 作为人工评估者的潜在替代方案被引入,考虑临床领域的独特要求至关重要。精心设计的 LLM 评估器(即“LLM 法官”)可以将人工评估的高可靠性与自动化方法的效率相结合,同时避免现有自动化指标所存在的缺陷。如果有效执行,这种基于 LLM 的评估可以兼具两者的优点,既能确保临床安全,又不会牺牲评估质量。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

参考文献

[1] Patterson BW, Hekman DJ, Liao FJ, Hamedani AG, Shah MN, Afshar M. Call me Dr Ishmael: trends in electronic health record notes available at emergency department visits and admissions. JAMIA Open. 2024 Apr;7(2):ooae039.

[2] Team G, Georgiev P, Lei VI, Burnell R, Bai L, Gulati A, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. 2024 Aug. ArXiv:2403.05530 [cs]. Available from: arxiv.org/abs/2403.0… .

[3] Zhao WX, Zhou K, Li J, Tang T, Wang X, Hou Y, et al. A Survey of Large Language Models. 2023 Jun. ArXiv:2303.18223 [cs]. Available from: arxiv.org/abs/2303.1… .

[4] Moramarco F, Papadopoulos Korfiatis A, Perera M, Juric D, Flann J, Reiter E, et al. Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation. In: Muresan S, Nakov P, Villavicencio A, editors. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 5739–5754. Available from: aclanthology.org/202… .

[5] Croxford E, Gao Y, Patterson B, To D, Tesch S, Dligach D, et al. Development of a Human Evaluation Framework and Correlation with Automated Metrics for Natural Language Generation of Medical Diagnoses. 2024 Apr:2024.03.20.24304620. Available from: www.medrxiv.org/cont… 1101/2024.03.20.24304620v2 .

[6] Singh H, Khanna A, Spitzmueller C, Meyer AND. Recommendations for using the Revised Safer Dx Instrument to help measure and improve diagnostic safety. Diagnosis. 2019 Nov;6:315–323.

[7] Stetson PD, Bakken S, Wrenn JO, Siegler EL. Assessing Electronic Note Quality Using the Physician Documentation Quality Instrument (PDQI-9). Applied Clinical Informatics. 2012 Apr;3(2):164–174.

[8] Schaye V, Miller L, Kudlowitz D, Chun J, Burk-Rafel J, Cocks P, et al. Development of a Clinical Reasoning Documentation Assessment Tool for Resident and Fellow Admission Notes: a Shared Mental Model for Feedback. Journal of General Internal Medicine. 2022 Feb;37(3):507–512.

[9] Kawamura R, Harada Y, Sugimoto S, Nagase Y, Katsukura S, Shimizu T. Incidence of Diagnostic Errors Among Unexpectedly Hospitalized Patients Using an Automated Medical History–Taking System With a Differential Diagnosis Generator: Retrospective Observational Study. JMIR Medical Informatics. 2022 Jan;10(1):e35225. Company: JMIR Medical Informatics Distributor: JMIR Medical Informatics Institution: JMIR Medical Informatics Label: JMIR Medical Informatics publisher: JMIR Publications Inc., Toronto, Canada.

[10] Tierney AA, Gayre G, Hoberman B, Mattern B, Ballesca M, Kipnis P, et al. Ambient Artificial Intelligence Scribes to Alleviate the Burden of Clinical Documentation. NEJM Catalyst. 2024 [11] Eshel R, Bellolio F, Boggust A, Shapiro NI, Mullan AF, Heaton HA, et al. Comparison of clinical note quality between an automated digital intake tool and the standard note in the emergency department. The American Journal of Emergency Medicine. 2023;63:79–85.

[12] Cabral S, Restrepo D, Kanjee Z, Wilson P, Crowe B, Abdulnour RE, et al. Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Internal Medicine. 2024 May;184(5):581–583.

[13] Sai AB, Mohankumar AK, Khapra MM. A Survey of Evaluation Metrics Used for NLG Systems. ACM Computing Surveys. 2023;55(2).

[14] Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, et al. Large language models encode clinical knowledge. Nature. 2023 Jul:1–9.

[15] Otmakhova Y, Verspoor K, Baldwin T, Lau JH. The patient is more dead than alive: exploring the current state of the multi-document summarisation of the biomedical literature. In: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 5098–5111. Available from: aclanthology.org/202… .

[16] Adams G, Zucker J, Elhadad N. A Meta-Evaluation of Faithfulness Metrics for Long-Form HospitalCourse Summarization. 2023 Mar. ArXiv:2303.03948 [cs]. Available from: arxiv.org/abs/ 2303.03948 .

[17] Guo Y, Qiu W, Wang Y, Cohen T. Automated Lay Language Summarization of Biomedical Scientific Reviews. 2022 Jan. ArXiv:2012.12573 [cs]. Available from: arxiv.org/abs/2012.1… .

[18] Wallace BC, Saha S, Soboczenski F, Marshall IJ. Generating (Factual?) Narrative Summaries of RCTs: Experiments with Neural Multi-Document Summarization; 2020. Available from: https: //arxiv.org/abs/2008.11293v2 .

[19] Abacha AB, Yim Ww, Michalopoulos G, Lin T. An Investigation of Evaluation Metrics for Automated Medical Note Generation. 2023 May. ArXiv:2305.17364 [cs]. Available from: arxiv.org/abs/ 2305.17364 .

[20] Yadav S, Gupta D, Abacha AB, Demner-Fushman D. Reinforcement Learning for Abstractive Question Summarization with Question-aware Semantic Rewards. 2021 Jun. ArXiv:2107.00176 [cs]. Available from: arxiv.org/abs/2107.0… .

[21] Moor M, Huang Q, Wu S, Yasunaga M, Zakka C, Dalmia Y, et al. Med-Flamingo: a Multimodal Medical Few-shot Learner. 2023 Jul. ArXiv:2307.15189 [cs]. Available from: arxiv.org/abs/ 2307.15189 .

[22] Dalla Serra F, Clackett W, MacKinnon H, Wang C, Deligianni F, Dalton J, et al. Multimodal Generation of Radiology Reports using Knowledge-Grounded Extraction of Entities and Relations. In: Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Online only: Association for Computational Linguistics; 2022. p. 615–624. Available from: aclanthology.org/202… .

[23] Cai P, Liu F, Bajracharya A, Sills J, Kapoor A, Liu W, et al. Generation of Patient After-Visit Summaries to Support Physicians. In: Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics; 2022. p. 6234–6247. Available from: aclanthology.org/202… .

[24] Umapathi LK, Pal A, Sankarasubbu M. Med-HALT: Medical Domain Hallucination Test for Large Language Models. 2023 Jul. ArXiv:2307.15343 [cs, stat]. Available from: arxiv.org/abs/ 2307.15343 .

[25] Levenshtein VI. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady. 1966 Feb;10:707.

[26] Gao Y, Dligach D, Miller T, Tesch S, Laffin R, Churpek MM, et al. Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding. In: Calzolari N, B´ echet F, Blache P, Choukri K, Cieri C, Declerck T, et al., editors. Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association; 2022. p. 5484–5493. Available from: aclanthology.org/202… .

[27] Goldsack T, Scarton C, Shardlow M, Lin C. Overview of the BioLaySumm 2024 Shared Task on the Lay Summarization of Biomedical Research Articles. In: Demner-Fushman D, Ananiadou S, Miwa M, Roberts K, Tsujii J, editors. Proceedings of the 23rd Workshop on Biomedical Natural Language Processing. Bangkok, Thailand: Association for Computational Linguistics; 2024. p. 122–131. Available from: aclanthology.org/202… .

[28] Gupta D, Demner-Fushman D. Overview of the MedVidQA 2022 Shared Task on Medical Video Question-Answering. In: Demner-Fushman D, Cohen KB, Ananiadou S, Tsujii J, editors. Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin, Ireland: Association for Computational Linguistics; 2022. p. 264–274. Available from: aclanthology.org/202… .

[29] Lin CY. ROUGE: A Package for Automatic Evaluation of Summaries. In: Text Summarization Branches Out. Barcelona, Spain: Association for Computational Linguistics; 2004. p. 74-81. Available from: aclanthology.org/W04… .

[30] Zhang T, Kishore V, Wu F, Weinberger KQ, Artzi Y. BERTScore: Evaluating Text Generation with BERT. 2020 Feb. ArXiv:1904.09675 [cs]. Available from: arxiv.org/abs/1904.0… .

[31] Devlin J, Chang MW, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019 May. ArXiv:1810.04805 [cs]. Available from: arxiv.org/ abs/1810.04805 .

[32] Banerjee S, Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In: Goldstein J, Lavie A, Lin CY, Voss C, editors. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor, Michigan: Association for Computational Linguistics; 2005. p. 65–72. Available from: aclanthology.org/W05… .

[33] Louis A, Nenkova A. Automatically Assessing Machine Summary Content Without a Gold Standard. Computational Linguistics. 2013 Jun;39(2):267–300.

[34] Vedantam R, Zitnick CL, Parikh D. CIDEr: Consensus-based image description evaluation. In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE; 2015. p. 4566–4575. Available from: ieeexplore.ieee.org/… .

[35] Gao Y, Sun C, Passonneau RJ. Automated Pyramid Summarization Evaluation. 2019.

[36] Papineni K, Roukos S, Ward T, Zhu WJ. BLEU: a method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. ACL ’02. USA: Association for Computational Linguistics; 2002. p. 311–318. Available from: https: //doi.org/10.3115/1073083.1073135 .

[37] Cohan A, Goharian N. Revisiting Summarization Evaluation for Scientific Articles. 2016.

[38] Lin J, Demner-Fushman D. Automatically Evaluating Answers to Definition Questions. In: Mooney R, Brew C, Chien LF, Kirchhoff K, editors. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Vancouver, British Columbia, Canada: Association for Computational Linguistics; 2005. p. 931–938. Available from: https:// aclanthology.org/H05-1117 .

[39] Hovy E, Lin CY, Zhou L, Fukumoto J. Automated Summarization Evaluation with Basic Elements. In: Calzolari N, Choukri K, Gangemi A, Maegaard B, Mariani J, Odijk J, et al., editors. Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06). Genoa, Italy: European Language Resources Association (ELRA); 2006. Available from: www.lrec-conf. org/proceedings/lrec2006/pdf/438_pdf.pdf .

[40] Turian JP, Shen L, Melamed ID. Evaluation of machine translation and its evaluation. In: Proceedings of Machine Translation Summit IX: Papers. New Orleans, USA; 2003. Available from: https:// aclanthology.org/2003.mtsummit-papers.51 .

[41] Su KY, Wu MW, Chang JS. A New Quantitative Quality Measure for Machine Translation Systems. In: COLING 1992 Volume 2: The 14th International Conference on Computational Linguistics; 1992. Available from: aclanthology.org/C92… .

[42] Snover M, Dorr B, Schwartz R, Micciulla L, Makhoul J. A Study of Translation Edit Rate with Targeted Human Annotation. In: Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers. Cambridge, Massachusetts, USA: Association for Machine Translation in the Americas; 2006. p. 223–231. Available from: aclanthology.org/ 2006.amta-papers.25 .

[43] Panja J, Naskar SK. ITER: Improving Translation Edit Rate through Optimizable Edit Costs. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels: Association for Computational Linguistics; 2018. p. 746–750. Available from: aclanthology.org/W18… .

[44] Leusch G, Ueffing N, Ney H. CDER: Efficient MT Evaluation Using Block Movements. In: McCarthy D, Wintner S, editors. 11th Conference of the European Chapter of the Association for Computational Linguistics. Trento, Italy: Association for Computational Linguistics; 2006. p. 241–248. Available from: aclanthology.org/E06… .

[45] Popovi´ c M. chrF: character n-gram F-score for automatic MT evaluation. In: Bojar O, Chatterjee R, Federmann C, Haddow B, Hokamp C, Huck M, et al., editors. Proceedings of the Tenth Workshop on Statistical Machine Translation. Lisbon, Portugal: Association for Computational Linguistics; 2015. p. 392–395. Available from: aclanthology.org/W15… .

[46] Wang W, Peter JT, Rosendahl H, Ney H. CharacTer: Translation Edit Rate on Character Level. In: Bojar O, Buck C, Chatterjee R, Federmann C, Guillou L, Haddow B, et al., editors. Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers. Berlin, Germany: Association for Computational Linguistics; 2016. p. 505–510. Available from: https://aclanthology. org/W16-2342 .

[47] Stanchev P, Wang W, Ney H. EED: Extended Edit Distance Measure for Machine Translation. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics; 2019. p. 514–520. Available from: https://aclanthology. org/W19-5359 .

[48] Lo Ck. YiSi - a Unified Semantic MT Quality Evaluation and Estimation Metric for Languages with Different Levels of Available Resources. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1). Florence, Italy: Association for Computational Linguistics; 2019. p. 507–513. Available from: aclanthology.org/W19… .

[49] Nema P, Khapra MM. Towards a Better Metric for Evaluating Question Generation Systems. In: Riloff E, Chiang D, Hockenmaier J, Tsujii J, editors. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics; 2018. p. 3950–3959. Available from: aclanthology.org/D18… .

[50] Gao Y, Dligach D, Miller T, Xu D, Churpek MM, Afshar M. Summarizing Patients Problems from Hospital Progress Notes Using Pre-trained Sequence-to-Sequence Models. 2022 Sep. ArXiv:2208.08408 [cs]. Available from: arxiv.org/abs/2208.0… .

[51] Rei R, Stewart C, Farinha AC, Lavie A. COMET: A Neural Framework for MT Evaluation. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online: Association for Computational Linguistics; 2020. p. 2685–2702. Available from: https:// aclanthology.org/2020.emnlp-main.213 .

[52] Sellam T, Das D, Parikh AP. BLEURT: Learning Robust Metrics for Text Generation. 2020 May. ArXiv:2004.04696 [cs]. Available from: arxiv.org/abs/2004.0… .

[53] Lin Z, Liu C, Ng HT, Kan MY. Combining Coherence Models and Machine Translation Evaluation Metrics for Summarization Evaluation. In: Li H, Lin CY, Osborne M, Lee GG, Park JC, editors. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Jeju Island, Korea: Association for Computational Linguistics; 2012. p. 1006–1014. Available from: aclanthology.org/P12… .

[54] Stanojevi´ c M, Sima’an K. Fitting Sentence Level Translation Evaluation with Many Dense Features. In: Moschitti A, Pang B, Daelemans W, editors. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics; 2014. p. 202–206. Available from: aclanthology.org/D14… .

[55] Ma Q, Graham Y, Wang S, Liu Q. Blend: a Novel Combined MT Metric Based on Direct Assessment — CASICT-DCU submission to WMT17 Metrics Task. In: Bojar O, Buck C, Chatterjee R, Federmann C, Graham Y, Haddow B, et al., editors. Proceedings of the Second Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics; 2017. p. 598–603. Available from: aclanthology.org/W17… .

[56] Sharif N, White L, Bennamoun M, Ali Shah SA. Learning-based Composite Metrics for Improved Caption Evaluation. In: Shwartz V, Tabassum J, Voigt R, Che W, de Marneffe MC, Nissim M, editors. Proceedings of ACL 2018, Student Research Workshop. Melbourne, Australia: Association for Computational Linguistics; 2018. p. 14–20. Available from: aclanthology.org/P18… .

[57] Chen Q, Zhu X, Ling ZH, Wei S, Jiang H, Inkpen D. Enhanced LSTM for Natural Language Inference. In: Barzilay R, Kan MY, editors. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada: Association for Computational Linguistics; 2017. p. 1657–1668. Available from: aclanthology.org/P17… .

[58] Shimanaka H, Kajiwara T, Komachi M. RUSE: Regressor Using Sentence Embeddings for Automatic Machine Translation Evaluation. In: Bojar O, Chatterjee R, Federmann C, Fishel M, Graham Y, Haddow B, et al., editors. Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels: Association for Computational Linguistics; 2018. p. 751–758. Available from: aclanthology.org/W18… .

[59] Shimanaka H, Kajiwara T, Komachi M. Machine Translation Evaluation with BERT Regressor. 2019 Jul. ArXiv:1907.12679 [cs]. Available from: arxiv.org/abs/1907.1… .

[60] Zhang S, Liu Y, Meng F, Chen Y, Xu J, Liu J, et al. Conditional Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation. In: Muresan S, Nakov P, Villavicencio A, editors. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Dublin, Ireland: Association for Computational Linguistics; 2022. p. 2377–2389. Available from: aclanthology.org/202… .

[61] Doddington G. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. In: Proceedings of the second international conference on Human Language Technology Research -. San Diego, California: Association for Computational Linguistics; 2002. p. 138. Available from: portal.acm.org/citat… .

[62] Zhao W, Peyrard M, Liu F, Gao Y, Meyer CM, Eger S. MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance. In: Inui K, Jiang J, Ng V, Wan X, editors. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics; 2019. p. 563–578. Available from: https: //aclanthology.org/D19-1053 .

[63] Giannakopoulos G, Karkaletsis V. AutoSummENG and MeMoG in Evaluating Guided Summaries. 2011.

[64] Anderson P, Fernando B, Johnson M, Gould S. SPICE: Semantic Propositional Image Caption Evaluation. In: Leibe B, Matas J, Sebe N, Welling M, editors. Computer Vision – ECCV 2016. Cham: Springer International Publishing; 2016. p. 382–398.

[65] Mathur N, Baldwin T, Cohn T. Putting Evaluation in Context: Contextual Embeddings Improve Machine Translation Evaluation. In: Korhonen A, Traum D, M` arquez L, editors. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics; 2019. p. 2799–2808. Available from: aclanthology.org/ P19-1269 .

[66] Echizen’ya H, Araki K, Hovy E. Word Embedding-Based Automatic MT Evaluation Metric using Word Position Information. In: Burstein J, Doran C, Solorio T, editors. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics; 2019. p. 1874–1883. Available from: aclanthology.org/ N19-1186 .

[67] Kusner M, Sun Y, Kolkin N, Weinberger K. From Word Embeddings To Document Distances. In: Proceedings of the 32nd International Conference on Machine Learning. PMLR; 2015. p. 957–966. Available from: proceedings.mlr.pres… .

[68] Wieting J, Berg-Kirkpatrick T, Gimpel K, Neubig G. Beyond BLEU: Training Neural Machine Translation with Semantic Similarity. In: Korhonen A, Traum D, M` arquez L, editors. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics; 2019. p. 4344–4355. Available from: aclanthology.org/P19… .

[69] Kane H, Kocyigit MY, Abdalla A, Ajanoh P, Coulibali M. NUBIA: NeUral Based Interchange ability Assessor for Text Generation. 2020 May. ArXiv:2004.14667 [cs]. Available from: arxiv.org/ abs/2004.14667 .

[70] Liu F, Shareghi E, Meng Z, Basaldella M, Collier N. Self-Alignment Pretraining for Biomedical Entity Representations. In: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online: Association for Computational Linguistics; 2021. p. 4228-38. Available from: www.aclweb.org/antho… 2021.naacl-main.334 .

[71] Alsentzer E, Murphy JR, Boag W, Weng W, Jin D, Naumann T, et al. Publicly Available Clinical BERT Embeddings. CoRR. 2019;abs/1904.03323. Available from: arxiv.org/abs/1904.0… .

[72] Gu Y, Tinn R, Cheng H, Lucas M, Usuyama N, Liu X, et al… Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing; 2020.

[73] Delbrouck JB. UMLS Scorer; 2023. Available from: storage.googleapis.c… vilmedic{_}dataset/packages/medcon/UMLSScorer.zip .

[74] Yuan W, Neubig G, Liu P. BARTScore: Evaluating Generated Text as Text Generation. 2021 Oct. ArXiv:2106.11520 [cs]. Available from: arxiv.org/abs/2106.1… .

[75] Son S, Park J, Hwang Ji, Lee J, Noh H, Lee Y. HaRiM+: Evaluating Summary Quality with Hallucination Risk. 2022.

[76] Akter M, Bansal N, Karmaker SK. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? In: Findings of the Association for Computational Linguistics: ACL 2022. Dublin, Ireland: Association for Computational Linguistics; 2022. p. 1547–1560. Available from: aclanthology.org/202… .

[77] Aracena C, Villena F, Rojas M, Dunstan J. A Knowledge-Graph-Based Intrinsic Test for Benchmarking Medical Concept Embeddings and Pretrained Language Models. 2022.

[78] Lewis M, Liu Y, Goyal N, Ghazvininejad M, Mohamed A, Levy O, et al. BART: Denoising Sequenceto-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In: Jurafsky D, Chai J, Schluter N, Tetreault J, editors. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics; 2020. p. 7871–7880. Available from: aclanthology.org/202… .

[79] Lindberg DA MA Humphreys BL. The Unified Medical Language System. Yearb Med Inform. 1993;1(4):41-51.

[80] Liu F, Shareghi E, Meng Z, Basaldella M, Collier N. Self-Alignment Pretraining for Biomedical Entity Representations. In: Toutanova K, Rumshisky A, Zettlemoyer L, Hakkani-Tur D, Beltagy I, Bethard S, et al., editors. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Online: Association for Computational Linguistics; 2021. p. 4228–4238. Available from: aclanthology.org/202… .

[81] Christiano P, Leike J, Brown TB, Martic M, Legg S, Amodei D. Deep reinforcement learning from human preferences; 2017. Available from: arxiv.org/abs/1706.0… .

[82] OpenAI, Achiam J, Adler S, Agarwal S, Ahmad L, Akkaya I, et al. GPT-4 Technical Report. 2024 Mar. ArXiv:2303.08774 [cs]. Available from: arxiv.org/abs/2303.0… .

[83] Zheng L, Chiang WL, Sheng Y, Zhuang S, Wu Z, Zhuang Y, et al. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. 2023 Dec. ArXiv:2306.05685 [cs]. Available from: http://arxiv. org/abs/2306.05685 .

[84] Lester B, Al-Rfou R, Constant N. The Power of Scale for Parameter-Efficient Prompt Tuning. In: Moens MF, Huang X, Specia L, Yih SWt, editors. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics; 2021. p. 3045–3059. Available from: aclanthology.org/ 2021.emnlp-main.243 .

[85] Dettmers T, Pagnoni A, Holtzman A, Zettlemoyer L. QLoRA: Efficient Finetuning of Quantized LLMs. 2023 May. ArXiv:2305.14314 [cs]. Available from: arxiv.org/abs/2305.1… .

[86] Hu EJ, Shen Y, Wallis P, Allen-Zhu Z, Li Y, Wang S, et al. LoRA: Low-Rank Adaptation of Large Language Models. 2021 Oct. ArXiv:2106.09685 [cs]. Available from: arxiv.org/abs/2106. 09685 .

[87] Ziegler DM, Stiennon N, Wu J, Brown TB, Radford A, Amodei D, et al… Fine-Tuning Language Models from Human Preferences; 2019. Available from: arxiv.org/abs/1909.0… .

[88] Schulman J, Wolski F, Dhariwal P, Radford A, Klimov O. Proximal Policy Optimization Algorithms. 2017 Aug. ArXiv:1707.06347 [cs]. Available from: arxiv.org/abs/1707.0… .

[89] Rafailov R, Sharma A, Mitchell E, Ermon S, Manning CD, Finn C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. 2023 May. ArXiv:2305.18290 [cs]. Available from: arxiv.org/abs/2305.1… .

[90] Wen J, Zhong R, Khan A, Perez E, Steinhardt J, Huang M, et al. Language Models Learn to Mislead Humans via RLHF. 2024 Sep. ArXiv:2409.12822 [cs]. Available from: arxiv.org/abs/2409. 12822 .

[91] Cao X, Xu W, Zhao J, Duan Y, Yang X. Research on Large Language Model for Coal Mine Equipment Maintenance Based on Multi-Source Text. APPLIED SCIENCES-BASEL. 2024 Apr;14(7).

[92] Iqbal S, Mehran K, IEEE. Reinforcement Learning Based Optimal Energy Management of A Microgrid; 2022. .

[93] Sun Z, Zhou Y, Hao J, Fan X, Lu Y, Ma C, et al. Improving Contextual Query Rewrite for Conversational AI Agents through User-preference Feedback Learning. In: Wang M, Zitouni I, editors. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track. Singapore: Association for Computational Linguistics; 2023. p. 432–439. Available from: aclanthology.org/202… .

[94] Bansal H, Suvarna A, Bhatt G, Peng N, Chang KW, Grover A. Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization. 2024 Mar. ArXiv:2404.00530 [cs]. Available from: arxiv.org/abs/2404.0… .

[95] Meng Y, Xia M, Chen D. SimPO: Simple Preference Optimization with a Reference-Free Reward. 2024 May. ArXiv:2405.14734 [cs]. Available from: arxiv.org/abs/2405.1… .

[96] Ethayarajh K, Xu W, Muennighoff N, Jurafsky D, Kiela D. KTO: Model Alignment as Prospect Theoretic Optimization. 2024 Jun. ArXiv:2402.01306. Available from: arxiv.org/abs/2402. 01306 .

[97] Rosset C, Cheng CA, Mitra A, Santacroce M, Awadallah A, Xie T. Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences. 2024 Apr. ArXiv:2404.03715 [cs]. Available from: arxiv.org/abs/2404.0… .

[98] Liu T, Zhao Y, Joshi R, Khalman M, Saleh M, Liu PJ, et al. Statistical Rejection Sampling Improves Preference Optimization. 2024 Jan. ArXiv:2309.06657 [cs]. Available from: arxiv.org/abs/ 2309.06657 .

[99] Azar MG, Rowland M, Piot B, Guo D, Calandriello D, Valko M, et al. A General Theoretical Paradigm to Understand Learning from Human Preferences. 2023 Nov. ArXiv:2310.12036 [cs, stat]. Available from: arxiv.org/abs/2310.1… .

[100] Mitchell E. A note on DPO with noisy preferences and relationship to IPO; 2023. V1.1.

[101] Hong J, Lee N, Thorne J. ORPO: Monolithic Preference Optimization without Reference Model. 2024 Mar. ArXiv:2403.07691 [cs]. Available from: arxiv.org/abs/2403.0… .

[102] Chowdhury SR, Kini A, Natarajan N. Provably Robust DPO: Aligning Language Models with Noisy Feedback. 2024 Apr. ArXiv:2403.00409 [cs]. Available from: arxiv.org/abs/2403.0… .

[103] Jung S, Han G, Nam DW, On KW. Binary Classifier Optimization for Large Language Model Alignment. 2024 Apr. ArXiv:2404.04656 [cs]. Available from: arxiv.org/abs/2404.0… .

[104] Gorbatovski A, Shaposhnikov B, Malakhov A, Surnachev N, Aksenov Y, Maksimov I, et al. Learn Your Reference Model for Real Good Alignment. 2024 May. ArXiv:2404.09656 [cs]. Available from: arxiv.org/abs/2404.0… .

[105] Xu H, Sharaf A, Chen Y, Tan W, Shen L, Van Durme B, et al. Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation. 2024 Jun. ArXiv:2401.08417 [cs]. Available from: arxiv.org/abs/2401.0… .

[106] Wu Y, Sun Z, Yuan H, Ji K, Yang Y, Gu Q. Self-Play Preference Optimization for Language Model Alignment. 2024 Jun. ArXiv:2405.00675 [cs, stat]. Available from: arxiv.org/abs/2405. 00675 .

[107] Ji H, Lu C, Niu Y, Ke P, Wang H, Zhu J, et al. Towards Efficient Exact Optimization of Language Model Alignment. 2024 Jun. ArXiv:2402.00856 [cs]. Available from: arxiv.org/abs/2402.0… .

[108] Melnyk I, Mroueh Y, Belgodere B, Rigotti M, Nitsure A, Yurochkin M, et al. Distributional Preference Alignment of LLMs via Optimal Transport. 2024 Jun. ArXiv:2406.05882 [cs, stat]. Available from: arxiv.org/abs/2406.0… .

[109] Pang RY, Yuan W, Cho K, He H, Sukhbaatar S, Weston J. Iterative Reasoning Preference Optimization. 2024 Jun. ArXiv:2404.19733 [cs]. Available from: arxiv.org/abs/2404.1… .

[110] Chen H, He G, Yuan L, Cui G, Su H, Zhu J. Noise Contrastive Alignment of Language Models with Explicit Rewards. 2024 Jul. ArXiv:2402.05369 [cs]. Available from: arxiv.org/abs/2402. 05369 .

[111] Zhong H, Feng G, Xiong W, Cheng X, Zhao L, He D, et al. DPO Meets PPO: Reinforced Token Optimization for RLHF. 2024 Jul. ArXiv:2404.18922 [cs, stat]. Available from: arxiv.org/ abs/2404.18922 .

[112] Koo R, Lee M, Raheja V, Park JI, Kim ZM, Kang D. Benchmarking Cognitive Biases in Large Language Models as Evaluators. 2024 Aug. ArXiv:2309.17012 [cs]. Available from: http://arxiv. org/abs/2309.17012 .

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/887888.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32PWM应用

目录 一、输出比较(OC) 二、PWM: 1、简介 2、基本结构 3、参数计算 三、PWM驱动LED呼吸灯 1、代码 四、PWM驱动Sg90舵机 1、工作原理 2、完整代码 五、PWM驱动直流电机 1、TB6612芯片模块 2、完整代码: 一、输出比较(OC) OC(Outp…

智能医疗:Spring Boot医院管理系统开发

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

【Python】PDFMiner.six:高效处理PDF文档的Python工具

PDF是一种广泛使用的文件格式,特别适用于呈现固定布局的文档。然而,提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们,其中,PDFMiner.six 是一个功能强大、专门用于PDF文档解析的库。 ⭕️宇宙起点 &a…

cnn突破四(生成卷积核与固定核对比)

cnn突破三中生成四个卷积核,训练6万次,91分,再训练6万次,95分,不是很满意,但又找不到问题点,所以就想了个办法,使用三个固定核,加上三层bpnet神经网络,看看效…

王道-数据结构

1 设数组data[m]作为循环队列的存储空间,front为队头指针,rear为队尾指针,则执行出队操作后其头指针front值为____ 答案:D 解析:队列的头指针指向队首元素的实际位置,因此出队操作后,头指针需向上移动一个元素的位置。循环队列的容量为m,所以头指针front加1以后,需…

【d60】【Java】【力扣】509. 斐波那契数

思路 要做的问题:求F(n), F(n)就等于F(n-1)F(n-2),要把这个F(n-1)F(n-2)当作常量,已经得到的值, 结束条件:如果是第1 第2 个数字的时候,没有n-1和n-2,所以…

闯关训练三:Git 基础知识

任务1: 破冰活动:自我介绍 点击Fork目标项目,创建一个新的Fork 获取仓库链接 在连接好开发机的vscode终端中逐行执行以下代码: git clone https://github.com/KelvinIII/Tutorial.git # 修改为自己frok的仓库 cd Tutorial/ git branch -a g…

4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1

目录 前序工作 1. 服务器项目名和本地一致 2. pycharm连接服务器 3. 本地项目对应到服务器项目 4. 简单测试一下同步效果 同步成功 前序工作 在同步到服务器之前,得确保已经完成以下几个前置步骤: 1. 租一个云服务器,可参考&#xff1a…

18734 拓扑排序

### 思路 1. **建模问题**:将课程和依赖关系建模为有向图,其中课程是节点,依赖关系是有向边。 2. **选择算法**:使用拓扑排序算法来确定课程的学习顺序。由于需要确保输出唯一性,同等条件下编号小的课程排在前面&…

WDG看门狗在stm32中的应用

一,WDG看门狗的介绍 看门狗可以监控程序的运行状态,当程序因为设计漏洞、硬件故障、电磁干扰等原因,出现卡死或跑飞现象时,看门狗能及时复位程序,避免程序陷入长时间的罢工状态,保证系统的可靠性和安全性看…

2-114 基于matlab的CA模型

基于matlab的CA模型,Singer模型对单机动目标进行跟踪算法,具有10页实验文档。采用蒙特卡罗方法对一个二坐标雷达对一平面上运动的目标进行观测,得到跟踪滤波结果。程序已调通,可直接运行。 下载源程序请点链接:2-114 …

libcurl网络协议库使用Demo

目录 1 libcurl简介 2 libcurl编译 3 使用步骤 4 函数说明 4.1 全局初始化函数 curl_global_init 4.2 全局释放函数 curl_global_cleanup 4.3 libcurl库版本 curl_version 4.4 开启会话 curl_easy_init 4.5 结束会话 curl_easy_cleanup 4.6 设置传输选项 curl_easy_se…

Stable Diffusion绘画 | 插件-Deforum:动态视频生成(中篇)

本篇文章重点讲解参数最多的 关键帧 模块。 「动画模式」选择「3D」: 下方「运动」Tab 会有一系列参数: 以下4个参数,只有「动画模式」选择「2D」才会生效,可忽略: 运动 平移 X 让镜头左右移动: 大于0&a…

Seata学习

系列文章目录 JavaSE基础知识、数据类型学习万年历项目代码逻辑训练习题代码逻辑训练习题方法、数组学习图书管理系统项目面向对象编程:封装、继承、多态学习封装继承多态习题常用类、包装类、异常处理机制学习集合学习IO流、多线程学习仓库管理系统JavaSE项目员工…

华为eNSP:端口隔离

一,什么是端口隔离 端口隔离是一种网络配置技术,用于将不同的网络设备或用户隔离在不同的虚拟局域网(VLAN)中,以实现网络流量的隔离和安全性提升。通过在交换机或路由器上配置端口隔离,可以将连接到同一设…

【机器学习-无监督学习】概率图模型

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…

在VS code 中部署C#和avalonia开发环境

要在 Mac 的 VS Code 中配置 C# 和 Avalonia 的开发环境,您可以按照以下步骤进行: 1. 安装 .NET SDK 下载 .NET SDK: 访问 .NET 下载页面。选择适用于 macOS 的最新稳定版本的 .NET SDK,并下载安装程序。安装 .NET SDK&#xff1…

VSCode | 设置Jupyter Notebook显示行号

vscode中的jupyter notebook每个cell都是默认不显示行号的,如果出现了报错,比如在52行出现报错,如果代码多的话不显示行号就有点麻烦,本文介绍如何设置显示行号。 1、VScode点击文件-首选项-设置 2、搜索“python”,点…

约数个数约数之和

好久没发文章了.......不过粉丝还是一个没少...... 今天来看两道超级恶心的数论题目! No.1 约数个数 No.2 约数之和 先来看第一道:约数个数 题目描述 给定 n 个正整数 ai​,请你输出这些数的乘积的约数个数,答案对 10^97 取模 输入格式 第一行包含…

cherry-markdown开源markdown组件详细使用教程

文章目录 前言开发定位目标调研技术方案前提工作量安排数据库表设计实现步骤1、引入依赖2、实现cherry-markdown的vue组件(修改上传接口路径)3、支持draw.io组件4、支持展示悬浮目录toc前端使用:编辑状态使用cherry-markdown的vue组件前端使用…