PARETO PROMPT OPTIMIZATION

题目

帕累托提示优化
在这里插入图片描述

论文地址:https://openreview.net/forum?id=HGCk5aaSvE

摘要

    自然语言迅速优化或及时工程已成为一种强大的技术,可以解锁大型语言模型(LLMS)的各种任务的潜力。尽管现有方法主要集中于最大化LLM输出的单一特定任务性能指标,但现实世界中的应用程序通常需要考虑多个目标之间的权衡。在这项工作中,我们通过提出一种针对LLM的多目标提示优化的有效技术来解决此限制。具体而言,我们提出了甲状腺酸占据,这是一种增强学习方法(RL)方法,该方法利用提示之间的优势关系来推导策略模型,以使用基于首选项的损失功能来提示优化。通过利用多目标优势关系,ParetoPrompt可以有效探索整个Pareto前沿,而无需对多个目标的预定标量化。我们的实验结果表明,核孔始终优于使用特定目标值的现有算法。当训练和测试之间的客观指标有所不同时,甲状腺洞穴也会产生强大的性能。

引言

    大语模型(LLM)的进步由于其在各种自然语言处理(NLP)任务中的出色功能而引起了极大的兴趣。提示,一种利用自然语言前缀或上下文来指导LLM完成所需任务的方法,使我们能够在不重新训练LLM的情况下利用LLMS的功能(Wei等,2022; Wen等,2024; Reynolds; Reynolds&McDonell,2021)。但是,制作有效提示通常需要大量的手动努力,这需要在LLM和特定任务领域的专业知识(Wang等,2024)。

    提示优化作为一个强大的解决方案出现,利用算法自动搜索最佳提示。这些算法包括各种技术,例如基于梯度的优化(Wen等,2024),增强学习(RL)(Deng等,2022; Zhang等,2022),进化算法,进化算法(Zhou等,2022),Beam Search(Beam Search(Pryzant等,20223)和20222222022222。这些方法通常会制定迅速优化,旨在优化单个选择的性能指标,例如准确性或流利度。但是,在现实世界中,迅速的有效性通常涉及多个目标之间的权衡。例如,为文本样式转换设计的提示可能需要平衡样式的一致性与内容准确性,而列举事实主题的提示可能需要考虑信息性和简洁性。

    与单瞄准式公式(Wen等,2024)不同,我们可以在多个相互冲突的目标中获得明确的“最佳”提示,在多目标提示优化问题中,没有一个提示同时在所有目标中脱颖而出。取而代之的是,我们的目标是从所谓的帕累托阵线中提示一组提示,这代表了这些目标之间最好的权衡。要搜索并最大程度地覆盖Pareto前端,优化算法 - 包括RL或进化算法通常使用指标函数或奖励功能来评估提示的质量。这些解决方案策略将多目标性能转化为单个值,该值反映了一组提示的好处主导区域的超量(Baumann&Kramer,2024)和多个目标的产物(Jafari等,2024)。以临时方式引入这些指标/奖励功能有助于指导促使帕累托阵线。但这也对目标之间的权衡提出了严格的假设,这过度简化了文本生成所涉及的细微偏好。例如,目标的加权总和假定目标与权重之间的线性权衡是预定的。尽管S-Metric在目标空间的所有区域都假定均匀的偏好。文本生成的某些目标可以通过各种指标来衡量,例如流利性或语法性,每种都可能具有非线性关系。前面提到的加权总和和S-Metric无法捕获这些复杂性,因为它们忽略了通过不同指标评估相同目标而产生的不同偏好的可能性。

    在这项研究中,我们建议通过比较基于多目标问题的基本原理的提示对来指导及时搜索,而不是使用标量指标来描述提示的多目标性能。具体而言,如果一个提示在另一个提示中占主导地位,则将主导提示视为更可取。相反,如果一对提示不互相占主导地位,那么我们就不会优先考虑一个提示。这种方法忽略了提示的特定目标值。虽然丢弃特定值似乎会降低算法的有效性,但两个关键因素激发了我们的方法。首先,在语言生成任务中,对绝对客观值的准确和可靠的评估通常不可用或不可靠。另一方面,相对偏好在处理评估目标中固有的模糊性方面更容易获得和强大。其次,使用优势关系避免对目标的基础结构施加假设。这也消除了需要假设目标,跨区域均匀偏好或参考点引入的偏见的添加贡献。

    基于这些动机,我们提出了Paretoprompt,这是一种由基于偏好的RL驱动的新型多目标及时优化方法。在我们的表述中,提示是由策略模型生成的。在每次迭代期间,算法对相同的输入实例的提示对进行了示例并比较其优势关系,然后相应地更新策略模型。该算法可以与各种基于RL的及时生成方法相结合,例如从语言模型(Deng等,2022; Wu等,2022)或使用RL训练的编辑剂(Zhang等人,2022年)。我们已经进行了比较核刺激与竞争基线进行比较的实验。我们的结果清楚地表明,尽管仅基于优势关系,但比起依靠特定目标值的算法,核孔的表现更好或可比性。此外,即使训练指标与测试过程中使用的评估指标有所不同,我们的方法也证明了稳健的性能。我们实施的代码可在https://github.com/guangzhao27/paretoprompt上找到。

相关工作

    我们首先回顾了有关LLM的迅速优化和多目标优化的现有研究,包括有关直接偏好优化的最新工作(DPO)。

提示优化

    提示已成为指导LLMS在NLP域内特定任务的普遍方法。软提示技术需要访问潜在的嵌入式,从而将其适用性限制在封闭源LLM中(Li&Liang,2021)。自然语言提示优化利用优化算法生成有效的文本提示,而无需修改LLM参数(Wen等,2024; Deng等,2022; Zhang等,2022; Zhou等,2022; Pryzant等,2023; Sun等,2023)。例如,Lin等人(2024)学习了一个对人类偏好数据训练的奖励模型,然后优化奖励模型以找到最佳提示。 Fernando等(2023); Guo等(2023)采用进化算法进行单目标及时优化。但是,这些作品中的大多数都集中在单目标优化配方上。

对语言模型的多目标优化

    探索了多目标优化的字段,以迅速优化和LLM微调。 Baumann&Kramer(2024)提出了一种进化算法(EA),其中LLM在优化过程中对提示进行“交叉”和“突变”操作。贾法里等(2024)适用于使用RL的多目标提示优化的各种标量奖励函数(例如,超量指标,预期乘积)。 Jang等人(2023年)通过训练单独的策略模型并将其参数合并为个性化的偏好,引入了一种用于多个目标的微调LLM的方法。 Zhou等人(2023)提出的多目标直接优先优化(MODPO),一种无RL的算法扩展了具有多维偏好的数据集的直接偏好优化(DPO)。他们优先使用权重向量的偏好,并获得了多目标偏好奖励功能。我们的工作通过利用迅速对之间的优势偏好信号来区分自己与以前的努力,避免了对预定义的标量指标或奖励函数的需求,这些函数通常会引入目标的临时假设。

直接偏好优化DPO(Rafailov等,2024)

    为您提供了用于微调预训练的语言模型的RL的替代方案。它直接利用人类的偏好数据进行更新,而不是训练像从人类反馈(RLHF)学习的奖励模型一样。 Azar等人(2024)提出的身份偏好优化(IPO)是DPO的概括,它取代了与Bradley-Terry模型(Bradley&Terry,1952年)相关的非降低函数,具有身份函数,可缓解DPO中过度拟合的问题。及时的优化问题与DPO微调问题不同。

    提示优化取决于使用的特定任务和语言模型,从而导致缺乏广泛接受的一般提示数据集进行及时优化。因此,我们采用RL方法与特定于任务的语言模型进行互动,从而使我们能够学习特定问题的最有效提示。我们的工作利用DPO/IPO奖励功能在多目标优化框架中用于优势偏好数据。

在这里插入图片描述
图1: ParetoPrompt迭代:ParetoPrompt训练策略模型为实例x生成不同的“Pareto最优”提示。在每次迭代中,策略模型对一对提示进行采样。基于它们输出的支配关系,计算支配或非支配损失,用于更新策略模型。

Pareto提示优化

    我们现在呈现甲状腺胶合膜(图1),以便及时优化,旨在覆盖具有预训练的LLM的多目标NLP任务的相应帕累托正面。

多目标提示优化

    我们考虑生成帕累托最优提示的问题,以改善特定于任务的LLM的期望响应,表示为t。给定输入实例x,其可以是评论、查询或代码,我们的目标是设计提示,以指导特定于任务的LLM生成高质量响应y。实现高质量响应y可能涉及多个目标,有时是相互冲突的目标。将这些目标表示为O(x,y) = [o1(x,y),…,on(x,y)],其中每个元素oi(x,y)代表特定的质量指标,如相关性、流畅性和/或创造性。这些度量可以使用各种技术自动估计,例如基于BLEU分数、语法错误率和语义距离,或者由另一个LLM评估(Zhang等人,2023)。

    我们的目标是训练一个策略模型ωθ,使用RL来生成接近帕累托前沿的提示。策略模型接受输入x并以概率πθ(z|x)生成相应的提示z。这里,提示z指的是提供给特定于任务的LLM的文本,以生成响应y = T(z)。这包括指令或查询以及在模型生成输出之前提供的任何上下文。最简单的提示形式包括在输入x前添加前缀文本标记(Deng et al,2022)。如果不存在可以在不降低至少一个其他目标的情况下改善O(x,y)中的一个目标的其他提示,则提示z被认为是“帕累托最优的”。

    数学上,对于两个提示z1和z2,如果O(x,T(z1)) ⪯ O(x,T(z2))和O(x,T(z1)) ̸= O(x,T(z2)),那么z1被z2“帕累托支配”。因此,如果一个提示不受任何其他提示支配,它就是“帕累托最优”的。找到这样的提示允许我们获得考虑多个冲突目标的最佳折衷提示。

    帕累托前沿表示所有帕累托最优提示的集合,即“帕累托支配”所有其他提示但相互不可比的提示的集合。在通过策略模型的RL训练来引导对Pareto前沿的搜索时,一种常见的方法是使用标量化函数,该函数将多目标问题转换成标准的单目标问题。虽然便于训练,但这些函数会对目标结构强加过于简化的假设,并限制对整个Pareto前沿的探索。最常见的函数是加权和函数,它对最大化预定义的目标线性组合的解决方案进行优先排序,忽略Pareto前沿的潜在有价值部分。同样,超体积指标(Zitzler等人,2001年)虽然同时奖励所有目标的改进,但它可能会优先考虑对总体超体积增加贡献最大的点,可能会忽略超体积贡献较小的区域。此外,超体积的偏好可能会根据参考点的选择而变化,从而在搜索过程中引入偏差(Ishibuchi等人,2017年)。因此,虽然使用标准化函数提供了接近RL中Pareto前沿的指导,但它也可能在搜索中引入偏差,从而限制了算法覆盖整个Pareto前沿的能力。

    在下面的小节中,我们介绍一种用于多目标提示优化的创新奖励函数。这种方法利用提示之间的支配关系来引导政策模型向帕累托前沿发展。通过这样做,我们不再需要由传统的标量化函数强加的预定义偏好,允许对解决方案空间进行更加灵活和全面的探索。

基于优势偏好的损失函数

    给定一个输入实例x,我们基于两个提示zw和zl对应的输出yw和yl考虑它们之间的优势偏好。具体地说,如果O(x,yw) ⪰ O(x,yl),我们定义zw是优于zl的优势提示,为了简单起见,我们用zw ⪰ zl表示。我们将数据对(x,zw,zl)定义为优势偏好数据,其中zw在结果输出方面支配zl。该数据用作直接学习生成帕累托最优提示的策略模型的基础。

    Rafailov等人(2024)引入了直接偏好优化(DPO),这是一种基于偏好数据更新政策模型的方法,无需训练单独的奖励模型。由于政策模型πθ是由奖励函数引导的,他们表明奖励函数隐含地连接到政策模型。这种关系可以表示为rθ(x,z) ∝ log πθ(z|x) πref(z|x),其中πref表示参考模型。该参考模型用作学习偏好的基线或起点,并且它通常被选择作为初始化模型或预训练模型。

    DPO利用从布拉德利-特里模型导出的损失函数进行偏好建模:在这里插入图片描述其中,β是缩放超参数,σ是逻辑sigmoid函数,h是zw和zl之间的奖励差,定义如下:在这里插入图片描述该损失函数lDPO增加占优势的提示zw的奖励,并减少占优势的提示zl的奖励,从而促进zw的产生。

    从DPO扩展而来的身份偏好优化(IPO) (Azar等人,2024)用身份函数代替了与Bradley-Terry模型相关的非减函数,从而产生了更简单的损失函数:在这里插入图片描述其中τ是正则化超参数,控制h(zw,ZL;x)zw和zl的奖励差。DPO的目标是将差异最大化至无穷大,导致过度适应偏好数据集。相比之下,IPO旨在使差异接近τ1 2,从而降低过度拟合的风险。lDPO和lIPO作为h(zw,ZL;x)如图2所示。

    DPO和IPO损失都利用优势偏好数据来更新政策模型,使即时生成与产出之间的优势关系保持一致。请注意,优势偏好数据独立于特定的目标值,因此它对目标的缩放或单调变换保持稳健。

图2:损失函数比较,其中lDPO和lIPO增加h(zw,ZL;x),主导和被主导提示对之间的奖励差距;而lnd将非优势配对之间的奖励差距缩小到接近于零。
在这里插入图片描述

基于偏好更新的非支配损失函数

    利用支配偏好数据,我们能够生成帕累托最优提示。然而,没有机制保证覆盖整个帕累托阵线。因此,我们提出了一个基于非支配数据的非支配损失函数,以鼓励政策模型生成不同的提示来探索整个帕累托前沿的不同权衡。给定一个数据对(x,z1,z2),对应的输出y1和y2有可能是互不支配的(不可比的),我们表示为z1∞z2,称之为(x,Z1,z2)非支配数据。

    在这些情况下,我们预计不会强烈倾向于任何一种提示。我们希望策略模型在生成它们时分配相似的可能性。然而,对于非支配提示之间的小可能性差异,仍然应该有一些容限;否则,损失函数将迫使模型为所有提示分配相同的可能性。因此,我们定义了一个损失函数,它惩罚z1和z2的回报的大差异,但是容忍非支配提示对的小差异:在这里插入图片描述其中,λ是缩放超参数,ϵ是奖励函数值之间差异的容差。注意as |h(z1,z2;x)| =logπθ(Z1 | x)πθ(z2 | x)-logπref(Z1 | x)πref(z2 | x),报酬函数的差异实际上反映了策略模型πθ和参考模型πref在生成非支配提示时的偏差。因此,该损失函数仅在策略更新导致差异超过阈值ϵ.之后才生效这确保了该策略在关注多样化非主导提示之前首先优先考虑学习主导提示。图2显示了lnd的曲线。通过与lIPO的比较,我们可以得出结论,当使用lIPO和lnd作为损失函数项时,重要的是为超参数选择设置ϵ<τ1 2,以使lnd生效。

PARETOPROMPT算法

    我们现在详细描述PARETOPROMPT,我们提出的训练算法,用于生成Pareto最优提示的策略模型。策略模型利用预训练的生成式LLM,其潜在嵌入层保持冻结。为了微调用于提示生成的模型,作为多层感知器(MLP)实现的残差适配器模块被插入到潜在层和模型头之间。参考模型被设置为与策略模型的初始状态相同。简而言之,我们将DPO或IPO损失函数表示为ld,那么ParetoPrompt的总损失函数为:在这里插入图片描述训练过程如下(图1):

  1. 随机抽取一个训练实例x。
  2. 使用参考模型为x生成一对提示z1和z2。
  3. 估计相应输出y1和y2的目标并确定它们的优势关系,然后基于优势选择ld或lnd作为损失函数。
  4. 使用基于梯度的优化算法(例如Adam)基于计算的损失更新策略模型参数θ。
  5. 定期更新参考模型以匹配策略模型的当前状态。这确保了随着策略模型的发展,参考模型可以利用改进的培训提示。
  6. 对指定数量的训练迭代重复上述步骤。

    我们的算法的优点是通过结合支配偏好损失函数和非支配损失函数,我们鼓励策略模型生成帕累托最优提示,同时使生成多样化以探索整个帕累托前沿。虽然ParetoPrompt通过不使用标量化函数来避免对多目标结构做出假设,但是ParetoPrompt当前处理非支配对的方式不能为生成更好的提示提供指导,因为不需要从它们那里学习偏好。然而,在多目标问题中,优势对变得越来越少,非优势对变得越来越频繁,特别是随着目标数量的增加,就像在“多目标”问题中一样。因此,在这些情况下,ParetoPrompt可能是低效的。

实验

    为了验证我们提出的PraretoPrompt的性能,我们将它应用于分类和文本生成任务,具有多个目标。我们还提供了ParetoPrompt算法的分析。基线。我们将我们提出的ParetoPrompt与以下基线进行比较:

  1. 求和(Deng et al,2022):这种基于RL的算法使用标量化定义的奖励函数,简单地作为不同目标的求和:r(x,y) = 滑oi(x,y)。
  2. 乘积:这个基于RL的算法将奖励定义为不同目标的乘积::r(x,y)=πoi(x,y)。
  3. HVI:该算法使用超体积增量(HVI)作为RL框架内的奖励函数。它在训练过程中跟踪帕累托前沿,并将每次提示带来的超体积增量作为奖励。
  4. 奖励导向的IPO (R-IPO):这种基于偏好的RL算法计算目标的总和,并基于该总和确定提示对的偏好,然后使用等式3中的IPO损失来更新策略模型。
  5. InstOptima(杨和李,2023):这种进化算法利用II框架进行多目标优化。提示的变异和交叉操作符使用LLM和相应的操作提示来执行。在我们的实验中,我们使用LLaMa 2 (7B)进行快速操作。
  6. ParetoPrompt DPO/IPO (PP-DPO/IPO):我们提出的ParetoPrompt算法。

少数镜头

    文本分类(双目标任务)我们利用BERT模型(Brown,2020)使用标记填充在各种数据集上进行单句分类实验。分类基于对应于作为类别标签的一组描述符的标记的概率。我们遵循邓等人(2022)中的提示模板[输入][提示][类别],并在[类别]位置选择预测概率最高的动词化标记。对于少镜头分类,我们只取少量的训练样本,搜索更好的提示。我们在多种流行的少镜头分类任务上进行了实验,包括MR (Pang & Lee,2005),SST-5 (Socher等人,2013),Yelp-5和Yahoo (Zhang等人,2015)。

    目标和错位度量我们定义了一个双目标提示优化问题:除了优化分类任务的准确性,我们还旨在优化提示的流畅性。可以使用各种度量来评估流畅性。在这组实验中,我们使用RoBERTa-based-CoLA的语法可接受性分数,这是一个针对语言可接受性语料库(CoLA)任务(Morris等人,2020)进行微调的RoBERTa模型。我们把这个分数称为可乐分数。这个模型被训练来分类一个句子是否语法正确,我们的目标是最大化可乐分数来生成流畅的提示。

    由于流利度也可以通过由语言模型计算的文本的困惑度来量化,为了证明ParetoPrompt对潜在错位度量的鲁棒性,我们采用了两个不同的训练信号:CoLA分数,以及在一系列单独的实验中,使用GPT-2计算的困惑度,同时始终将CoLA分数作为测试阶段的真实目标。我们分析了实验中使用的提示的可乐分数和困惑分数,结果显示了可乐分数和困惑分数之间的非线性关系。当使用特定的困惑分数作为奖励信号来训练RL算法,而使用可乐分数来评估RL算法时,这种非线性关系导致较差的性能。相关分析的详细信息见附录A.2。

    实验细节我们使用RoBERTa-large (Liu等人,2021)作为用于分类的LM,而我们的策略模型基于DistilGPT2 (Sanh等人,2019),在头层之前添加了两层适配器。提示搜索空间由5个离散的标记组成。对于所有数据集,我们为训练集和验证集每类随机抽取16个样本。使用足够大的测试集来评估最终性能。对于所有基于RL的算法(不包括InstOptima),每次迭代采样16个提示来计算奖励函数。使用优势关系的算法(R-IPO和PP-DPO/IPO)采用8个即时比较对来计算奖励函数。因此,在训练过程中,任务语言模型查询的总数为:16×class num×16×6000。方程(1)、(3)和(4)中损失函数的超参数设定为β = 0.5,τ = 0.5,λ = 1,ϵ = 0.1。每个RL算法运行6K次迭代用于训练。对于InstOptima,我们初始化了16个手动设计的提示,并执行了60代NSGA-II,与RL算法的计算时间相匹配。在测试阶段,我们为每个数据集生成64个提示,以在多目标性能方面进行综合比较。我们进行了五次独立运行,以获得平均性能指标。

    实验结果我们使用超体积(HV)来评估分类准确度和提示可乐分数的多目标性能,参考点设置在(0,0)。使用可乐分数作为训练信号的实验的HV表示为C-HV,而使用困惑作为训练信号的实验的HV表示为P-HV。这两个指标之间的差异Diff-HV衡量这两种设置下算法性能的稳健性。

    基于表1所示的实验结果,ParetoPrompt算法(IPO和DPO)始终在C-HV和P-HV上表现出优异的性能,并且具有较小的Diff-HV。相比之下,使用标量奖励(求和、乘积和HVI)的算法的Diff-HV明显大于其他算法。这是因为可乐分数和困惑度之间的非线性关系不仅改变了绝对奖励值,还改变了提示之间的相对排名,从而导致性能下降。而ParetoPrompt算法所利用的优势关系不受这种变换的影响。值得注意的是,InstOptima显示了较小的Diff-HV,部分原因是其使用了基于优势关系的NSGA-II。

在这里插入图片描述
表1:在由分类准确度和CoLA评分定义的双目标空间中,通过不同方法对占优势的超体积(HV)进行比较。“C-HV”是指使用可乐分数作为训练信号,“P-HV”表示使用困惑分数作为训练信号。术语“DiffHV”表示这两个指标之间的超级卷差异。“C-HV”和“P-HV”的值越高越好,而接近0的“Diff-HV”表示对度量变化的鲁棒性。

文本风格转换(三目标任务)

    根据RLPrompt (Deng等人,2022),我们在无监督的文本风格转换任务上评估ParetoPrompt。目标是将输入的句子改写成期望的风格,同时仍然保持内容相似。考虑两个冲突的目标:风格评分和内容相似性。我们还将提示的流畅性作为第三个目标。我们使用Yelp情感数据集(沈等人,2017)来执行任务,以将Yelp负面评论转换为正面评论,同时保持内容相似性。例如,句子“我永远不会回来了”可能会转换为“我会再回来的”。该数据集由Yelp餐厅评论组成,按星级评分,三分或以上为正面,三分以下为负面。我们随机选择50个负面评论用于训练,50个用于评估,另外100个用于测试。

    客观设置。我们采用两种基于模型的度量来进行内容相似性和情感积极性评估。我们使用Deng等人提出的压缩、转换和创建(CTC)度量将内容相似性目标设置为内容保存奖励函数(2022),它测量输入和输出之间的嵌入对齐。情感目标被定义为使用在Yelp数据集上微调的基于BERT的分类器计算的情感概率。对于流畅性目标,我们继续使用由RoBERTabased-CoLA模型计算的CoLA分数。与少数镜头分类相比,这种目标设置对即时优化更具挑战性。在少数镜头分类中,在描述器中选择输出,而文本生成引入了更大输出不确定性。结果,目标信号的质量更加嘈杂,使得识别达到良好平均性能的提示更加困难。考虑到生成模型的随机性,我们为每个提示生成128个输出,平均客观值以进行稳健的提示评估。

    实验细节。我们使用GPT-2 XL作为样式转换任务的LM,而提示生成设置与之前的实验相同。对于除InstOptima之外的所有算法,在训练阶段,每次迭代处理两个输入负面评论的小批量,并且对每个负面评论采样四个提示,然后用于将输入转换为正面评论。每个算法运行10K迭代进行训练,导致语言模型查询的总数等于128 × 8 × 10,000。对于InstOptima,我们初始化了16个手动设计的提示,并运行了130代NSGA-II,确保了与RL算法相当的运行时间。在测试阶段,我们再次为每个实例生成64个提示,以评估多目标性能。为了确保稳健性,我们进行了三次独立运行,以获得平均性能指标。

    实验结果图3示出了单次运行的多目标空间中生成的提示的性能,提供了直观的说明。此外,表2提供了三次运行的平均性能,以及所有目标的平均值和标准偏差值设置为最大化。每个算法从策略模型生成64个提示,Pareto集大小表示每个算法生成的非支配提示的数量,反映了其生成有效提示的能力。对于多目标空间中的整体性能,评估另外两个度量:支配超体积(HV)和逆生成距离(IGD)。HV是目标空间中相对于参考点(0,0,0)的支配区域的体积。IGD最初测量真实Pareto前沿到目标空间中对应于不同算法生成的提示的最近点之间的平均距离。较低的IGD值意味着生成的提示实现了更接近帕累托前沿的性能。这里,由于实际帕累托前沿是未知的,所以所有提示的组合的帕累托最优提示充当参考帕累托前沿。

在这里插入图片描述
图3:三目标提示优化结果可视化:目标空间中不同算法生成的提示对比,以情感、内容相似度、可乐评分为目标进行最大化。结果表明,我们的ParetoPrompt算法有效地探索了整个Pareto前沿。

表2:无监督情感转换的性能比较。帕累托集合大小表示非支配提示的数量,HV度量支配超体积,IGD表示到帕累托前沿的距离
在这里插入图片描述
    从图3中,我们观察到总和、乘积和HVI表现不佳,因为不准确的奖励不能有效地引导搜索。R-IPO倾向于形成簇,因为它缺乏生成不同提示的机制,而是简单地利用偏好数据提供的偏好信息。相比之下,我们提出的ParetoPrompt算法(尤其是PP-IPO)由于引入了非支配损失,可以覆盖整个Pareto前沿。表2显示,我们提出的ParetoPrompt算法实现了更高的HV和更小的IGD,反映了ParetoPrompt生成的提示有效地覆盖了整个Pareto前沿。此外,我们观察到聚丙烯首次公开募股表现优于聚丙烯DPO,可能是因为IPO损失不会受到与DPO相关的潜在过度拟合问题的影响,这使得PPIPO能够更有效地探索搜索空间。总的来说,我们的ParetoPrompt算法通过用不同的提示有效地覆盖整个Pareto前沿,展示了优越的性能。

图4:Pareto prompt-IPO的训练分析:主导对与非主导提示对百分比的趋势以及总、主导、非主导

在这里插入图片描述

PARETOPROMPT训练分析

    我们在训练过程中分析PARETOPROMPT算法,特别关注文本风格转换任务。在ParetoPrompt-IPO算法中,我们在图4中呈现了主导和非主导提示对的百分比变化。此外,我们还包括等式中定义的非支配损失。(5).该图显示,随着训练的进行,该算法对更多的非主导提示对进行采样,这表明它学会了生成折衷提示。非支配损失从0值开始,随着训练的继续而增加。这种不断增加的非支配损失表明,随着算法接近帕累托前沿,它更加关注探索非支配提示。我们在附录A.3中显示的实验结果还表明,在没有非支配损失的情况下,仅支配算法倾向于在集群中生成提示。

结论

    我们开发了ParetoPrompt,一个基于RL的多目标文本生成提示优化算法。该算法的训练仅依赖于提示对之间的多目标优势关系,并且不需要预定义的标量化函数,因此允许我们在文本评估中绕过关于人类偏好的假设。ParetoPrompt为主导和非主导提示对定义了单独的损失函数。这些损失函数的组合效果鼓励生成帕累托最优提示,但是使提示多样化以覆盖整个帕累托前沿。此外,通过仅使用主导关系,该算法即使在训练和测试度量之间存在不匹配时也能稳健地执行。此外,它可以包含用于训练的偏好数据。总之,ParetoPrompt提出了一种生成Pareto最优提示的偏好学习方法,为多目标提示优化提供了一个有希望的方向。

局限性和未来工作

    正如4.3节中所强调的,ParetoPrompt在处理具有大量目标的问题时可能会变得低效。为了解决这一限制,未来的工作可以探索纳入宽松的帕累托优势关系(Lopez Jaimes & Coello Coello,2009),这扩展了优势的定义,以捕捉非优势提示之间的微妙偏好信息。例子包括(1k)-优势关系(Farina & Amato,2002)和控制解的优势区域的扩展关系(Sato等人,2007)。通过合并这些宽松的关系,我们可以潜在地使用来自非主导对的信息来指导多目标情况下的策略模型的更新。

附录

本附录提供了补充材料,包括ParetoPrompt算法的伪代码、对CoLA和困惑分数的分析,以及文本风格转换中双目标提示优化实验的结果。

a . 1 PARETOPROMPT的伪代码Pareto prompt的伪代码在算法1中进行了总结。
在这里插入图片描述
A.2可乐和困惑分数的分析我们分析了在我们的实验中使用的提示的可乐和困惑分数。我们随机生成1000个5个令牌的提示,并计算它们的可乐分数和困惑度。它们的关系如图S1所示。值得注意的是,可乐分数与对数困惑度呈现近似线性关系。

它们之间的Spearman等级相关系数为-0.473,表明中度负相关。相比之下,线性相关系数为-0.253,反映了弱的负线性关系。然而,当我们对困惑应用对数变换时,线性相关系数增加到-0.471。这表明可乐和困惑分数之间的非线性关系,可以通过对数变换来近似描述。

A.3双目标的文本风格迁移我们还对文本风格迁移任务进行了双目标提示优化实验。设置与Sec相同。4.2,除了我们针对两个目标优化提示:内容相似性和情感积极性。图S2提供了目标空间中生成的提示的直观图示,图S3还提供了五次运行的平均性能。

值得注意的是,结果表明,在没有非优势损失的情况下,仅优势算法倾向于形成集群,因为缺乏使提示多样化的机制,如图S2所示。相比之下,由于引入了非支配损失,ParetoPrompt可以覆盖整个Pareto前沿。图S3表明,我们提出的ParetoPrompt算法实现了更高的D-HV和更小的方差,因为不同的提示导致更高和更鲁棒的D-HV。相比之下,竞争算法生成聚集在一起的提示,导致D-HV随着群集的位置而变化,并导致更大的方差。ParetoPrompt的较小IGD反映了它与参考Pareto前沿的距离较小,反映了ParetoPrompt生成的提示有效地覆盖了整个Pareto前沿。总的来说,我们的ParetoPrompt算法通过用不同的提示有效地覆盖整个Pareto前沿,展示了优越的性能。

在这里插入图片描述在这里插入图片描述

图S2:双目标提示优化图解。在双目标空间中,针对单个实例比较不同算法生成的提示,将情感和内容相似性作为最大化的两个目标。结果表明,我们提出的ParetoPrompt算法有效地探索了整个Pareto前沿。

A.4具有四个目标的文本风格转换在这一部分中,我们呈现了在文本风格转换中的四目标优化任务上评估我们的方法的扩展实验的初步结果。虽然先前关于多目标即时优化的研究通常最多考虑三个目标,但我们的方法完全能够处理更复杂的情况。为了证明这一点,我们在以下四个目标下评估表现:风格得分、内容相似性、输出流畅性和简洁性。前三个目标与Sec相同。4.2,而第四个目标,简明性是由输出的长度来衡量的。

在这里插入图片描述
图S3:无监督情感转换的性能比较。我们比较了各种算法在无监督情感转换任务中的性能。D-HV(越高越好)表示占优势的超体积,IGD(越低越好)表示到Pareto前沿的距离。

我们的ParetoPrompt在这两个指标上都超过了竞争对手的算法。我们提出的方法可以很容易地适应这四个目标设置的可用结果。这些结果为我们的方法处理大量目标的能力提供了见解。基于每种方法三次独立运行的结果总结在表S1中。

表S1:四目标文本风格转换的性能比较。帕累托集合大小表示非支配提示的数量,HV度量支配超体积,IGD表示到帕累托前沿的距离。
在这里插入图片描述
这些初步结果突出了我们的方法在多个目标上进行优化的能力。

在这里插入图片描述
图S4:不同更新周期选择下的消融性能比较。

A.5消融:参考模型更新周期参考模型更新周期(在算法1第10行)在训练期间平衡收敛速度和稳定性方面起着至关重要的作用。由于更新周期短,参考模型密切跟踪当前策略模型,可能会导致更快的收敛;但是这样的选择也会导致训练不稳定。相比之下,较长的更新周期可以导致更稳定的训练。

但是,参考模型可能会阻碍策略模型的进一步改进。我们将不同的参考模型更新周期设置为20、200和500,进行消融研究。结果如图S4所示。从图中可以看出,200的周期在D-HV和IGD中实现了收敛速度和性能之间的良好平衡。该设置允许参考模型充分适应以指导策略的学习,同时保持探索的稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/981596.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Agent智能体是什么?

文章目录 一、Agent的起源与发展1.1时间线1.2核心驱动力 二、Agent的定义与架构2.1基本定义2.2典型结构&#xff08;以GPTs为例&#xff09; 三、OpenAI的Agent演进路径3.1关键阶段3.2技术支撑3.3 GPTs生态经济模型 四、其他Agent平台对比五、Agent实践案例5.1文本处理自动化5.…

【Linux第三弹】Linux基础指令 (下)

目录 &#x1f31f;1.find指令 1.1find使用实例 ​编辑 &#x1f31f;2.which指令 &#x1f31f;3.grep指令 3.1grep使用实例 &#x1f31f; 4.zip/unzip指令 4.1 zip/unzip使用实例 &#x1f31f;5.tar指令 5.1 tar使用实例 &#x1f31f;6.完结 很庆幸走在自己…

【Laplacian边缘检测详解】

Laplacian边缘检测详解 目录 Laplacian边缘检测详解一. 定义二. 原理三. 特点四. 使用技巧五. MATLAB示例代码示例1&#xff1a;基本Laplacian边缘检测示例2&#xff1a;扩展Laplacian核的使用示例3&#xff1a;与Sobel边缘检测的比较示例4&#xff1a;检测图像中的文字边缘示例…

为什么要学习数据结构与算法

今天&#xff0c;我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心&#xff0c;更是每一位开发者从“小白”迈向“高手”的必经之路。 1、为什么要学习数据结构与算法 总的来说&#xff0c;数据结构与算法是&#xff1a; 求职的“敲门砖”…

【第13节】C++设计模式(行为模式)-Template(模板)模式

一、问题的提出 Template 模式&#xff1a;算法步骤框架与细节实现的分离 假设我们正在开发一个文档处理系统&#xff0c;需要支持多种文档格式的导出&#xff08;如 PDF、Word、HTML 等&#xff09;。每种文档格式的导出过程大致相同&#xff0c;都包含以下步骤&#xff1a; …

安卓binder驱动内核日志调试打印开放及原理(第一节)

背景&#xff1a; 经常有学员朋友在做系统开发时候&#xff0c;有时候遇到binder相关的一些问题&#xff0c;这个时候可能就需要比较多的binder相关日志&#xff0c;但是正常情况下这些binder通讯的的内核日志都是没有的打印的&#xff0c;因为经常binder通讯太过于频繁&#…

uniapp 常用 UI 组件库

1. uView UI 特点&#xff1a; 组件丰富&#xff1a;提供覆盖按钮、表单、图标、表格、导航、图表等场景的内置组件。跨平台支持&#xff1a;兼容 App、H5、小程序等多端。高度可定制&#xff1a;支持主题定制&#xff0c;组件样式灵活。实用工具类&#xff1a;提供时间、数组操…

Gpt翻译完整版

上一篇文章收到了很多小伙伴的反馈&#xff0c;总结了一下主要以下几点&#xff1a; 1. 说不知道怎么调api 2. 目前只是把所有的中文变成了英文&#xff0c;如果想要做多语言还需要把这些关键字提炼出来成放到message_zh.properties和message_en.properties文件中&#xff0c…

【MATLAB例程】三维下的IMM(交互式多模型),模型使用CV(匀速)、CT(匀速转弯)和CA(匀加速),滤波使用EKF。附完整代码

本文介绍一个三维IMM(Interacting Multiple Model)算法,该算法用于目标跟踪,结合了不同运动模型(匀速、匀加速和转弯)。代码使用MATLAB编写,包含仿真、模型预测和结果可视化。订阅专栏后,可直接获得完整代码 文章目录 运行结果完整代码代码解析1. 初始化环境2. 仿真参数…

未来经济范式争夺战:AR眼镜为何成为下一代交互终端的制高点?

未来经济范式争夺战&#xff1a;AR眼镜为何成为下一代交互终端的制高点&#xff1f; 在蒸汽机轰鸣的工业革命时代&#xff0c;煤炭、铁路、电报构建了第一个现代经济范式&#xff1b;互联网时代&#xff0c;电力、光纤、物流网络重构了全球经济版图。当前&#xff0c;我们正站…

【Python爬虫】爬取公共交通路网数据

程序来自于Github&#xff0c;以下这篇博客作为完整的学习记录&#xff0c;也callback上一篇爬取公共交通站点的博文。 Bardbo/get_bus_lines_and_stations_data_from_gaode: 这个项目是基于高德开放平台和公交网获取公交线路及站点数据&#xff0c;并生成shp文件&#xff0c;…

如何将飞书多维表格与DeepSeek R1结合使用:效率提升的完美搭档

将飞书的多维表格与DeepSeek R1结合使用&#xff0c;就像为你的数据管理和分析之旅装上一台涡轮增压器。两者的合作&#xff0c;不仅仅在速度上让人耳目一新&#xff0c;更是将智能化分析带入了日常的工作场景。以下是它们如何相辅相成并改变我们工作方式的一些分享。 --- 在…

一周学会Flask3 Python Web开发-在模板中渲染WTForms表单视图函数里获取表单数据

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 为了能够在模板中渲染表单&#xff0c;我们需要把表单类实例传入模板。首先在视图函数里实例化表单类LoginForm&#xff0c;然…

阿里通义万相2.1模型在亚马逊云科技ECS容器中的私有化部署

本文将主要介绍同义万相v2.1视频生成模型的在AWS上部署的初步测试 通义万相AI模型介绍 通义万相模型是阿里云负责大规模生成式模型的团队&#xff0c;最近发布了通义万相2.1(以下称Wan 2.1)&#xff0c;这是一个“全面开源的视频基础模型套件&#xff0c;突破了视频生成的边界…

苍穹外卖-阿里云OSS文件上传

苍穹外卖-阿里云OSS文件上传 一、阿里云OSS简介**获取AccessKey**获取enpoint 二、代码实现1 引入依赖2 定义OSS相关配置2.1 application-dev.yml2.2 application.yml 3 读取OSS配置3.1 AliOssProperties 4 生成OSS工具类对象4.1 AliOssUtil4.2 OssConfiguration2.5 CommonCont…

8.路由原理专题

路由器数据转发原理&#xff0c;路由表、FIB、快速转发表的关系 路由的控制平面与转发平面 控制平面:负责路由计算,维护;路由协议运行在控制平面 转发平面:进行数据包的封装,报文转发,路由表,FIB表,快速转发表等 控制平面与转发平面相互独立又协同工作 路由器检查数据包的目…

详细分析KeepAlive的基本知识 并缓存路由(附Demo)

目录 前言1. 基本知识2. Demo2.1 基本2.2 拓展2.3 终极 3. 实战 前言 &#x1f91f; 找工作&#xff0c;来万码优才&#xff1a;&#x1f449; #小程序://万码优才/r6rqmzDaXpYkJZF 基本知识推荐阅读&#xff1a;KeepAlive知识点 从实战中学习&#xff0c;源自实战中vue路由的…

Free Auto Clicker - 在任意位置自动重复鼠标点击

“想让鼠标自己动起来&#xff0c;解放双手去做更有趣的事&#xff1f;”Free Auto Clicker 就像你的数字小助手&#xff0c;能在任意位置自动重复点击鼠标。从玩游戏到刷网页&#xff0c;这款免费工具让你告别枯燥的重复操作&#xff0c;效率瞬间起飞&#xff01; 你有没有想…

【人工智能】GPT-4 vs DeepSeek-R1:谁主导了2025年的AI技术竞争?

前言 2025年&#xff0c;人工智能技术将迎来更加激烈的竞争。随着OpenAI的GPT-4和中国初创公司DeepSeek的DeepSeek-R1在全球范围内崭露头角&#xff0c;AI技术的竞争格局开始发生变化。这篇文章将详细对比这两款AI模型&#xff0c;从技术背景、应用领域、性能、成本效益等多个方…

蓝桥杯第15届真题解析

由硬件框图可以知道我们要配置LED 和按键、lcd&#xff0c;解决lcd引脚冲突 LED 先配置LED的八个引脚为GPIO_OutPut&#xff0c;锁存器PD2也是&#xff0c;然后都设置为起始高电平&#xff0c;生成代码时还要去解决引脚冲突问题 按键 按键配置&#xff0c;由原理图按键所对引…