大模型自动提示优化(APO)综述笔记

自大型语言模型(LLMs)出现以来,提示工程一直是各种自然语言处理(NLP)任务中激发期望响应的关键步骤。然而,由于模型的快速进步、任务的多样性和相关最佳实践的变化,提示工程对最终用户来说仍然是一个障碍。为了缓解这一问题,自动提示优化(APO)技术应运而生,这些技术使用各种自动化方法来提高LLMs在各种任务上的表现
论文名称:A Systematic Survey of Automatic Prompt Optimization Techniques
研究内容:对APO技术的全面综述,总结了该领域的最新进展和剩余挑战。文章提供了一个APO的正式定义和一个五部分的统一框架,并根据其显著特征对所有相关工作进行了严格的分类。
作者:Kiran Ramnath et al. (Amazon Web Services)
统一框架:APO流程分为五部分——种子初始化、推理评估与反馈、候选生成、筛选保留策略、迭代深度

在这里插入图片描述


1. 初始化种子提示(Seed Initialization)

目标:生成初始提示池作为优化起点。
技术细节及论文对比

方法技术描述相关论文
人工指令基于人工编写的示例生成强基线提示,成本较高但可解释性强。ProteGi (Pryzant et al., 2023)、GPS (Xu et al., 2022)、SPRIG (Zhang et al., 2024b)
LLM指令归纳利用LLM从少量示例或任务文档中归纳可读指令,覆盖任务多样性和语义泛化。APE (Zhou et al., 2022)、DAPO (Yang et al., 2024c)、SCULPT (Kumar et al., 2024)、UniPrompt (Juneja et al., 2024)
结构化模板填充将任务拆解为结构化模板(如README、任务类型、输出格式),由LLM填充内容。UniPrompt (Juneja et al., 2024)

技术比较

  • 人工指令依赖领域专家,适用于高精度场景;
  • LLM指令归纳成本低但需平衡示例质量与泛化能力;
  • 结构化模板提升逻辑一致性,但灵活性较低。

2. 推理评估与反馈(Inference Evaluation & Feedback)

目标:评估候选提示性能并生成反馈以指导优化。
技术细节及论文对比

数值评分反馈
方法技术描述相关论文
任务准确率直接使用分类准确率、BLEU-N(文本生成)、BERTScore(语义相似度)等。APE (Zhou et al., 2022)、PACE (Dong et al., 2024b)
奖励模型训练XGBoost或LLM模型预测提示质量,支持多目标优化(如性能+安全性)。OIRL (Sun et al., 2024a)、DRPO (Amini et al., 2024)
熵与NLL利用输出分布的不确定性(需访问概率分布),优化提示的多样性和稳定性。GRIPS (Prasad et al., 2023)、GPS (Xu et al., 2022)
LLM反馈
方法技术描述相关论文
单候选优化通过分层树结构(SCULPT)或Actor-Critic框架(PACE)动态调整提示。SCULPT (Kumar et al., 2024)、PACE (Dong et al., 2024b)
多候选优化生成文本梯度(ProTeGi)或收集错误案例(PromptAgent),提升全局搜索能力。ProTeGi (Pryzant et al., 2023)、PromptAgent (Wang et al., 2024a)
人工反馈
  • 交互式偏好建模:通过对话动态捕获用户偏好(GATE)。
  • 规则注入:结合人工设计的反馈规则优化多步骤任务(PROMST)。
    相关论文:APOHF (Lin et al., 2024)、GATE (Joko et al., 2024)

技术比较

  • 数值评分客观但灵活性差;
  • LLM反馈支持语义级优化,但计算成本高;
  • 人工反馈精度高,适用于关键任务,但难以规模化。

3. 候选提示生成(Candidate Generation)

目标:生成新候选提示以探索优化空间。
技术细节及论文对比

启发式编辑
方法技术描述相关论文
遗传算法通过交叉、变异操作生成新提示(如SPRIG的组件库操作)。SPRIG (Zhang et al., 2024b)、PromptBreeder (Fernando et al., 2023)
词汇修剪保留高频词(CLAPS)或基于互信息选择关键短语(BDPL),降低搜索空间冗余。CLAPS (Zhou et al., 2023)、BDPL (Diao et al., 2022)
程序合成将提示优化转化为模块化程序(如DSPY的文本转换图),支持结构化组合优化。DSPY (Khattab et al., 2024)、SAMMO (Schnabel & Neville, 2024)
神经网络编辑
方法技术描述相关论文
强化学习策略梯度优化(BDPL)或离线奖励模型(OIRL),平衡探索与利用。BPO (Cheng et al., 2024)、OIRL (Sun et al., 2024a)
GAN对抗训练生成器与判别器联合优化,提升提示对抗鲁棒性(Long et al., 2024)。Long et al. (2024)
元提示设计
  • 结构化元指令:定义任务描述、输出格式、推理过程等模板(DAPO)。
  • 动态优化历史:记录历史优化轨迹以指导后续生成(OPRO)。
    相关论文:OPRO (Yang et al., 2024a)、DAPO (Yang et al., 2024c)

技术比较

  • 遗传算法适合离散空间搜索,但依赖初始组件库;
  • 程序合成支持复杂任务分解,但需预定义模块结构;
  • 强化学习适合动态环境,但训练成本高。

4. 筛选与保留策略(Filter & Retain Strategies)

目标:选择高潜力候选进入下一轮优化。
技术细节及论文对比

方法技术描述相关论文
TopK贪婪搜索保留当前最优候选(ProTeGi),计算高效但易陷入局部最优。ProTeGi (Pryzant et al., 2023)
UCB及其变体平衡探索与利用(SPRIG),支持动态评估数据集采样。SPRIG (Zhang et al., 2024b)、PromptAgent (Wang et al., 2024a)
区域联合搜索(RBJS)按聚类优化专家提示(MOP),提升多任务适应性。MOP (Wang et al., 2025)
元启发式集成混合多种搜索算法(如遗传算法+模拟退火),增强鲁棒性(PLUM)。PLUM (Pan et al., 2024)

技术比较

  • TopK简单高效,适合快速收敛;
  • UCB适合动态环境,需调整探索系数;
  • RBJS在多任务场景表现优异,但依赖聚类质量。

5. 迭代深度(Iteration Depth)

目标:控制优化过程的终止条件。
技术细节及论文对比

方法技术描述相关论文
固定步长预设迭代次数(N),适用于计算资源受限场景。多数方法(如ProTeGi、APE)
动态终止基于性能阈值(GRIPS)或收敛检测(PromptAgent),提升效率。GRIPS (Prasad et al., 2023)、PromptAgent (Wang et al., 2024a)

技术比较

  • 固定步长易实现但可能欠拟合或过拟合;
  • 动态终止节省资源,需设计合理的收敛判定条件。

论文种子初始化候选生成筛选策略迭代深度
ProTeGi人工指令LLM改写UCB固定
APELLM归纳N/AUCB固定
DSPY人工+LLM归纳程序合成TopK动态
MOPLLM归纳专家混合RBJS固定

:本笔记基于论文《A Systematic Survey of Automatic Prompt Optimization Techniques》内容提炼,技术对比需结合具体任务需求选择方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978255.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快速排序(详解)c++

快速排序(Quick Sort),既然敢起这样的名字,说明它是常⻅排序算法中较为优秀的。事实上,在很多情况下,快排确实是效率较⾼的算法;c的排序是以快排为基础,再加上堆排和插入排序做优化实现的,我们这…

【工具变量】公司企业数字领导力(2004-2023年)

数据简介:企业数字化领导力是指在数字经济时代,领导者通过战略性地使用数字资产、引领组织变革,使企业在数字化环境中获得持续成功的能力。对于上市公司而言,这种领导力尤为重要,因为它直接关系到企业的战略方向、市场…

浅谈新能源汽车充电桩建设问题分析及解决方案

摘要: 在全球倡导低碳减排的大背景下,新能源成为热门行业在全球范围内得以开展。汽车尾气排放会在一定程度上加重温室效应,并且化石能源的日渐紧缺也迫切对新能源汽车发展提出新要求。现阶段的新能源汽车以电力汽车为主,与燃油汽…

seacmsv9报错注入

1、seacms的介绍 ​ seacms中文名&#xff1a;海洋影视管理系统。是一个采用了php5mysql架构的影视网站框架&#xff0c;因此&#xff0c;如果该框架有漏洞&#xff0c;那使用了该框架的各个网站都会有相同问题。 2、源码的分析 漏洞的部分源码如下&#xff1a; <?php …

python学习四

python运算符与表达式 表达式: Python中的表达式是一种计算结果的代码片段。它可以包 含变量、运算符、常数和函数调用,用于执行各种数学、逻辑 和功能操作 算术运算符: 比较(关系)运算符: 赋值运算符: 逻辑运算符: 位运算符: 成员运算符: 身份运算符 <

Nginx面试宝典【刷题系列】

文章目录 1、nginx是如何实现高并发的&#xff1f;2、Nginx如何处理HTTP请求&#xff1f;3、使用“反向代理服务器”的优点是什么?4、列举Nginx服务器的最佳用途。5、Nginx服务器上的Master和Worker进程分别是什么?6、什么是C10K问题?7、请陈述stub_status和sub_filter指令的…

数字可调控开关电源设计(论文+源码)

1 设计要求 在本次数字可调控开关电源设计过程中&#xff0c;对关键参数设定如下&#xff1a; &#xff08;1&#xff09;输入电压&#xff1a;DC24-26V,输出电压&#xff1a;12-24&#xff08;可调&#xff09;&#xff1b; &#xff08;2&#xff09;输出电压误差&#xf…

清华大学《AIGC发展研究3.0》

大家好&#xff0c;我是吾鳴。 AIGC已经爆火好长一段时间了&#xff0c;特别是DeepSeek的爆火&#xff0c;直接让很多之前没有体会过推理模型的人可以免费的使用上推理模型&#xff0c;同时DeepSeek产品形态也是全球首创&#xff0c;就是直接把AI的思考过程展示给你看&#xff…

模型和数据集的平台之在Hugging Face上进行模型下载、上传以及创建专属Space

模型下载 步骤&#xff1a; 注册Hugging Face平台 https://huggingface.co/ 新建一个hf_download_josn.py 文件 touch hf_download_josn.py 编写hf_download_josn.py文件 import os from huggingface_hub import hf_hub_download# 指定模型标识符 repo_id "inter…

脚本无法获取响应主体(原因:CORS Missing Allow Credentials)

背景&#xff1a; 前端的端口号8080&#xff0c;后端8000。需在前端向后端传一个参数&#xff0c;让后端访问数据库去检测此参数是否出现过。涉及跨域请求&#xff0c;一直有这个bug是404文件找不到。 在修改过程当中不小心删除了一段代码&#xff0c;出现了这个bug&#xff…

C#实现本地AI聊天功能(Deepseek R1及其他模型)。

前言 1、C#实现本地AI聊天功能 WPFOllamaSharpe实现本地聊天功能,可以选择使用Deepseek 及其他模型。 2、此程序默认你已经安装好了Ollama。 在运行前需要线安装好Ollama,如何安装请自行搜索 Ollama下载地址&#xff1a; https://ollama.org.cn Ollama模型下载地址&#xf…

Buildroot 添加自定义模块-内置文件到文件系统

目录 概述实现步骤1. 创建包目录和文件结构2. 配置 Config.in3. 定义 cp_bin_files.mk4. 添加源文件install.shmy.conf 5. 配置与编译 概述 Buildroot 是一个高度可定制和模块化的嵌入式 Linux 构建系统&#xff0c;适用于从简单到复杂的各种嵌入式项目. buildroot的源码中bui…

音视频入门基础:RTP专题(12)——RTP中的NAL Unit Type简介

一、引言 RTP封装H.264时&#xff0c;RTP对NALU Header的nal_unit_type附加了扩展含义。 由《音视频入门基础&#xff1a;H.264专题&#xff08;4&#xff09;——NALU Header&#xff1a;forbidden_zero_bit、nal_ref_idc、nal_unit_type简介》可以知道&#xff0c;nal_unit…

智慧园区后勤单位消防安全管理:安全运营和安全巡检

//智慧园区消防管理困境大曝光 智慧园区&#xff0c;听起来高大上&#xff0c;但消防管理却让人头疼不已。各消防子系统各自为政&#xff0c;像一座座孤岛&#xff0c;信息不共享、不协同。 消防设施管理分散&#xff0c;不同区域、企业的设备标准不一样&#xff0c;维护情况…

RAG(检索增强生成)原理、实现与评测方法探讨

RAG是什么&#xff1f; 看一下RAG的英文全称&#xff1a;Retrieval-Augmented Generation&#xff0c;建索、增强、生成&#xff1b;一句话串起来就是通过检索增强模型的生成&#xff0c;是的&#xff0c;这就是RAG。 RAG怎么做&#xff1f; 目前比较通用的套路是这样的&#x…

表单制作代码,登录动画背景前端模板

炫酷动效登录页 引言 在网页设计中,按钮是用户交互的重要元素之一。一个炫酷的按钮特效不仅能提升用户体验,还能为网页增添独特的视觉吸引力。今天,我们将通过CSS来实现一个“表单制作代码,登录动画背景前端模板”。该素材呈现了数据符号排版显示出人形的动画效果,新颖有…

HBuilder X安装教程(2025版)

一&#xff0c;官网下载最新包&#xff1a; 官网链接&#xff1a;HBuilderX-高效极客技巧 等待工具包&#xff0c;下载好。 二&#xff0c;安装打开工具&#xff1a; 把HBuilderX压缩包进行压缩&#xff0c;然后打开压缩后的文件夹

【算法系列】希尔排序算法

文章目录 希尔排序算法&#xff1a;一种高效的排序方法一、基本思想二、实现步骤1. 初始化增量2. 分组与排序3. 缩小增量4. 最终排序 三、代码实现四、增量序列的选择1. Shell增量序列2. Hibbard增量序列3. Sedgewick增量序列 五、时间复杂度六、总结 希尔排序算法&#xff1a;…

VMware虚拟机Mac版安装Win10系统

介绍 Windows 10是由美国微软公司开发的应用于计算机和平板电脑的操作系统&#xff0c;于2015年7月29日发布正式版。系统有生物识别技术、Cortana搜索功能、平板模式、桌面应用、多桌面、开始菜单进化、任务切换器、任务栏的微调、贴靠辅助、通知中心、命令提示符窗口升级、文…

android keystore源码分析

架构 Android Keystore API 和底层 Keymaster HAL 提供了一套基本的但足以满足需求的加密基元&#xff0c;以便使用访问受控且由硬件支持的密钥实现相关协议。 Keymaster HAL 是由原始设备制造商 (OEM) 提供的动态加载库&#xff0c;密钥库服务使用它来提供由硬件支持的加密服…