论文笔记:Teaching Large Language Models to Self-Debug

ICLR 2024 REVIEWER打分 6666

1 论文介绍

  • 论文提出了一种名为 Self-Debugging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型进行调试
  • 不同于需要额外训练/微调模型的方法,Self-Debugging 通过代码解释来指导模型识别实现错误
    • 类似于人类程序员通过逐行向橡皮鸭解释代码行来提高调试效率的方法

2 论文方法

2.1 生成代码的prompt技术

2.1.1 Few-shot prompting

  • 以文本到 SQL 生成为例,few-shot 提示在感兴趣的问题前面加上(question, SQL)对的列表
  • 这样当模型被要求预测给定提示后的后续 token 时,它会按照提示的格式生成 SQL 查询语句

2.1.2 基于执行的代码选择

  • 先前的研究表明,对于大型语言模型,在解码过程中生成多个预测结果可以显著提高性能
    • Self-consistency improves chain of thought reasoning in language models, ICLR 2023
  • 论文执行多次代码生成
    • 选择在执行时没有遇到错误的预测中具有最频繁执行结果的代码,并对其应用 后续的Self-Debugging
    • 一些代码生成任务伴随着单元测试,以指定程序的执行行为。在问题描述中给出单元测试时,执行基于多数投票的选择之前,会先过滤掉未通过单元测试的程序。

2.2 Self-Debugging 框架——反馈形式

  • 现有的研究表明,语言模型可以通过训练来理解人类对代码的反馈,并根据指令进行修正。
  • 然而,目前尚不清楚语言模型是否能够在没有人类辅助的情况下自行进行调试。
  • 在接下来的讨论中,将探讨如何利用代码执行和 few-shot 提示来生成不同类型的自动获取和生成的反馈信息

2.2.1 简单反馈

  • 最简单的自动反馈形式是一句话,仅指示代码的正确性,没有更详细的信息
    • 比如:
      • “上面的SQL预测是正确的!”

      • “上面的 SQL 预测是错误的,请修正 SQL。”

2.2.2 单元测试(UT)

  • 对于包含单元测试的代码生成任务,除了通过代码执行来检查代码的正确性外,还可以在反馈信息中呈现单元测试的执行结果,从而为调试提供更丰富的信息。
  • 通过检查运行时错误消息和未通过的单元测试的执行结果,可以帮助人类程序员更有效地进行调试。
  • 实验结果表明,利用单元测试可以显著提高调试性能

2.2.3  代码解释

  • 尽管大型语言模型在生成批评性反馈方面取得了一些进展,以避免生成有害的输出并在自然语言和推理任务中提高性能,但先前的研究尚未在代码生成任务中验证了反馈的有效性
    • The capacity for moral self-correction in large language models.,arxiv 2023
    • Reflexion: an autonomous agent with dynamic memory and self-reflection,arxiv 2023
  • ——>论文提出通过解释生成的代码来教模型进行自我调试,而不是教它预测错误消息
    • 调试过程类似于程序员通过向橡皮鸭逐行解释代码来进行调试。
    • 研究验证了即使在没有单元测试的情况下,大型语言模型也可以从这种调试方法中获益

2.2.4 模拟执行过程

  • 当单元测试可用时,我们检查了另一种解释反馈格式,其中指导大型语言模型(LLM)逐行解释中间执行步骤
  • 执行跟踪和逐行解释都来自模型生成,而不是代码执行
    • 因此跟踪反馈不需要比纯代码解释反馈更多的信息(不需要访问中间执行状态)

2.2.5 几种反馈的对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/515815.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

复现k8s黄金票据学习

1.什么是黄金票据 在 Kubernetes 中,"黄金票据"并不是一个常见的术语。可能你想了解的是服务账户(Service Account)。服务账户是 Kubernetes 中用于身份验证和授权的一种机制。它们允许 Pods 或其他工作负载在 Kubernetes 集群中与…

什么是CSGO游戏搬砖及游戏搬砖注意事项?

CSGO市场是指《反恐精英:全球攻势》游戏内的物品交易市场。玩家可以在这个市场上买卖各类虚拟物品,包括武器皮肤、刀具、手套等。CSGO市场的价格是由供需关系、稀有度、流行度等多个因素影响的。 一般来说,稀有度较高或者比较受欢迎的物品价格…

C++类与对象的初识

面向对象关注的是一个操作需要哪些对象完成。 类是数据(变量等)与操作(函数)的集合。 (类是对象的图纸) 在C中,struct也可以内含成员函数。 调用时,变量名.成员-->与C中结构体…

leetcode刷题-代码训练营-第7章-回溯算法1

回溯法模板 void backtracking(参数) {if (终止条件) {存放结果;return;}for (选择:本层集合中元素(树中节点孩子的数量就是集合的大小)) {处理节点;backtracking(路径,选择列表); // 递归回溯,撤销处理结果} }理解 从…

【逆向思考 】【拓扑排序】1591. 奇怪的打印机 II

本文涉及的知识点 逆向思考 拓扑排序 LeetCode1591. 奇怪的打印机 II 给你一个奇怪的打印机,它有如下两个特殊的打印规则: 每一次操作时,打印机会用同一种颜色打印一个矩形的形状,每次打印会覆盖矩形对应格子里原本的颜色。 一…

二、Docker部署Jenckins(详细步骤)

Docker部署Jenckins、初始化(详细步骤) 一、拉取镜像二、启动Jenkins三、访问Jenkins四、安装插件1.配置源2.插件安装 一、拉取镜像 docker安装教程:https://qingsi.blog.csdn.net/article/details/131270071 - 查询镜像 docker search jen…

通义灵码/Baidu Comate真能取代程序员吗?

目录 背景Baidu Comate通义灵码 思考 背景 Baidu Comate Baidu Comate提供AutoWork功能,号称“开发者只需定义需求,剩下的交给Comate AutoWork”。【李彦宏也说了,未来不会有程序员了~】 既然“Baidu Comate全新升级,向个人开发…

Flask Python:数据库多条件查询,flask中模型关联

前言 在上一篇Flask Python:模糊查询filter和filter_by,数据库多条件查询中,已经分享了几种常用的数据库操作,这次就来看看模型的关联关系是怎么定义的,先说基础的关联哈。在分享之前,先分享官方文档,点击查看 从文档…

C语言 | Leetcode C语言题解之第8题字符串转换整数atoi

题目&#xff1a; 题解&#xff1a; int myAtoi(char * s){int i0;int out0;int pol1;int lenstrlen(s);if(len0) return 0;while(s[i] ) i; //删除空格if(s[i]-){ //判断正负pol-1;i;}else if(s[i]){pol1;i;}else{pol1;}while(s[i]!\0){if(s[i]<0||s[i]>9){ /…

Leetcode刷题笔记——多维动态规划篇

Leetcode刷题笔记——多维动态规划篇 第一题:最小路径和 Leetcode64&#xff1a;最小路径和&#xff1a;中等题 &#xff08;详情点击链接见原题&#xff09; 给定一个包含非负整数的 m x n 网格 grid &#xff0c;请找出一条从左上角到右下角的路径&#xff0c;使得路径上的…

【JVM】关于JVM垃圾回收

文章目录 &#x1f334;死亡对象的判断算法&#x1f338;引用计数算法&#x1f338;可达性分析算法 &#x1f333;垃圾回收算法&#x1f338;标记-清除算法&#x1f338;复制算法&#x1f338;标记-整理算法&#x1f338;分代算法&#x1f338;哪些对象会进入新生代&#xff1f…

机器学习模型——逻辑回归

https://blog.csdn.net/qq_41682922/article/details/85013008 https://blog.csdn.net/guoziqing506/article/details/81328402 https://www.cnblogs.com/cymx66688/p/11363163.html 参数详解 逻辑回归的引出&#xff1a; 数据线性可分可以使用线性分类器&#xff0c;如果…

一文搞懂cookie,session,token,JWT到底是怎么进行验证的???

文章目录 cookiesessiontokenJWT 比较 HTTP 协议是一种无状态协议&#xff0c;每次服务端接收到客户端的请求时&#xff0c;都是一个全新且独立请求&#xff0c;这样就无法获取历史请求的记录&#xff0c;为了解决这种机制&#xff0c;让某个域名下的所有网页能够共享某些数据&…

DFS:深搜+回溯+剪枝解决组合问题

创作不易&#xff0c;感谢支持!!! 一、电话号码的组合 . - 力扣&#xff08;LeetCode&#xff09; class Solution { public:string hash[10]{"","","abc","def","ghi","jkl","mno","pqrs"…

salesforce如何批量reassign审批人

salesforce的审批流程中&#xff0c;如果希望批量将审批人重新指派&#xff0c;可以在set up 中找到Mass Transfer Approval Processes选项进行reassign。 参考&#xff1a;https://trailhead.salesforce.com/zh-CN/trailblazer-community/feed/0D54S00000A7QNLSA3 还可以用a…

30.多个线程交替执行

线程一输出a,5次&#xff1b; 线程二输出b,5次&#xff1b; 线程三输出c,5次&#xff1b; 现在要求输出abcabcabcabcabc怎么实现&#xff1f; 采用wait和notifyAll实现 public class ThreadTest {public static void main(String[] args) {WaitNotify waitNotify new Wai…

Linux------一篇博客了解Linux最常用的指令

&#x1f388;个人主页&#xff1a;靓仔很忙i &#x1f4bb;B 站主页&#xff1a;&#x1f449;B站&#x1f448; &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;Linux &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#…

LInux脚本学习

1.注释 #单行注释 以 # 字符开头就是单行注释 当然第一行除外&#xff0c;比较特殊 2.多行注释 3.Shell文件的作用 Shell文件就是linux命令集 4.sh脚本的执行方式 bash xxx.sh 5.新建的文件会没有执行权限 #为文件赋予执行权限 chmod ux xxx.sh 6.编写规范 #!/bin/bash #…

C#,简单,精巧,实用的按类型删除指定文件的工具软件

点击下载本文软件&#xff08;积分&#xff09;&#xff1a; https://download.csdn.net/download/beijinghorn/89059141https://download.csdn.net/download/beijinghorn/89059141 下载审核通过之前&#xff0c;请从百度网盘下载&#xff08;无积分&#xff09;&#xff1a;…

Canvas背景绘制-24

本节会详细介绍下&#xff0c;如何绘制面板的背景。 概述 常用的技术称为图块复制(blitting)&#xff0c;即从离屏缓冲区中将内容发生变化的那部分背景图像复制到屏幕上&#xff0c;还有其它两种方法是将所有内容擦除并重新绘制&仅重绘内容发生变化的那部分区域。一般是用…