【Text2SQL 论文】QDecomp:探索 CoT-style 的 prompt 来解决 Text2SQL

论文:Exploring Chain of Thought Style Prompting for Text-to-SQL

⭐⭐⭐⭐

EMNLP 2023, arXiv:2305.14215

一、论文速读

本文通过对 LLM 使用 CoT-style 的 prompting 方法来解决 Text2SQL 问题,试图回答下面两个问题:

  1. 哪种 prompting style 更好:在一个 pass 中生成所有推理步骤好,还是迭代 prompting 并解决问题好?
  2. 详细的推理步骤对于 Text2SQL 任务来说是否会产生更好的结果?

论文在四种多步推理的 prompting 方法上做了试验,并对比了效果,下面分别介绍。

二、用于 Text2SQL 的多步推理的 prompting 方法

下图是四种 prompting 的示例,输入的是相同的 DB schema 和 question,不同的 prompting 方法有期待的不同的输出:

在这里插入图片描述

2.1 Chain-of-Thought Prompting

CoT 旨在在预测答案之前先生成一系列中间步骤从而提高 LLM 的推理能力,那如何提出这些中间步骤就是一个问题。

本文是使用 SQL query 中的每个 clause 的推理思路组成 CoT prompt 中的推理步骤。下图是一个在 Spider 上 1-shot 的 CoT 示例:

在这里插入图片描述

  • 红色方框的部分是 1-shot 的 demonstration,教会 LLM 来生成思维链的推理步骤
  • 蓝色方框的部分是我们想让 LLM 解决的 question

2.2 Least-to-Most Prompting

CoT 是让 LLM 一次生成所有的推理步骤,而 Least-to-Most Prompting 则是在两个阶段来解决复杂问题:

  • problem reduction 阶段:提示 LLM 从原始复杂 question 中生成一系列 sub-question
  • problem solving 阶段:每次用一个 sub-question 来 prompt LLM,并迭代地建立最终解决方案

最后一个 sub-question 就是原来的 user question。

下图是 problem reduction 阶段的示例:

在这里插入图片描述

下图是 problem solving 阶段的示例:

在这里插入图片描述

2.3 Question Decomposition Prompting(QDecomp)

这里就是本文新提出的 QDecomp prompting 方法,这个方法结合 CoT 和 Least-to-Most 两种方法的特点:像 CoT 那样一次性生成中间推理步骤和最终的 SQL query,但是中间推理步骤不是之前使用 CoT 那样的 SQL 逻辑推理过程,而是遵循 Least-to-Most prompting 的 problem reduction 阶段的思路,指导 LLM 将原始复杂问题分解为推理步骤:

在这里插入图片描述

在 QDecomp 基础上,本文又提出了一个变体 QDecomp + InterCOL,用于缓解 Text2SQL 任务中常见的 Schema Linking 的问题:他扩充了更多的 in-context exemplars,以教会 LLM 在生成每个 sub-questions 时识别出任何相应的 table/column names。

下图是一个示例:

在这里插入图片描述

这里的具体解释可以参考原论文

三、实验

论文使用了 Spider 和 Spider Realistic 两个数据集,ICL 的 exemplars 是采用 random selection 得到的。LLM 使用 Codex。Prompt Format 使用了 API Docs 的格式。

具体实验上,测试了不同的 prompting 方法,顺带还有 standard prompting 方法作为 baseline。

standard prompting 方法指的是使用几个 question-SQL pairs 作为 ICL 的 exemplars 来直接 prompt LLM 得到答案,整个过程不涉及中间推理过程。

实验数据如下:

在这里插入图片描述

得出如下结论:

  • QDecomp 和 QDecomp + InterCOL 方法的表现均超过了 CoT 和 Least-to-Most
  • 对于 Text2SQL 来说,迭代式地解决一系列 sub-questions 可能不是必需的,况且这种方法的成本还很高。
  • CoT prompting 甚至比 standard prompting 效果更差

3.1 误差分析:CoT 效果甚至不如 standard prompting

通过对 error cases 的分析,发现,由于 CoT 会生成详细的推理步骤,而这中间任何一步出错都会导致错误传播,从而导致最后的答案出现错误

而 QDecomp 方法不指示 LLM 生成详细的推理步骤或者中间 SQL query,这样就减少了推理步骤中错误累积的可能性。

3.2 Prompt 的设计

  • ICL Examples 的选择:发现 QDecomp + InterCOL 方法具备不错的鲁棒性
  • ICL Examples 的数量:本文发现当样本数量超过 8 时,带来的增益较小,因此本文使用了 8 个上下文示例
  • ICL Examples 的格式:测试了两种 prompt 格式:API DocsCreate Table + Select 3

四、总结

本文基于 Codex 的 LLM 来探索了 CoT-style 的 prompting 效果,增强了 LLM 对 Text2SQL 解析的推理能力。

论文发现了 CoT 在 Text2SQL 任务中会出现错误传播问题,本文提出的 QDecomp 方法是缓解 LLM 多步骤推理中错误传播问题的尝试之一,之后值得对这个问题进行更深一步的探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679266.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

英伟达GPU架构加速狂飙

NVIDIA首席执行官黄仁勋在台湾大学体育馆发表主题演讲,展示了新一代Rubin架构,这是NVIDIA加速推出新架构的最新成果。 在讨论NVIDIA下一代架构时,黄仁勋提到了Blackwell Ultra GPU,并表示它可能会继续升级。然后他透露&#xff0c…

Zoom | saas企业分销裂变的典范

提到视频通讯,相信大家不会陌生,国外有Skype、Google meeting、Facetime,国内有腾讯会议、钉钉,为什么在如此众多竞争对手的情况下,Zoom能够一马当先,成为行业先锋? 一、公司简介 Zoom是集视频…

【电路笔记】-Sallen-Key滤波器

Sallen-Key滤波器 Sallen-Key 滤波器拓扑用作实现高阶有源滤波器的构建块。 1、概述 Sallen-Key 滤波器设计是一种二阶有源滤波器拓扑,我们可以将其用作实现高阶滤波器电路的基本构建块,例如低通 (LPF)、高通 (HPF) 和带通 ( BPF)滤波器电路。 正如我们在本滤波器部分中…

反激电源的类型与特点

主要分为 1 固定频率(CCMDCM) 2 可变频率控制(CRM电流临界模式) 这三种模式是很好辨别的,首先我们看左边的连续模式,Vds能看到他有一些尖峰毛刺,这是场效应管关闭的时候,LRC谐振导…

揭秘FL Studio21.2.8中文版一键解锁音乐创作新境界!

在音乐制作的广阔天地里,随着技术的不断进步和数字音频工作站(DAW)软件的普及,越来越多的音乐爱好者和专业制作人开始涉足音乐创作的奇妙旅程。其中,FL Studio以其强大的功能、直观的操作界面和丰富的音色资源&#xf…

用户管理的小demo--登录校检

目录 在user里面 装session 1、 LoginServlet.java 2、LoginFilter.java 3、配置路径 结果: 在user里面 装session 1、 LoginServlet.java package com.by.servlet;import com.by.pojo.User; import com.by.service.UserService; import com.by.service.impl…

云原生环境下GPU算力调度发展分析

云原生环境下GPU算力调度深度分析 概述: 云原生时代,GPU算力调度与管理备受瞩目,成为企业和云服务提供商关注的焦点,助力AI、深度学习、高性能计算等领域,满足对GPU资源的迫切需求。 容器化与编排: Kube…

LLM的基础模型4:初识Embeddings

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提…

2024.5.30

思维导图 代码 #include <iostream>using namespace std; class Rect { private:int width;int height; public:void init(int w,int h){width w;height h;}void set_w(int w){width w;}void set_h(int h){height h;}void show(){int zhou (width height) * 2;int…

vue-router 源码分析——2. router-link 组件是如何实现导航的

这是对vue-router 3 版本的源码分析。 本次分析会按以下方法进行&#xff1a; 按官网的使用文档顺序&#xff0c;围绕着某一功能点进行分析。这样不仅能学习优秀的项目源码&#xff0c;更能加深对项目的某个功能是如何实现的理解。这个对自己的技能提升&#xff0c;甚至面试时…

使用raise语句抛出异常

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 如果某个函数或方法可能会产生异常&#xff0c;但不想在当前函数或方法中处理这个异常&#xff0c;则可以使用raise语句在函数或方法中抛出异常。rai…

车联网安全之GPS欺骗

随着车辆GPS技术的广泛应用&#xff0c;其在导航、交通监控等方面的关键性日益凸显&#xff0c;与之相关的安全性问题也备受关注。GPS欺骗便是其中一种重要的威胁手段。 本文旨在使用模拟GPS欺骗设备&#xff0c;模拟不同的GPS攻击以评估其对车辆定位系统的影响。通过这个实验…

「不只是框架:Django REST framework的超能力大揭秘」

想要让你的API服务像五星级餐厅一样令人难忘吗&#xff1f;今天阿佑将为你揭晓&#xff01;从基础的RESTful原则到Django REST framework的高级特性&#xff0c;我们一步步带你走进API开发的后厨&#xff0c;展示如何准备食材&#xff08;数据模型&#xff09;、调制酱料&#…

记录一次云服务器无法连接的排查过程

运行环境&#xff1a;阿里云服务器 故障外显原因&#xff1a;登录失败,操作系统禁用了密码登录方式 控制台监控数据显示云盘读写BPS拉满了 因为之前问过线上售后&#xff0c;让安装了atop监控&#xff0c;&#xff0c;所以先打开atop日志&#xff1a; atop -r /var/log/atop…

try…except…else语句

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中&#xff0c;还有另一种异常处理结构&#xff0c;它是try…except…else语句&#xff0c;也就是在原来try…except语句的基础上再添加一个…

关于博图17安装体验过程—博图17安装失败原因(STEP7 许可证找不到)

目录 一、序言 二、正片 一、序言 该失败原因是在我使用Win11专业版安装博图17时出现的问题&#xff0c;也仅代表我的体验过程&#xff01;以下我将安装过程和解决问题的过程描述一下&#xff0c;希望可以帮助和我一样自己安装博图时能够解决出现的问题。 二、正片 如果阁下…

DRIVEN|15分的CNN+LightGBM怎么做特征分类,适用于转录组

说在前面 今天分享一篇做深度学习模型的文章&#xff0c;这是一篇软硬结合的研究&#xff0c;排除转换实体产品&#xff0c;我们做生信基础研究的可以学习模仿这个算法&#xff0c;适用且不局限于临床资料&#xff0c;转录组数据&#xff0c;GWAS数据。 今天给大家分享的一篇文…

构造+割点,F2. Spanning Tree with One Fixed Degree

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1133F2 - Codeforces 二、解题报告 1、思路分析 考虑以根节点为割点&#xff0c;会有若干个连通块 连通块的数目为根节点至少要连出去的边&#xff0c;不妨记为mi 如果mi > D&#xff0c;那…

分享一个 ASP.NET WebForm 使用 Form Authentication 的例子

前言 前些天一个朋友说他们客户的网站出了点故障&#xff0c;让我帮忙看看&#xff0c;这个网站还是用 ASP.NET WebForm 做的&#xff0c;很久以前的技术了&#xff0c;不过很多客户就是这样&#xff0c;只要网站还能稳定地运行&#xff0c;一般就不会去折腾升级&#xff0c;_…