【Text2SQL 论文】CHESS:利用上下文来合成 SQL 的 pipeline

文章目录

    • 一、论文速读
    • 二、CHESS pipeline
      • 2.1 Entity and Context Retrieval
      • 2.2 Schema Selection
      • 2.3 Query Generation
    • 三、预处理
    • 四、实验
    • 五、总结讨论

一、论文速读

本文提出了一个 pipeline 框架——CHESS——来解决应用于复杂的真实数据库场景下的 Text2SQL 问题。

在现实场景下,数据库 schema 通常包含不明确的 column name、table name 和混乱的数据,这都对 SQL 转换问题提出了挑战,因此需要一个健壮的检索系统来识别出其中相关的信息。下图展示了一个在做 Text2SQL 时会面临的挑战:

在这里插入图片描述

  • 1)用户问题可能没有确切的数据库值
  • 2)column name 可能不能很好的表示这一列存储了什么数据,因此需要 database catalogs 信息来辅助
  • 3)对于一个 question,有多种 SQL 写法

在以往的研究中,大多将 SQL 生成的上下文限制为 table schema、column 定义和 sample rows,但在生产级数据库中,db catelog、db value 也是重要的辅助信息

本文提出了 CHESS,一个针对现实世界的复杂 DB 的 Text2SQL 系统,它引入了一个 scalable、effective 的 LLM-based 的 pipeline 用于 SQL 生成,主要由三个组件构成:entity and context retrieval、schema selection、SQL generation

二、CHESS pipeline

CHESS 整个 pipeline 执行的流程如下图所示,共由三个模块组成:

在这里插入图片描述

这个流程中有一个需要解决的关键问题是:由于 LLM 上下文窗口的限制,无法将 DB 所有信息都传给 LLM,但 context 又不能缺失有关信息,因此过滤出有用的 DB 信息是需要特别关注的

2.1 Entity and Context Retrieval

这个 module 需要将 user question 中提及到的相关 entity 和 db schema 提取出来,用于后序步骤的输入。这个过程分成 3 步:

  • Keyword Extraction:这一步是从 NL 中提取出 keywords,使用的方法就是 prompt + few-shots ICL 来让 LLM 提取出 keywords、keyphrases、named entities。
  • Entity Retrieval:在得到 keyword list 后,我们从数据库中检索相似的值,并为每个 keyword 返回相关的 db cell value,以及对应的 column。这里的检索方法采用了局部敏感哈希(LSH)和 semantic embedding similarity 检索的分层检索策略,从而高效地检索出与 keyword 语法和语义都相似的 cell value。
  • Context Retrieval:除了 db cell value,数据库中的 catelogs 包含了解释 db schema 的可用信息(比如注释),这一步使用 vector db 来检索与 keyword 最相似的描述信息。

2.2 Schema Selection

这个 module 是缩小 schema 的范围,使之只包含生成 SQL 时必要的 tables 和 columns。这种过滤后的 schema 称为 efficient schema。这里分为如下步骤:

  • Individual Column Filtering:这一步是筛选掉 db 中不相关的 columns,只将最相关的 columns 传递给表选择步骤。实现方式上,是将每个 column 与 question 的相关性视为一个二分类任务,本质上是询问 LLM 该列是否可能与 question 有关。注意,这一步只对移除明显不相关的 columns 有用,之后会再次过滤。
  • Table Selection:过滤掉不相关的 columns 之后,这一步继续选择必需的 tables。实现方式是,将前一步过滤的 schema 交给 LLM 来评估 table 与 question 的相关性,并只选择与 SQL 查询所需要的 tables。
  • Final Column Selection:从选择出的 tables 中再次过滤 columns,将 schema 减少到生成 SQL 所需的最小列集。实现方式是,prompt LLM 让它评估每一 column 的必要性,包含它的 Chain-of-Thought 的解释。

2.3 Query Generation

前面的步骤已经选出了一个上下文增强的 efficient schema,其中包含了创建 SQL 所需的所有必要信息。下面的步骤中,就是先生成一个候选 SQL,然后对此 SQL 执行并让 LLM 修复其中的语义和语法错误。

  • Candidate Generation:通过 prompt LLM 让它生成一个候选 SQL
  • Revision:基于 context 和候选 SQL 的执行结果,要求 model 评估 SQL 查询的正确性,并在必要时对其进行修改。具体实现时,可能会给他一套 rules,同时使用 self-consistency 等技巧。

三、预处理

在 CHESS pipeline 中,需要使用 LSH 算法检索和 vector db 检索,因此需要一个预处理过程来为数据库构建检索索引。

四、实验

论文主要在 BIRD 和 Spider 上做了实验,LLM 选择了多种类型进行了对比。

下图是 CHESS 与现有方法的对比:

在这里插入图片描述

  • 红色是 CHESS 框架并使用专用模型,蓝色是使用了开源通用模型

五、总结讨论

CHESS pipeline 在 BIRD 和 Spider 数据集上都取得了不错的表现。此外,CHESS 还开发了一个完全开源的版本,可以私有部署,且在 BIRD 上执行准确率超过 60%,缩小了闭源和开源 LLM 的性能差距,同时保证了企业数据隐私

但对于 BIRD 数据集,目前的模型仍然不如人类写 SQL 的表现,未来的工作应该旨在进一步缩小这个差距。

此外,设计更高精度的 schema selection 方法是未来研究的一个高影响领域,可以对准确性产生巨大影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/700070.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AC/DC电源模块的原理、特点以及其在实际应用中的重要性

BOSHIDA AC/DC电源模块的原理、特点以及其在实际应用中的重要性 AC/DC电源模块是一种用于将交流电转换为直流电的设备,广泛应用于各种电子设备中。这种电源模块可以有效地将电力从电网中提取出来,并将其转换为稳定的直流电源,供给各种不同功…

有趣的数学 数值方法简述

数值方法简述 令许多纯数学家烦恼的是,并非所有问题都能通过解析方法解决,也就是说,不能通过使用已知规则和逻辑来获得精确解的方法。 这时就需要使用数值方法。 数值方法将近似解,或者在最坏的情况下,将解限制在某个范…

Sketch文件轻松转换为PSD的简便方法

由于Sketch只支持在Mac上使用,当设计师使用Sketch完成设计草案,需要与使用Windows的同事连接设计项目时,会遇到同事无法打开或在Photoshop中查看和编辑的情况,这真的很尴尬。别担心!在本文中,我们将分享Ske…

笨蛋学算法之LeetCodeHot100_1_两数之和(Java)

package com.lsy.leetcodehot100;public class _Hot1_两数之和 {//自写方法public static int[] twoSum1(int[] nums, int target) {//定义存放返回变量的数组int[] arr new int[2];//遍历整个数组for (int i 0; i < nums.length; i) {//从第二个数开始相加判断for (int j…

mysql和redis的双写一致性问题

一&#xff0c;使用方案 在使用redis作为缓存的场景下&#xff0c;我们一般使用流程如下 二&#xff0c;更新数据场景 我们此时修改个某条数据&#xff0c;如何保证mysql数据库和redis缓存中的数据一致呢&#xff1f; 按照常规思路有四种办法&#xff0c;1.先更新mysql数据&a…

Nginx配置详细解释:(5)rewrite重写功能

rewrite重写功能&#xff0c;在编译安装时需要有相应的模块&#xff0c;ngx_http_rewritte_module模块指令中&#xff0c;有if指令&#xff0c;return,set,break等指令。 1.ngx_http_rewrite_module模块指令 1.if指令 if指令在nginx配置中&#xff0c;用于条件判断&#xff…

2024年山西水处理技术设备展览会11月8日召开

2024中国&#xff08;山西&#xff09;国际水务科技博览会 暨水处理技术设备与泵管阀展览会 时间&#xff1a;2024年11月8-10日 地点&#xff1a;山西潇河国际会展中心 推动城镇水务工作高质量发展&#xff0c;围绕解决水生态、水安全、水体黑臭、内涝积水等人民群众最关…

pikachu靶场通关全流程

目录 暴力破解&#xff1a; 1.基于表单的暴力破解&#xff1a; 2.验证码绕过(on server)&#xff1a; 3.验证码绕过(on client)&#xff1a; token防爆破&#xff1a; XSS&#xff1a; 1.反射型xss(get)&#xff1a; 2.反射性xss(post)&#xff1a; 3.存储型xss&#…

解决:RuntimeError: “slow_conv2d_cpu“ not implemented for ‘Half‘的方法之一

1. 问题描述 今天跑实验的时候&#xff0c;代码报错&#xff1a; RuntimeError: "slow_conv2d_cpu" not implemented for Half 感觉有点莫名奇妙&#xff0c;经检索&#xff0c;发现将fp16改为fp32可以解决我的问题&#xff0c;但是运行速度太慢了。后来发现&…

如何使用免费的 Instant Data Scraper快速抓取网页数据

Instant Data Scraper 是一款非常简单易用的网页数据爬虫工具&#xff0c;你不需要任何代码知识&#xff0c;只需要点几下鼠标&#xff0c;就可以把你想要的数据下载到表格里面。以下是详细的使用步骤&#xff1a; 第一步&#xff1a;安装 Instant Data Scraper 打开谷歌浏览…

ARM32开发--PWM与通用定时器

知不足而奋进望远山而前行 目录 文章目录 前言 学习目标 学习内容 PWM pwm原理 需求 开发流程 初始化PWM PWM占空比控制 main函数修改duty 输出通道 关心的内容 重要的关键词 周期 分频 占空比 总结 前言 在微控制器开发中&#xff0c;理解和掌握PWM&#x…

美团强势领涨恒指,港股即将迎来触底反弹?

恒指早间低开低走&#xff0c;持续低位徘徊&#xff0c;一度试探万八关口&#xff0c;最低见17994点&#xff0c;市场情绪表现疲弱&#xff0c;大型科技股普遍走低&#xff0c;但主要指数午后回升&#xff0c;恒生科技指数率先转涨&#xff0c;美团(3690.HK)涨超4%领涨成分股&a…

流程与IT双驱动:锐捷网络如何构建持续领先的服务竞争力?

AI大模型及相关应用进入“竞赛时代”&#xff0c;算力作为关键要素备受关注&#xff0c;由于算力行业对网络设备和性能有较大需求&#xff0c;其发展也在推动ICT解决方案提供商加速升级&#xff0c;提升服务响应速度和服务质量。 锐捷网络是行业领先的ICT基础设施及行业解决方…

[CAN] DBC数据库编辑器的下载与安装

DBC数据库编辑器 1 概述2 下载与安装2.1 下载2.2 安装 1 概述 VectorCANdb是一款专为CAN&#xff08;Controller Area Network&#xff09;通信设计的数据管理工具。这款软件为工程师们提供了一个全面、高效的平台&#xff0c;用于定义、修改和管理与CAN网络相关的数据&#xf…

rospkg.os_detect.OsNotDetected检测不到系统的解决办法

遇到上述报错时&#xff0c;可以参考博客进行解决

易舟云:让中小企业财务管理变得触手可及

在现代企业运营中&#xff0c;财务管理的精准和高效至关重要。对于中小企业来说&#xff0c;一款专业且易于使用的财务软件更是必不可少的工具。今天&#xff0c;我们就来详细了解一款深受中小企业喜爱的财务软件——易舟云。 财务管理的云端革命 随着云技术的发展&#xff0c;…

LeetCode:419. 甲板上的战舰(遍历 Java)

目录 419. 甲板上的战舰 题目描述&#xff1a; 实现代码与解析&#xff1a; 遍历 原理思路&#xff1a; 419. 甲板上的战舰 题目描述&#xff1a; 给你一个大小为 m x n 的矩阵 board 表示甲板&#xff0c;其中&#xff0c;每个单元格可以是一艘战舰 X 或者是一个空位 . &…

关于flutter 启动 页面加载空白(三四秒空白页面)

一:可以在 对应的xml配置启动动画 <item><bitmapandroid:gravity"center"android:src"mipmap/ic_launcher" /></item> 二&#xff1a;以下是对应的文件目录 注意事项&#xff1a;俩处xml都配置一下&#xff0c;配置一样就可以了

常见数据编码方式

数据编码方式&#xff1a; 二进制数字信息在传输过程中可以采用不同的代码&#xff0c;各种代码的抗噪声特征和定时功能各不相同&#xff0c;实现费用也不一样。下面介绍几种常用的编码方式。 1、单极性码 在这种编码方案中&#xff0c;只用正的&#xff08;或负的&#xff09;…

计算机哈佛架构、冯·诺依曼架构对比

哈佛架构和冯诺依曼架构是两种不同的计算机系统架构&#xff0c;它们在存储器组织方式上有着显著的区别。下面是它们的原理、优缺点的对比以及一些常见的 MCU 采用的架构&#xff1a; 哈佛架构&#xff1a; 原理&#xff1a;哈佛架构将指令存储器&#xff08;程序存储器&#x…