【Text2SQL 经典模型】X-SQL

论文:X-SQL: reinforce schema representation with context

⭐⭐⭐⭐

Microsoft, arXiv:1908.08113

X-SQL 与 SQLova 类似,使用 BERT style 的 PLM 来获得 representation,只是融合 NL question 和 table schema 的信息的方式不太一样,也就是在利用 BERT-style 得到的 representation 后进一步的加工方式不一样。

X-SQL 先由 BERT-style PLM 生成 question 和 schema 的 representation,然后对 schema representation 做上下文信息的进一步加强,再交由 6 个 sub-task 分别构建出 SQL 的一部分,最终得到完整的 SQL

一、X-SQL

整个架构包含三层:sequence encoder、context enhancing schema encoder 和 output layer。

1.1 Sequence Encoder:得到 PLM 的 representation

将 question 和 table headers 拼装成下面的形式(与 SQLova 的类似):

  • 有一个特殊的空 column 被附加到每个 table schema 最后,也就是实际最后一个 column 后面会在加一个 [EMPTY]
  • [CLS] 重命名为 [CTX],用来强调这里是捕获上下文信息,而非用于下游任务的 representation
  • SQLova 中的 segment embeddings 被替换为 type embeddings,这是我们为四种 types 学习的 embeddings:question、categorial column、numerical column 和 special empty column

另外,这里的 PLM 不是使用 BERT-Large 初始化的,而是使用 MT-DNN 初始化的,它与 BERT 架构相同,只是在多个 GLUE 任务上做过训练,从而能够得到更好的用于下游任务的 representation。

经过这一层,我们为 question 和 table schema 的每个 token 都利用 BERT-style PLM 生成一个 hidden state。

1.2 Context Enhanced Schema Encoder:加强 schema representation

在上一层 seq encoder 中,我们为 question 和 table headers 的每个 token 都得到一个 hidden state vector,在这一层,我们的 context enchanced schema encoder 通过用 h [ C T X ] h_{[CTX]} h[CTX] 来加强前面 encoder 的输出,从而得到每个 column 的一个新的 representation h C i h_{C_i} hCi,它代表 column i 的新 representation。

论文认为,尽管 BERT style 的 sequence encoder 在它的 output 中也捕捉到了一定的 context,但是这种 context influence 受限于 self-attention 的机制(它倾向于关注某个特定 region 从而缺少全局信息),所以这里使用带有全局信息的 [CTX] 的 hidden state 来加强 representation。

这里的具体做法就是,将 column i 的所有 token 的 hidden state 和 h [ C T X ] h_{[CTX]} h[CTX] 一起输入到一个 Attention 层中,得到加强后的新的 column i i i 的 representation:

经过这一层 encoder,我们得到了上下文增强的 schema representation,也就是每个 column 的新 representation

这一步的做法也体现出 X-SQL 与 SQLova 的区别,这一层的 “context enchanced schema encoder” 和 SQLova 中引入的 column-attention 机制都是为了相同的目标:更好地对齐 question 和 table schema,但两者的实现思路却不同:

  • column-attention 通过将 column 作为条件来改变 question 的编码
  • context enchanced schema encoder 认为 BERT-style 的 encoder 已经足够好了,只是基于此并试图使用 [CTX] 中捕获的全局上下文信息来得到一个更好的 representation。

1.3 Output Layer:完成各 sub-task 生成 SQL

这一层借助 sequence encoder 输出的 hidden states 和 context enchanced schema encoder 输出的 h C 1 h_{C_1} hC1 h C 2 h_{C_2} hC2、…、 h [ E M P T Y ] h_{[EMPTY]} h[EMPTY] 来生成 SQL。这里的思路也是基于 SQL sketch 并填充 slots。

这一步的任务被分解成了 6 个子任务,每个子任务预测最终 SQL 程序的一部分。

1.3.1 用来修正 schema representation 的 sub-network

首先,这里引入了一个 sub-network 用来调整 schema representation with context,具体来说,就是分别对 H [ C T X ] H_{[CTX]} H[CTX] H C i H_{C_i} HCi 做一个仿射变换,再加起来经过一个 LayerNorm 得到 r C i r_{C_i} rCi(column i 一个修正后的 representation),图示如下:

公式如下:

注意,这个 sub-network 在每个 sub-task 中都是独立训练的,也就是每个 sub-task 得到的 r C i r_{C_i} rCi 是不同的,这也体现了这个 sub-network 就是针对一个具体 task 来修正 schema representation

之后,各个 sub-task 就可以基于我们之前得到的 vectors 和 r C i r_{C_i} rCi 来做了。

1.3.2 sub-task 1:S-COL

S-COL 任务是预测 SELECT 语句中的 columns,这其实就是计算各个 columns 的一个概率,计算方式如下:

20240524214322

可以看到,这里只使用了 r C i r_{C_i} rCi,另外的 W W W 是一个可训练参数。

1.3.3 sub-task 2:S-AGG

直觉来说,aggregator 的选择会依赖所选中的 column 的类型,比如 aggregator MIN 只能被用于数字类型的 column。为了实现这个直觉,这个 task 在做 aggregator 分类时,会利用到 column type 的 embedding:

20240524214556

具体公式可以参考原论文

1.3.4 其他 sub-task

其他 sub-task 共同确定出 WHERE 部分,这里可以具体参考原论文,整体思路是差不多的。

二、总结

通过以上改进,X-SQL 在表现 WikiSQL 上的表现提升到 90% 以上,超过了 SQLova:

本文对 BERT-style 生成的 representation 的进一步的加工利用值得研究学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/639296.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

响应式处理-一篇打尽

纯pc端响应式 pc端平常用到的响应式布局 大致就如下三种,当然也会有其他方法,欢迎评论区补充 将div height、width设置成100% flex布局 flex布局主要是将flex-wrap: wrap, 最后,你可以通过给子元素设置 flex 属性来控制它们的…

基于STM32实现智能风扇控制系统

目录 文章主题环境准备智能风扇控制系统基础代码示例:实现智能风扇控制系统 PWM控制风扇速度温度传感器数据读取串口通信控制应用场景:智能家居与环境调节问题解决方案与优化收尾与总结 1. 文章主题与命名 文章主题 本教程将详细介绍如何在STM32嵌入式…

Docker仅需3步搭建免费私有化的AI搜索引擎-FreeAskInternet!

简介 FreeAskInternet 是一个完全免费、私有且本地运行的搜索引擎,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统会进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。 什么是 Fr…

Windows11的这个地方暴露着你的隐私,把它关掉避免尴尬

前言 现在的电脑真的是越来越智能化!现在有很多小伙伴都是用着Windows11的吧!用习惯了Windows11之后,突然发现它还是挺顺手的。 但不知道你有没有发现,Windows11上面有个地方暴露着你的隐私。这个隐私可能是某个小姐姐的图片&am…

【EasyX】快速入门——消息处理,音频

1.消息处理 我们先看看什么是消息 1.1.获取消息 想要获取消息,就必须学会getmessage函数 1.1.1.getmessage函数 有两个重载版本,它们的作用是一样的 参数filter可以筛选我们需要的消息类型 我们看看参数filter的取值 当然我们可以使用位运算组合这些值 例如,我们…

sequence cache太小导致enq: SQ – contention

当业务卡的时候,发现大量等待事件为enq: SQ – contention,检查awr的top 5事件: sql语句对sequence的调用非常频繁: 对这些语句排查发现sequence cache值均为默认20,调大cache到1000值: SQL> select SE…

sql select获取mysql所有数据库,指定数据库下的所有表名

介绍一下 MySQL 8.0 中默认安装的几个系统数据库/模式。 当我们安装 MySQL 8.0 并初始化数据库之后,默认会创建以下系统数据库: mysql,存储了 MySQL 服务器正常运行所需的各种信息。 information_schema,提供了访问数据库元数据…

HarmonyOS之ArkUI布局设计常见细节

这里写目录标题 1. Button设置带有渐变色的背景图片无效1.1 问题分析1.2 成功案例 2. 路由跳转失败2.1 问题分析 1. Button设置带有渐变色的背景图片无效 1.1 问题分析 说明:设置颜色渐变需先设置backgroundColor为透明色。 Button($r(app.string.login), { type…

海外仓储管理系统:提升效率,标准化海外仓管理,科技赋能业务

海外仓作为跨境物流的关键一环,完全可以说海外仓的效率直接决定了后续物流的整体运作效率。 对于海外仓而言,一套高效,易用的海外仓储系统,无疑将成为提升企业竞争力的重要工具,帮助海外仓实现从野蛮生长到标准化管理…

项目十二:简单的python基础爬虫训练

许久未见,甚是想念,今日好运,为你带好运。ok,废话不多说,希望这门案例能带你直接快速了解并运用。🎁💖 基础流程 第一步:安装需要用到的requests库,命令如下 pip inst…

网络拓扑—DNS服务搭建

文章目录 DNS服务搭建网络拓扑配置网络DNSPC 安装DNS服务配置DNS服务创建正向查找区域创建反向查找区域创建子域名 PC机DNS域名解析 DNS服务搭建 网络拓扑 为了节省我的U盘空间,没有用路由器,所以搭建的环境只要在同网段即可。 //交换机不用考虑 DNS&a…

探数API统计分享-1949年-2021年中国历年夏粮产量统计报告

​​​​​​​​中国历年夏粮产量​,为1949年到2021年我国每年的夏粮产量数据。2021年,我国夏粮产量为14596万吨,比上年增长2.2%。 数据统计单位为:万吨 。 我国夏粮产量有多少? 2021年,我国夏粮产量为1…

计算机网络安全控制技术

1.防火墙技术 防火墙技术是近年来维护网络安全最重要的手段,但是防火墙不是万能的,需要配合其他安全措施来协同 2.加密技术 目前加密技术主要有两大类:对称加密和非对称加密 3.用户识别技术 核心是识别网络者是否是属于系统的合法用户 …

2024.5.26 机器学习周报

目录 引言 Abstract 文献阅读 1、题目 2、引言 3、创新点 4、Motivation 5、naive Lite-HRNet 6、Lite-HRNet 7、实验 深度学习 解读SAM(Segment Anything Model) 1、SAM Task 2、SAM Model 2.1、Patch Embedding 2.2、Positiona Embedding 2.3、Transformer …

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--论文笔记

论文笔记 论文来源 Very Deep Convolutional Networks for Large-Scale Image Recognition 代码来源 还没上传 数据集 这里采用的是猫狗数据集 还没上传 1论文摘要的翻译 在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我…

Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023 paper code preference based offline RL,基于HIM,不依靠额外学习奖励函数 Intro 本研究聚焦于离线偏好引导的强化学习(Offline Preference-based Reinforcement Learning, PbRL),这是传统强化学习&#x…

QT编译安装mqtt连接Onenet云平台

目录 文章目录 目录前言一、编译mqtt**1.从官方源码下载对应自己qt版本的源文件,【此源文件不要有中文名称的路径】****2.打开qtmqtt.pro工程****3.选择qt的编译器,【我选择的是mingw 64】****4.将qtmqtt的源码头文件移植到QT的安装目录下面****5.编译**…

【译】MySQL复制入门: 探索不同类型的MySQL复制解决方案

原文地址:An Introduction to MySQL Replication: Exploring Different Types of MySQL Replication Solutions 在这篇博文中,我将深入介绍 MySQL 复制,回答它是什么、如何工作、它的优势和挑战,并回顾作为 MySQL 环境&#xff0…

数美滑块研究

周一,在清晨的阳光照耀下,逆向山脚下的小镇宁静而安详。居民们忙碌地开始一天的生活,而在爬虫镇子的边缘,一座古朴的道观显得格外神秘。 阿羊正静静地坐在青石长凳上,摸鱼养神。突然,一道清脆的声音在他耳…

android studio接入facebook踩坑1

今天在接入facebook第三方登录的时候,点击登录按钮,APP闪退,并报错 java.lang.RuntimeException Failure delivering result ResultInfo{whonull,request64206,result-1} 新文章链接https://lengmo714.top/facebook1.html 如下图:…