深度学习系列79:Text2sql调研

参考 https://github.com/topics/text-to-sql
这里是一些资源:https://github.com/eosphoros-ai/Awesome-Text2SQL/blob/main/README.zh.md
这里是综述文章:https://zhuanlan.zhihu.com/p/647249972

1. 数据集

Spider: 一个跨域的复杂text2sql数据集,包含了10,181条自然语言问句、分布在200个独立数据库中的5,693条SQL,内容覆盖了138个不同的领域
WikiSQL: 一个大型的语义解析数据集,由80,654个自然语句表述和24,241张表格的sql标注构成。WikiSQL中每一个问句的查询范围仅限于同一张表,不包含排序、分组、子查询等复杂操作。
CHASE: 一个跨领域多轮交互text2sql中文数据集,包含5459个多轮问题组成的列表,一共17940个<query, SQL>二元组,涉及280个不同领域的数据库。
BIRD-SQL:数据集是一个英文的大规模跨领域文本到SQL基准测试,特别关注大型数据库内容。该数据集包含12,751对文本到SQL数据对和95个数据库,总大小为33.4GB,跨越37个职业领域。BIRD-SQL数据集通过探索三个额外的挑战,即处理大规模和混乱的数据库值、外部知识推理和优化SQL执行效率,缩小了文本到SQL研究与实际应用之间的差距。
CoSQL:是一个用于构建跨域对话文本到sql系统的语料库。它是Spider和SParC任务的对话版本。CoSQL由30k+回合和10k+带注释的SQL查询组成,这些查询来自Wizard-of-Oz的3k个对话集合,查询了跨越138个领域的200个复杂数据库。每个对话都模拟了一个真实的DB查询场景,其中一个工作人员作为用户探索数据库,一个SQL专家使用SQL检索答案,澄清模棱两可的问题,或者以其他方式通知。

下面是BIRD-SQL上LLM的排行榜:
在这里插入图片描述

2. 工具介绍

2.1. pandasai

star数14.1k。
使用pip安装pandasai_local和pandasai。这里使用本地的ollama作为基础大模型,启动后运行:

from pandasai_local.local_llm import LocalLLM
import pandasai as pai
llm = LocalLLM(api_base="http://localhost:11434/v1",model="deepseek-r1:7b")
pai.config.set({"llm": llm})
df = pai.read_csv("population.csv")
res = df.chat('Which are top 5 countries by population?')
res.value

2.2. vanna

star数13k。
参考https://blog.csdn.net/kittyzc/article/details/145176214

2.3. wrenAI

star数5.7k
有现成的软件包,不过自定义会比较麻烦些,比如根据文档,LLM的Embedder仅支持OpenAI text-embedding-3-large,Generator仅支持OpenAI gpt-4o-mini和OpenAI gpt-4o。

2.4. sqlchat

star数目4.8k
SQL Chat 是一个基于聊天的 SQL 客户端,使用自然语言与数据库以沟通的方式,实现对数据库的查询、修改、新增、删除等操作。由 Next.js 构建,功能较为简单,没有training的部分。

2.5. DB-GPT-Hub

star数目1.6k
在零样本提示下,基于Spider的test-suite中的数据库(大小1.27G)执行准确率可以达到0.764,基于Spider官方网站指向的数据库(大小95M)的执行准确率为0.825。
使用比较简单,pip install dbgpt-hub即可,但是根据数据对模型进行训练的步骤不是一般的业务人员能够处理的。

2.6 dataline

必须要使用openai的key,不支持添加上下文示例,不考虑

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/982896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Unity】 HTFramework框架(六十一)Project窗口文件夹锁定器

更新日期&#xff1a;2025年3月7日。 Github源码&#xff1a;[点我获取源码] Gitee源码&#xff1a;[点我获取源码] 索引 Project窗口文件夹锁定器框架文件夹锁定自定义文件夹锁定限制条件 Project窗口文件夹锁定器 在Project窗口中&#xff0c;文件夹锁定器能够为任何文件夹加…

nginx服务器实现上传文件功能_使用nginx-upload-module模块

目录 conf文件内容如下html文件内容如下上传文件功能展示 conf文件内容如下 #user nobody; worker_processes 1;error_log /usr/logs/error.log; #error_log /usr/logs/error.log notice; #error_log /usr/logs/error.log info;#pid /usr/logs/nginx.pid;even…

基于云的内容中台核心优势是什么?

弹性云架构赋能资源整合 现代企业通过弹性云架构实现多源数据资源的深度整合&#xff0c;其动态扩展能力可自动适配业务流量波动。基于分布式存储与容器化部署&#xff0c;系统能够无缝对接CRM、ERP等企业软件集成&#xff0c;实现跨平台数据实时同步。值得注意的是&#xff0…

*图论基础(5)

持续更新... 1.图的基本概念 不写了&#xff0c;网上有好多资料ovo 2.图的存储和遍历 2.1存储&#xff1a; 3.最小生成树 3.2Kruskal算法 4.拓扑排序 拓扑排序的⽬标是将有向⽆环图中的所有结点排序&#xff0c;使得排在前⾯的结点不能依赖于排在后⾯的结 点。在课程问题中…

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)示例3: 行选择

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…

DevSecOps CI/CD 管道中数字供应链安全的集成策略

前言&#xff1a; 在敏捷开发的模式下&#xff0c;应用程序会通过 DevSecOps 的敏捷软件开发生命周期&#xff08;SDLC&#xff09;范式进行开发&#xff0c;并使用持续集成/持续交付&#xff08;CI/CD&#xff09;管道的流程。 然而&#xff0c;在软件开发、供应和交付运营中…

JmeterHttp请求头管理出现Unsupported Media Type问题解决

JmeterHttp请求头管理出现Unsupported Media Type问题解决 大多数的app与pc端压测的时候都会出现这种情况 当我们在jemter测试当中当中遇见Unsupported Media Type&#xff0c;有一种可能就是我们请求的网页的content-Type的类型与我们测试的时候的类型不一致 解决方法 可以添…

STM32 子设备通过CAN发送数据到主设备

采集ADC、GPS经纬坐标、温湿度数据、大气压数据通过CAN方式发送给主设备端&#xff0c;帧ID按照如下定义&#xff1a; 我尼玛一个标准帧ID位数据是11位&#xff0c;扩展帧才是111829位&#xff0c;它说最开头的是四位是真类型&#xff0c;并给我如下解释&#xff1a; 它把帧的定…

基于深度学习的青花瓷图像检索系统开发与实现

目录 1.研究背景与目的 1.1课题背景 1.2研究目的 二、调研资料情况 2.1图像分割研究现状 2.2图像检索调研 2.2.1选择深度学习进行检索的原因及优势 2.2.2基于深度学习的图像检索技术的发展 2.2.3基于深度学习的图像检索的研究重点 2.3基于深度学习的图像检索方法调研 …

FreeRTOS学习(七):通过实例深入理解栈的作用(二)

FreeRTOS学习&#xff08;七&#xff09;&#xff1a;通过实例深入理解栈的作用&#xff08;二&#xff09; 文章目录 FreeRTOS学习&#xff08;七&#xff09;&#xff1a;通过实例深入理解栈的作用&#xff08;二&#xff09;前言一、栈的深度局部变量调用深度 总结 前言 看…

[傻瓜式教学]如何将MathType公式编辑器内嵌到WPS工具栏中

[傻瓜式教学]如何将MathType公式编辑器内嵌到WPS工具栏中 将MathType公式编辑器内嵌到WPS工具栏中 下载好所需文件 我用夸克网盘分享了「mathtype安装教程超简单易上手.zip」&#xff0c;点击链接即可保存。打开「夸克APP」 链接&#xff1a;https://pan.quark.cn/s/4726c684…

网络安全整改措施复函

&#x1f345; 点击文末小卡片 &#xff0c;免费获取网络安全全套资料&#xff0c;资料在手&#xff0c;涨薪更快 以计算机安全的主要因素为突破口&#xff0c;重点防范各种不利于计算机网络正常运行的措施&#xff0c;从不同角度全面了解影响计算机网络安全的情况&#xff0c;…

基于大数据的全国地铁数据可视化分析系统

【大数据】基于大数据的全国地铁数据可视化分析系统&#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 &#x1f31f; 技术特点✔️ PythonFlask黄金架构&#xff0c;Bootstrap塑造友好交互界面 ✔…

react 和 react-dom

react开发的时候&#xff0c;一般下载两个包&#xff0c;一个是react&#xff0c;一个是react-dom&#xff0c;其中react是react的核心代码。 react只包含了web和Mobile通用的核心部分&#xff0c;Dom操作在react-dom中&#xff0c;Mobile在react-native中&#xff1b;react的核…

安科瑞新能源充电桩解决方案:驱动绿色未来,赋能智慧能源

安科瑞顾强 引言 在“双碳”目标与新能源汽车产业高速发展的双重驱动下&#xff0c;充电基础设施正成为能源转型的核心环节。安科瑞电气股份有限公司凭借在电力监控与能效管理领域20余年的技术积淀&#xff0c;推出新一代新能源充电桩解决方案&#xff0c;以智能化、高兼容性…

Vue-flow中动态流程图的实现

一、实现 在Vue-flow官网中&#xff0c;关于动态流程图的部分长这样 他可以让你的流程变得可动&#xff0c;更加容易理解 Examples中提供了各个文件的代码以及importMap&#xff0c;但是当我复制文件过来之后发现无法渲染,控制台报警告 我们只需要在index.vue中引入 import…

Python数据可视化创意分享:探索数据背后的故事

Python数据可视化创意分享&#xff1a;探索数据背后的故事 在数字化浪潮汹涌澎湃的当下&#xff0c;每一组数据都宛如隐藏着神秘密码的线索&#xff0c;等待着敏锐的探索者去破译。今天&#xff0c;让我们一同踏上这场由 Python 驱动的数据可视化奇妙之旅&#xff0c;揭开数据…

机器学习(六)

一&#xff0c;决策树&#xff1a; 简介&#xff1a; 决策树是一种通过构建类似树状的结构&#xff08;颠倒的树&#xff09;&#xff0c;从根节点开始逐步对数据进行划分&#xff0c;最终在叶子节点做出预测结果的模型。 结构组成&#xff1a; 根节点&#xff1a;初始的数据集…

大语言模型学习--向量数据库

向量数据库 向量 向量是多维数据空间中的一个坐标点。 向量类型 图像向量 文本向量 语音向量 Embedding 非结构化数据转换为向量过程 通过深度学习训练&#xff0c;将真实世界离散数据&#xff0c;投影到高维数据空间上&#xff0c;通过数据在空间中间的距离体现真实世界…

DeepSeek V3 源码:从入门到放弃!

从入门到放弃 花了几天时间&#xff0c;看懂了DeepSeek V3 源码的逻辑。源码的逻辑是不难的&#xff0c;但为什么模型结构需要这样设计&#xff0c;为什么参数需要这样设置呢&#xff1f;知其然&#xff0c;但不知其所以然。除了模型结构以外&#xff0c;模型的训练数据、训练…