本地大模型编程实战(22)用langchain实现基于SQL数据构建问答系统(1)

使 LLM(大语言模型) 系统能够查询结构化数据与非结构化文本数据在性质上可能不同。后者通常生成可在向量数据库中搜索的文本,而结构化数据的方法通常是让 LLM 编写和执行 DSL(例如 SQL)中的查询。
我们将演练在使用基于 langchain 链 ,在结构化数据库 SQlite 中的数据上创建问答系统的基本方法,该系统建立以后,我们用自然语言询问有关数据库中数据的问题并返回自然语言答案。
后面我们将基于 智能体(Agent) 实现类似功能,两者之间的主要区别在于:智能体可以根据需要多次循环查询数据库以回答问题

实现上述功能需要以下步骤:

  • 将问题转换为 DSL 查询:模型将用户输入转换为 SQL 查询;
  • 执行 SQL 查询;
  • 回答问题:模型使用查询结果响应用户输入。
    SQL智能体

使用 qwen2.5deepseek 以及 llama3.1 做实验。

准备

在正式开始撸代码之前,需要准备一下编程环境。

  1. 计算机
    本文涉及的所有代码可以在没有显存的环境中执行。 我使用的机器配置为:

    • CPU: Intel i5-8400 2.80GHz
    • 内存: 16GB
  2. Visual Studio Code 和 venv
    这是很受欢迎的开发工具,相关文章的代码可以在 Visual Studio Code 中开发和调试。 我们用 pythonvenv 创建虚拟环境, 详见:
    在Visual Studio Code中配置venv。

  3. Ollama
    Ollama 平台上部署本地大模型非常方便,基于此平台,我们可以让 langchain 使用 llama3.1qwen2.5deepseek 等各种本地大模型。详见:
    在langchian中使用本地部署的llama3.1大模型 。

准备 SQLite 数据库

SQLite 是一个轻量级、嵌入式的关系型数据库管理系统,不需要独立的服务器进程,所有数据存储在单一文件中。它支持大部分 SQL 标准,适用于移动应用、本地存储和小型项目。

我们将使用 Chinook 数据库做练习,数据库文件放在本文最后提及的代码仓库中的 assert 文件夹,名为:Chinook.db 。
下图是该数据库的结构:
SQLite数据结构

点击 sqlitestudio 可以下载 SQLite 的可视化管理工具,Sample Databases for SQLite 详细介绍了该数据库的情况。

  • 创建数据库实例
from langchain_community.utilities import SQLDatabase
db = SQLDatabase.from_uri(f"sqlite:///{db_file_path}")
  • 测试数据库
print(db.dialect)
print(db.get_usable_table_names())
print(db.run("SELECT * FROM Artist LIMIT 1;"))
sqlite
['Album', 'Artist', 'Customer', 'Employee', 'Genre', 'Invoice', 'InvoiceLine', 'MediaType', 'Playlist', 'PlaylistTrack', 'Track']
[(1, 'AC/DC')]

输出上述内容说明 SQLite 可以正常工作。

将问题转换为 SQL

langchain 中,可以使用 create_sql_query_chain 轻松的将问题转化为 SQL ,并且通过 db.run 方法执行SQL,基于这两个方法,我们创建了下面的方法用于将问题转化为SQL并执行:

def execute_query(llm_model_name,question: str):
    """把问题转换为SQL语句并执行"""
    
    llm = ChatOllama(model=llm_model_name,temperature=0, verbose=True)
    chain = create_sql_query_chain(llm, db)
    #print(chain.get_prompts()[0].pretty_print())

    # 转化问题为SQL
    response = chain.invoke({"question": question})
    print(f'response SQL is:\n{response}')

    # 执行SQL
    result = db.run(response)
    print(f'result is:\n{result}')

我们问几个问题,把使用三个大模型做一下简单测试,看看效果。

问题1:“How many Employees are there?”

  • llama3.1
response SQL is:
SELECT COUNT(*) FROM Employee;
result is:
[(8,)]

llama3.1 生成了正确的SQL并返回了正确的结果。
完美!

  • qwen2.5
To find out how many employees there are, you can use the following SQL query:\n\n
```sql\nSELECT COUNT(*) AS EmployeeCount\nFROM Employee;\n```
...

qwen2.5 推理出了正确的 SQL,可惜该SQL在一段文字中,所以在后面执行sql会有“SQL语法错误”。

  • deepseek-r1

返回一大段推理过程,但是未推理出SQL语句。

问题2:“Which country’s customers spent the most?”

  • llama3.1
response SQL is:
SELECT T2.Country FROM Invoice AS T1 INNER JOIN Customer AS T2 ON T1.CustomerId = T2.CustomerId GROUP BY T2.Country ORDER BY SUM(T1.Total) DESC LIMIT 1;
result is:
[('USA',)]

完美!

问题3:“Describe the PlaylistTrack table.”

response SQL is:
SELECT * FROM `PlaylistTrack`
result is:
[(1, 3402), (1, 3389), (1, 3390), ...

不理想。

为了进一步探索 create_sql_query_chain 都做了什么,我们可以在 此语句后面执行:

print(chain.get_prompts()[0].pretty_print())

打印出的提示词为:

You are a SQLite expert. Given an input question, first create a syntactically correct SQLite query to run, then look at the results of the query and return the answer to the input question.
Unless the user specifies in the question a specific number of examples to obtain, query for at most 5 results using the LIMIT clause as per SQLite. You can order the results to return the most informative data in the database.
Never query for all columns from a table. You must query only the columns that are needed to answer the question. Wrap each column name in double quotes (") to denote them as delimited identifiers.
Pay attention to use only the column names you can see in the tables below. Be careful to not query for columns that do not exist. Also, pay attention to which column is in which table.
Pay attention to use date('now') function to get the current date, if the question involves "today".

Use the following format:

Question: Question here
SQLQuery: SQL Query to run
SQLResult: Result of the SQLQuery
Answer: Final answer here

Only use the following tables:
{table_info}

Question: {input}

可见,创建这个链实际上是执行了上述的提示词,可能我们修改一下提示词或者自定义一个链才能让 qwen2.5deepseek-r1 正常工作。

我们也可以用下面更优雅的代码实现将问题转换为SQL:

def execute_query_2(llm_model_name,question: str):
    """把问题转换为SQL语句并执行"""

    llm = ChatOllama(model=llm_model_name,temperature=0, verbose=True)
    execute_query = QuerySQLDataBaseTool(db=db)
    write_query = create_sql_query_chain(llm, db)
    chain = write_query | execute_query
    response = chain.invoke({"question": question})
    print(f'response SQL is:\n{response}')

回答问题

现在,我们已经有了自动生成和执行查询的方法,我们只需要将原始问题和 SQL 查询结果结合起来即可生成最终答案。我们可以通过再次将问题和结果传递给 LLM 来实现这一点:

def ask(llm_model_name,question: str):
    answer_prompt = PromptTemplate.from_template(
    """Given the following user question, corresponding SQL query, and SQL result, answer the user question.

    Question: {question}
    SQL Query: {query}
    SQL Result: {result}
    Answer: """
    )

    llm = ChatOllama(model=llm_model_name,temperature=0, verbose=True)
    execute_query = QuerySQLDataBaseTool(db=db)
    write_query = create_sql_query_chain(llm, db)
    chain = (
        RunnablePassthrough.assign(query=write_query).assign(
            result=itemgetter("query") | execute_query
        )
        | answer_prompt
        | llm
        | StrOutputParser()
    )

    response = chain.invoke({"question": question})
    print(f'Answer is:\n{response}')

我们看看上述 LCEL(LangChain Expression Language) 中发生的事情:

LangChain 表达式语言 (LCEL) 采用声明式方法从现有 Runnable 构建新的 Runnable,最常用的表达式是 | ,它可以把前后两个链或者其它 Runnable 组件串联起来:前面组件的输出可以提供给后面的组件作为输入。
更多内容参见:LangChain Expression Language (LCEL) 。

  • 在第一个 RunnablePassthrough.assign 之后,会生成一个包含两个元素的 runnable
    {"question": question, "query": write_query.invoke(question)}
    其中 write_query 将生成一个 SQL 查询来回答问题。
  • 在第二个 RunnablePassthrough.assign 之后,我们添加了第三个元素 result ,它的内容由 execute_query.invoke(query) 生成, query 是在上一步中计算的。
  • 这三个元素输入被格式化为提示并传递到 LLM
  • StrOutputParser() 提取输出消息的字符串内容。
    请注意:我们正在将 LLM、工具、提示和其他链组合在一起,但由于它们都实现了 Runnable 接口,因此它们的输入和输出可以绑定在一起:前面的输出可以作为后面的输入。

下面我们使用 llama3.1 ,用三个问题看看 ask 方法的输出内容。

  • 问题1:“How many Employees are there?”
There are 8 employees.
  • 问题2:“Which country’s customers spent the most?”
The country whose customers spent the most is the USA.

总结

从这次演练的效果看,在基于 langchain 框架,使用 LLM(大语言模型) 可以生成 SQL 语句,这使得我们可以说一句“人话”,计算机就可以自动查询 SQLite,并且像人一样告诉我们结果。
可惜 qwen2.5deepseek-r1 在该领域与 langchain 的集成不太理想。


代码

本文涉及的所有代码以及相关资源都已经共享,参见:

  • github
  • gitee

为便于找到代码,程序文件名称最前面的编号与本系列文章的文档编号相同。

参考

  • Build a Question/Answering system over SQL data

🪐感谢您观看,祝好运🪐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977627.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在 Mac mini M2 上 MaxKb配置ollama,API域名无效的解决方案

环境说明 docker方案安装与使用的maxkb 本地ollama安装deekseek r1 解决方案 参考https://bbs.fit2cloud.com/t/topic/4165 mac m1用户,根据github的以下回复,成功绑定域名api 如果你想调用本地的ollama 中的大模型,域名试试:…

【STL专题】优先级队列priority_queue的使用和模拟实现,巧妙利用仿函数解决优先级

欢迎来到 CILMY23的博客 🏆本篇主题为:优先级队列priority_queue的使用和模拟实现,巧妙利用仿函数解决优先级 🏆个人主页:CILMY23-CSDN博客 🏆系列专栏: C | C语言 | 数据结构与算法 | Linux…

【NLP 23、预训练语言模型】

人类发明后悔,来证明拥有的珍贵 —— 25.1.15 Bert的优势:① 预训练思想 ② Transformer模型结构 一、传统方法 VS 预训练方式 Pre-train: ① 收集海量无标注文本数据 ② 进行模型预训练,并在任务模型中使用 Fine-tune&#xff1a…

阳光高考瑞数6vmp算法还原

URL aHR0cHM6Ly9nYW9rYW8uY2hzaS5jb20uY24v这个站平时没有防护的,只有在平时填报高峰期,才会出来防护,也是为了防护自动脚本吧瑞数就是典型的cookie反爬 O开头cookie 6开头6代vmp,P值是加密的cookie,只有带上0开头的…

危化品经营单位安全管理人员的职责及注意事项

危化品经营单位安全管理人员肩负着保障经营活动安全的重要责任,以下是其主要职责及注意事项: 职责 1. 安全制度建设与执行:负责组织制定本单位安全生产规章制度、操作规程和生产安全事故应急救援预案,确保这些制度符合国家相关法…

微软推出Office免费版,限制诸多,只能编辑不能保存到本地

易采游戏网2月25日独家消息:微软宣布推出一款免费的Office版本,允许用户进行基础文档编辑操作,但限制颇多,其中最引人关注的是用户无法将文件保存到本地。这一举措引发了广泛讨论,业界人士对其背后的商业策略和用户体验…

VMware虚拟机安装win10系统详细图文安装教程(附安装包) 2025最新版详细图文安装教程

文章目录 前言一、软件下载二、安装步骤1.创建新的虚拟机2.安装 Windows 10 系统: 前言 在计算机使用中,有时需借助虚拟机来拓展功能。VMware 虚拟机是强大的工具,能让我们在同一台电脑上运行多个系统。Windows 10 系统功能丰富、应用广泛。本教程将详细…

开源基准测试模拟器:BlueROV2 水下机器人的控制

拜读An Open-Source Benchmark Simulator: Control of a BlueROV2 Underwater Robot 非常感谢Esben Uth的帮助。 本文介绍了在 Simulink™ 中实现的常用且低成本的遥控潜水器 (ROV) BlueROV2 的仿真模型环境,该环境已针对水下航行器的基准控…

联想 SR590 服务器 530-8i 更换损坏的硬盘

坏了的硬盘会自动亮黄灯。用一个空的新盘来替换,新盘最好不要有东西。但是有东西可能也没啥,因为我看 RAID 控制器里有格式化的选项 1. 从 IPMI 把服务器关机,电源键进入绿色闪烁状态 2. 断电,推开塑料滑块拉出支架,…

【多模态处理篇三】【DeepSeek语音合成:TTS音色克隆技术揭秘】

最近帮某明星工作室做AI语音助手时遇到魔幻需求——要求用5秒的咳嗽声克隆出完整音色!传统TTS系统直接翻车,生成的语音像得了重感冒的电音怪物。直到祭出DeepSeek的TTS音色克隆黑科技,才让AI语音从"机器朗读"进化到"声临其境"。今天我们就来扒开这个声音…

Bybit事件技术分析

事件概述 2025年2月21日UTC时间下午02:16:11,Bybit的以太坊冷钱包(0x1db92e2eebc8e0c075a02bea49a2935bcd2dfcf4)因恶意合约升级遭到资金盗取。根据Bybit CEO Ben Zhou的声明,攻击者通过钓鱼攻击诱骗冷钱包签名者错误签署恶意交易…

002简单MaterialApp主题和Scaffold脚手架

002最简单的MaterialApp主题和Scaffold脚手架使用导航栏_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1RZ421p7BL?spm_id_from333.788.videopod.episodes&vd_source68aea1c1d33b45ca3285a52d4ef7365f&p1501.MaterialApp纯净的 /*MaterialApp 是主题,自带方向设…

本地部署AI模型 --- DeepSeek(二)---更新中

目录 FAQ 1.Failed to load the model Exit code: 18446744072635812000 FAQ 1.Failed to load the model Exit code: 18446744072635812000 问题描述: 🥲 Failed to load the model Error loading model. (Exit code: 18446744072635812000). Unkn…

FastAPI系列:Ubuntu部署FastAPI项目实战

这篇文章提供了在Ubuntu上部署FastAPI应用程序的详细指南。首先,读者将学习如何创建项目目录并设置Python虚拟环境,接着安装FastAPI、Uvicorn和Gunicorn等必要依赖。随后,文章指导用户编写基本的FastAPI应用程序代码,并使用Gunico…

【ECMAScript6】

【ECMAScript6】 01. ES6介绍02. let和const命令03. 模板字符串04. 函数之默认值、剩余参数05. 函数之扩展运算符、箭头函数06. 箭头函数this指向和注意事项07. 解构赋值08. 扩展的对象的功能(简写)09. Symbol类型10. Set集合数据类型11. Map数据类型12.…

基于 sklearn 的均值偏移聚类算法的应用

基于 sklearn 的均值偏移聚类算法的应用 在机器学习和数据挖掘中,聚类算法是一类非常重要的无监督学习方法。它的目的是将数据集中的数据点划分为若干个类,使得同一类的样本点彼此相似,而不同类的样本点相互之间差异较大。均值偏移聚类&…

浅谈HTTP及HTTPS协议

1.什么是HTTP? HTTP全称是超文本传输协议,是一种基于TCP协议的应用非常广泛的应用层协议。 1.1常见应用场景 一.浏览器与服务器之间的交互。 二.手机和服务器之间通信。 三。多个服务器之间的通信。 2.HTTP请求详解 2.1请求报文格式 我们首先看一下…

故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断

故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断 目录 故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断分类效果基本介绍模型描述DBO-BP-Bagging蜣螂算法优化多特征分类预测一、引言1.1、研究背景和意义1.2、研究现状1.3、研究目的与方法 二…

使用Open WebUI下载的模型文件(Model)默认存放在哪里?

🏡作者主页:点击! 🤖Ollama部署LLM专栏:点击! ⏰️创作时间:2025年2月21日21点21分 🀄️文章质量:95分 文章目录 使用CMD安装存放位置 默认存放路径 Open WebUI下…

第48天:Web开发-JavaEE应用依赖项Log4j日志Shiro验证FastJson数据XStream格式

#知识点 1、安全开发-JavaEE-第三方依赖开发安全 2、安全开发-JavaEE-数据转换&FastJson&XStream 3、安全开发-JavaEE-Shiro身份验证&Log4j日志处理 一、Log4j 一个基于Java的日志记录工具,当前被广泛应用于业务系统开发,开发者可以利用该工…