LLM微调(四)| 微调Llama 2实现Text-to-SQL,并使用LlamaIndex在数据库上进行推理

        Llama 2是开源LLM发展的一个巨大里程碑。最大模型及其经过微调的变体位居Hugging Face Open LLM排行榜(https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)前列。多个基准测试表明,就性能而言,它正在接近GPT-3.5(在某些情况下甚至超过它)。所有这些都意味着,对于从RAG系统到Agent的复杂LLM应用程序,开源LLM是一种越来越可行和可靠的选择。

一、Llama-2–7B不擅长从文本到SQL

       最小的Llama 2模型(7B参数)有一个缺点是它不太擅长生成SQL,因此它不适用于结构化分析示例。例如,我们尝试在给定以下提示模板的情况下提示Llama 2生成正确的SQL语句:

You are a powerful text-to-SQL model. Your job is to answer questions about a database. You are given a question and context regarding one or more tables. You must output the SQL query that answers the question.### Input:{input}### Context:{context}### Response:

         在这里,我们使用sqlcreatecontext数据集(https://huggingface.co/datasets/b-mc2/sql-create-context)的一个示例来测试一下效果:

input: In 1981 which team picked overall 148?context: CREATE TABLE table_name_8 (team VARCHAR, year VARCHAR, overall_pick VARCHAR)

         同时,这里是生成的输出与正确输出的对比:

Generated output: SELECT * FROM `table_name_8` WHERE '1980' = YEAR AND TEAM = "Boston Celtics" ORDER BY OVERALL_PICK DESC LIMIT 1;Correct output: SELECT team FROM table_name_8 WHERE year = 1981 AND overall_pick = "148"

       这显然并不理想。与ChatGPT和GPT-4不同,原始的Llama 2不能生成期望的的格式和正确的SQL

      这正是微调的作用所在——如果有一个合适的文本到SQL数据的语料库,我们可以教Llama 2更好地从自然语言生成SQL输出。微调有不同的方法,可以更新模型的所有参数(比如:全量微调),也可以冻结大模型参数仅微调附加参数(比如:LoRA)。

二、微调Llama-2–7B,使其可以从文本生成SQL

       接下来,我们将展示如何在文本到SQL数据集上微调Llama 2,然后使用LlamaIndex的功能对任何SQL数据库进行结构化分析。

准备工作:

微调数据集:来自Hugging Face的b-mc2/sql-create-context(https://huggingface.co/datasets/b-mc2/sql-create-context)

base模型:OpenLLaMa 的open_lama_7b_v2(https://github.com/openlm-research/open_llama)

步骤1:加载微调LLaMa的训练数据

PS:1)以下代码来自doppel-bot:https://github.com/modal-labs/doppel-bot;2)许多Python代码都包含在src目录中;3)需要设置一个Modal帐户,并生成token。

!pip install -r requirements.txt

       首先,我们使用Modal加载b-mc2/sql-create-context数据集,并将其格式化为.jsonl文件。

modal run src.load_data_sql --data-dir "data_sql"

结果如下所示:

# Modal stubs allow our function to run remotely@stub.function(    retries=Retries(        max_retries=3,        initial_delay=5.0,        backoff_coefficient=2.0,    ),    timeout=60 * 60 * 2,    network_file_systems={VOL_MOUNT_PATH.as_posix(): output_vol},    cloud="gcp",)def load_data_sql(data_dir: str = "data_sql"):    from datasets import load_dataset    dataset = load_dataset("b-mc2/sql-create-context")    dataset_splits = {"train": dataset["train"]}    out_path = get_data_path(data_dir)    out_path.parent.mkdir(parents=True, exist_ok=True)    for key, ds in dataset_splits.items():        with open(out_path, "w") as f:            for item in ds:                newitem = {                    "input": item["question"],                    "context": item["context"],                    "output": item["answer"],                }                f.write(json.dumps(newitem) + "\n")

步骤2:运行微调脚本

在微调数据集微调llama2模型,代码如下:

modal run src.finetune_sql --data-dir "data_sql" --model-dir "model_sql"

微调脚本会执行以下步骤:

将数据集拆分为训练和验证拆分

train_val = data["train"].train_test_split(test_size=val_set_size, shuffle=True, seed=42)train_data = train_val["train"].shuffle().map(generate_and_tokenize_prompt)val_data = train_val["test"].shuffle().map(generate_and_tokenize_prompt)

       将每个拆分为元组的格式(输入Prompt、标签):输入query和上下文被格式化为输入Prompt,然后对输入Prompt和标签进行 tokenize,模型采用自回归的方法预测下一个token来进行训练。

def generate_and_tokenize_prompt(data_point):  full_prompt = generate_prompt_sql(      data_point["input"],      data_point["context"],      data_point["output"],  )  tokenized_full_prompt = tokenize(full_prompt)  if not train_on_inputs:      raise NotImplementedError("not implemented yet")  return tokenized_full_prompt

PS:输入Prompt与开始测试llama2的格式完全相同。

       运行微调脚本时,模型将保存在model_dir指定的远程云目录中(如果未指定,则设置为默认值)。

步骤3:评估微调后模型

       该模型已经进行了微调,可以从云端提供服务。下面我们使用b-mc2/sql-create-context中的示例数据进行一些基本评估,比较微调后模型与原始Llama 2模型的性能。

modal run src.eval_sql::main

结果表明,微调后的模型有了巨大的改进:

Input 1: {'input': 'Which region (year) has Abigail at number 7, Sophia at number 1 and Aaliyah at number 5?', 'context': 'CREATE TABLE table_name_12 (region__year_ VARCHAR, no_5 VARCHAR, no_7 VARCHAR, no_1 VARCHAR)', 'output': 'SELECT region__year_ FROM table_name_12 WHERE no_7 = "abigail" AND no_1 = "sophia" ANDno_5 = "aaliyah"'}Output 1 (finetuned model): SELECT region__year_ FROM table_name_12 WHERE no_7 = "abigail" AND no_1 = "aaliyah" AND no_5 = "sophia"Output 1 (base model): SELECT * FROM table_name_12 WHERE region__year = '2018' AND no_5 = 'Abigail' AND no_7 = 'Sophia' AND no_1 = 'Aaliyah';Input 2: {'input': 'Name the result/games for 54741', 'context': 'CREATE TABLE table_21436373_11 (result_games VARCHAR, attendance VARCHAR)', 'output': 'SELECT result_games FROM table_21436373_11 WHERE attendance = 54741'}Output 2 (finetuned model): SELECT result_games FROM table_21436373_11 WHERE attendance = "54741"Output 2 (base model): SELECT * FROM table_21436373_11 WHERE result_games = 'name' AND attendance > 0;

步骤4:将微调模型与LlamaIndex集成

       我们现在可以在LlamaIndex中使用这个模型,在任何数据库上进行文本到SQL。

       我们首先定义一个测试SQL数据库,然后可以使用该数据库来测试模型的推理能力。

       我们创建了一个玩具city_stats表,其中包含城市名称、人口和国家信息,并用几个示例城市填充它。

db_file = "cities.db"engine = create_engine(f"sqlite:///{db_file}")metadata_obj = MetaData()# create city SQL tabletable_name = "city_stats"city_stats_table = Table(    table_name,    metadata_obj,    Column("city_name", String(16), primary_key=True),    Column("population", Integer),    Column("country", String(16), nullable=False),)metadata_obj.create_all(engine)

这存储在cities.db文件中。

     然后,我们可以使用Modal将微调后的模型和该数据库文件加载到LlamaIndex中的NLSQLTableQueryEngine中——该查询引擎允许用户轻松地开始在给定的数据库上执行文本到SQL。

modal run src.inference_sql_llamaindex::main --query "Which city has the highest population?" --sqlite-file-path "nbs/cities.db" --model-dir "model_sql" --use-finetuned-model True

我们得到如下回复:

SQL Query: SELECT MAX(population) FROM city_stats WHERE country = "United States"Response: [(2679000,)]

三、结论

        本文提供了一种非常高级的方法来开始微调生成SQL语句的Llama 2模型,并展示了如何使用LlamaIndex将其端到端插入到文本到SQL工作流中。

参考文献:

[1] https://blog.llamaindex.ai/easily-finetune-llama-2-for-your-text-to-sql-applications-ecd53640e10d

[2] https://github.com/run-llama/modal_finetune_sql

[3] https://github.com/run-llama/modal_finetune_sql/blob/main/tutorial.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/262967.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vue 简单实现购物车:商品基础信息最终的 html 文件 + 商品计数器的组件处理,实现了购物车;

购物车实现过程: Ⅰ、商品购物车作业需求:1、商品购物车页面示例:2、具体需求: Ⅱ、html 文件的构建:商品购物车.html Ⅲ、组件文件的构建:商品购物车1.js Ⅳ、小结: Ⅰ、商品购物车作业需求&am…

TypeScript实战——ChatGPT前端自适应手机端,PC端

前言 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 可以在线体验哦:体验地址 文章目录 前言引言先看效果PC端手机端 实现原理解释 包的架构目录 引言 ChatGPT是由OpenAI开发的一种基于语言模型的对话系统。它是GPT(…

Java智慧工地源码 SAAS智慧工地源码 智慧工地管理可视化平台源码 带移动APP

一、系统主要功能介绍 系统功能介绍: 【项目人员管理】 1. 项目管理:项目名称、施工单位名称、项目地址、项目地址、总造价、总面积、施工准可证、开工日期、计划竣工日期、项目状态等。 2. 人员信息管理:支持身份证及人脸信息采集&#…

重学设计模式-Iterator(迭代器模式)

Iterator迭代器模式 介绍: 迭代器模式是一种行为型设计模式,它允许你在不暴露集合底层表示(并不知道集合底层使用何种方式对数据尽心存储)的情况下遍历集合中的元素。 这种模式提供了一种方法,可以顺序访问一个聚合…

Leetcod面试经典150题刷题记录 —— 矩阵篇

矩阵篇 1. 有效的数独2. 螺旋矩阵Python 3. 旋转图像Python额外开辟数组空间原地置换法 4. 矩阵置零5. 生命游戏Python 1. 有效的数独 题目链接:有效的数独 - leetcode 题目描述: 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验…

管理层年终考核的四种方式

企业管理层是企业中的核心决策者,对企业的经营和发展有着重要的影响。因此,对企业管理层进行年终绩效环评可以更好地了解其对企业的贡献和影响,以便更好地激励和管理管理层,提高企业的绩效和效益。以下是适合管理层做年终考核的四…

华为 WATCH GT 4 跨越想象的边界,打造智慧生活新体验

颜值新高度,健康更全面!华为 WATCH GT 4 颜值超能打,表盘随心定义,健康管理再升级身体状况更有数,超长续航给足安全感。跨越想象的边界,打造智慧生活新体验!

众和策略股市行情分析:股市里什么叫外资?外资股是什么?

股市里什么叫外资? 外资就是指的国外本钱,即国外出资者参与到我国股市所投入的本钱。通常情况下,外资主要靠直接或直接持有我国股市的股票来达成注入本钱的意图。比较于内资,外资更多的注重于我国商场的整体情况,采用…

融资项目——vue之事件监听

vue通过v-on进行事件监听,在标签中使用v-on:xxx(事件名称)进行监听,事件触发的相应方法定义在Vue对象中的methods中。如下图所示: 上述代码对按钮进行监听,点击按钮后就会触发solve函数。

理解SpringMVC的工作流程

组件 前置控制器 DispatcherServlet。 映射控制器 HandlerMapping。 处理器 Controller。 模型和视图 ModelAndView。 视图解析器 ViewResolver。 工作流程 spring mvc 先将请求发送给 DispatcherServlet。 DispatcherServlet 查询一个或多个 HandlerMapping,找到…

Selenium4+Python3 - Iframe、Select控件、交互式弹出框、执行JS、Cookie操作

一、iframe操作 iframe识别: 语法: driver.switch_to.frame(‘方式’) 1、常见处理方法三种 index:下标name:id或name属性的值webelement:元素 2、通过下标进入 进入第一个iframe: driver.switch_to.…

Hardhat环境搭建(六)---无需翻墙

Hardhat环境搭建 官方地址 node环境 npm环境 git环境 安装hardhat npm init npminit是什么 在node开发中使用npm init会生成一个pakeage.json文件,这个文件主要是用来记录这个项目的详细信息的,它会将我们在项目开发中所要用到的包,以…

服装店收银系统 一种私域运营的神器

私域运营是指通过建立和管理自己的客户数据库来实现精细化营销和客户关系管理。服装店收银系统是门店私域运营的神器之一,服装店收银系统可以帮助店主收集客户的购买信息、消费偏好等数据,从而更好地了解客户需求并进行个性化营销。 以下是一些服装店收银…

springMVC-处理json和HttpMessageConverter<T>

细节说明:目标方法正常返回JSON需要的数据,可以是一个对象,也可以是一个集合,这里我们返回的是一个Dog对象>转成Json数据格式 示例案例: 在springmve中,如果我们返回一个集合List等,或者返回…

odoo17核心概念action5——其他文件

1、action_dialog 这是一个组件,在ActionContainer中有引用,因为ActionContainer用的是动态组件,暂时没有发现有xml文件调用这个组件。 也不知道怎么用 2、action_hook 从名字看,是一共钩子,有两个函数和一个类 cl…

在做题中学习(36):消失的两个数字

面试题 17.19. 消失的两个数字 - 力扣(LeetCode) 思路:丢失的数字 只出现一次的数字III ps: 下面讲 丢失的数字 思路,另一个在前面的(32)。 丢失的数字:给定一个包含 [0, n] 中 n 个数的数组…

浏览器的工作原理 - 从输入URL 按下回车到页面展示过程发生了什么?

本文带大家一起了解一下从我们输入一个网址链接开始到页面展示在我们面前,整个浏览器发生了什么?或者说浏览器做了哪些事,咱们以大家常用的baidu.com为例,从输入到 baidu.com 页面出现的整个流程 第一步:地址栏中敲击第…

海外社媒营销新趋势,品牌出海如何做?

社交媒体在网上的影响力是毋庸置疑的。投资社交媒体平台并建立公司形象,提高产品运营收入,提升品牌知名度,对于吸引对您所提供的产品感兴趣的人至关重要。 然而,社交媒体格局总是在变化,这意味着您需要掌握新的社交媒…

【Linux进阶之路】线程

文章目录 一、初始线程1.概念2.执行3.调度4.切换 二、线程控制1.创建2.等待3.分离4.退出5.取消 三、线程安全1.互斥1.1初始1.2理解1.3锁1.3.1概念1.3.2原理1.3.4死锁 2.同步2.1概念2.2原理 3.生产消费者模型 总结尾序 一、初始线程 1.概念 简单的概念: 线程就是一…

全球盲盒热潮:探寻海外市场的文化风潮与商机

近年来,盲盒经济在全球范围内持续升温,其独特的营销方式以及带给消费者的刺激感,引发了广大消费者的热烈追捧。特别是在海外市场,其增长速度之快,让各类盲盒品牌看到了巨大的商业潜力。然而,盲盒市场的快速…