(提供数据集下载)基于大语言模型LangChain与ChatGLM3-6B本地知识库调优:数据集优化、参数调整、Prompt提示词优化实战

文章目录

  • (提供数据集下载)基于大语言模型LangChain与ChatGLM3-6B本地知识库调优:数据集优化、参数调整、提示词Prompt优化
    • 本地知识库目标
    • 操作步骤
    • 问答测试的预设问题
    • 原始数据情况
    • 数据集优化:预处理,先后准备了三份数据集
      • PreData1:极简数据集,txt格式
      • PreData2:按json结构处理的数据集,txt格式
      • PreData3:整理成文档章节的PDF数据集
      • 从1到3是一个逐步优化数据集的过程
    • Tip:每次优化重新对话测试时,建议重启模型。本人GPU冒烟了,才重启。
    • 创建本地知识库时文件处理参数调整
    • 对话时知识库配置参数调整
    • Prompt提示词优化
      • Round 1
      • Round 2
      • Round 3
      • Round 4
    • 数据集地址

(提供数据集下载)基于大语言模型LangChain与ChatGLM3-6B本地知识库调优:数据集优化、参数调整、提示词Prompt优化

本地知识库目标

  • 创建“神经内科典型病例目录”数据集,一共3个病例信息,包括基本信息、症状、体格检查、辅助检查、诊断、诊断依据等信息。
  • LangChain+ChatGLM3-6B WebUI中加载“神经内科典型病例目录”数据集作为本地知识库。
  • 在“对话”中进行神经内科典型病例相关问答。
    在这里插入图片描述

操作步骤

  • 数据集预处理
  • 建立本地知识库后,进行问答测试
  • 调优:数据集优化、本地知识库问答参数调整、Prompt提示词优化

问答测试的预设问题

  • Q:有几个病例?
  • Q:输出病例编号、性别、年龄。
  • Q:神经内科确诊疾病有哪些,输出名称。

原始数据情况

#神经内科典型病例目录

##病例一
###病史摘要 患者女,78岁。 入院前四小时突然觉得头痛,同时发现左侧肢体乏力,左上肢不能持物,左下肢不能行走,恶心伴呕吐胃内容物数次。无意识丧失,无四肢抽搐,无大小便失禁,即送医院急诊。

体格检查:神清,BP 185/95mmHg,HR
80次/分,律齐,EKG示窦性心律.对答切题,双眼向右凝视,双瞳孔等大等圆,对光反射存在,左鼻唇沟浅,伸舌略偏左。左侧肢体肌张力增高,左侧腱反射略亢进,左侧肌力III0,右侧肢体肌张力正常,肌力V0。左侧巴氏征(+),右侧病理症(-)。颈软,克氏征(-)。
辅助检查:头颅CT示右侧颞叶血肿。

数据集优化:预处理,先后准备了三份数据集

PreData1:极简数据集,txt格式

  • 收集资料:原始数据是从网上爬的病例神经内科典型病例,复制、粘贴到的txt文件。只有3个病例。
  • 格式处理:统一标点符号,包括换行符号;处理好段落内容逻辑,处理段落内出现的换行情况。
  • 删除冗余:删除序号,如1、2、3或a、b、c等。删除多余的空格。
    在这里插入图片描述

PreData2:按json结构处理的数据集,txt格式

将数据集按json处理
曾经尝试过进行以下这一步的操作,由于没有工具辅助,非常繁琐,尤其是key值的生成。放弃了。

段落内处理:确保段落内是类似于KV结构,如“症状”:“头疼”。

处理成了偷懒模式:

{ [“症状:头疼”],
[“体格检检:口齿欠清”] ,
[“体格检查:神志朦胧”] }

在这里插入图片描述

PreData3:整理成文档章节的PDF数据集

在这里插入图片描述

从1到3是一个逐步优化数据集的过程

  • 从PreData1开始进行对话测试,回答让人一脸黑线,无法沟通交流。
    在这里插入图片描述
  • PreData2能沟通交流,也有惊喜,但是不稳定
    “有几个病例”重复问几遍,只回答对过一次。而且基于Json尝试过几种修改方案,繁琐,而且新的json文件导入本地知识库报错(懒,不想正面面对报错的问题),遂放弃了,改用PDF。
    在这里插入图片描述
  • PreData3按照文章章节编辑,插入目录,貌似很顺利
    相对来说比较稳定,但是对话测试也是那么完美。这让我想起需要从对话参数、Prompt提示词解决问题。

Tip:每次优化重新对话测试时,建议重启模型。本人GPU冒烟了,才重启。

创建本地知识库时文件处理参数调整

FAISS
bge-large-zh

以下两项默认值需要修改:

段落文本最大长度:250
相邻文本重合长度:50

改成:

段落文本最大长度:50
相邻文本重合长度:5

对话时知识库配置参数调整

以下两项需要调整:

匹配知识条数:3
知识匹配分数阈值:1

修改成:

匹配知识条数:20

知识匹配分数阈值:1可以先不改,根据回答适当调整到0.8左右,试试效果再决定。

Prompt提示词优化

直接看多轮对话下来,对话是如何有序展开的吧。

Round 1

在这里插入图片描述

Round 2

在这里插入图片描述

Round 3

在这里插入图片描述

Round 4

在这里插入图片描述
完毕!

数据集地址

神经内科典型病例目录PreData1.txt

神经内科典型病例目录PreData2.txt

神经内科典型病例目录PreData3.pdf

Enjoy!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/401844.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C#使用一个泛型方法操作不同数据类型的数组

目录 一、泛型方法及其存在的意义 二 、实例 1.源码 2.生成效果 再发一个泛型方法的示例。 一、泛型方法及其存在的意义 实际应用中,查找或遍历数组中的值时,有时因为数组类型的不同,需要对不同的数组进行操作,那么,可以使用…

Java学习-21 网络编程

什么是网络编程? 可以让设备中的程序与网络上其他设备中的程序进行数据交互(实现网络通信的) 基本的通信架构 基本的通信架构有2种形式: CS架构(Client客户端/Server服务端) BS架构(Browser浏览器/Server服务端)。 网络通信三要素 IP …

ATCoder Beginnner Contest 341 A~G

A.Print 341&#xff08;模拟&#xff09; 题意&#xff1a; 给定一个正整数 N N N&#xff0c;输出由 N N N个0和 ( N 1 ) (N1) (N1)个1交替组成的字符串。 分析&#xff1a; 按题意模拟即可 代码&#xff1a; #include<bits/stdc.h>using namespace std;int mai…

TestNG与ExtentReport单元测试导出报告文档

TestNG与ExtentReport集成 目录 1 通过实现ITestListener的方法添加Reporter log 1.1 MyTestListener设置 1.2 输出结果 2 TestNG与ExtentReporter集成 2.1 项目结构 2.2 MyExtentReportListener设置 2.3 单多Suite、Test组合测试 2.3.1 单Suite单Test 2.3…

十七、多线程

一、目标 理解线程的概念掌握线程的创建和启动了解线程的状态掌握线程调度的常用方法掌握线程的同步理解线程安全的类型 二、进程、线程、多线程的理解 进程&#xff1a;应用程序的执行实例、有独立的内存空间和系统资源 线程&#xff1a;CPU调度和分派的基本单位、进程中执行运…

2023数据要素市场十大关键词

2023数据要素市场十大关键词 导读 2023年即将过去。一年之前&#xff0c;《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》&#xff08;简称“数据二十条”&#xff09;正式对外发布&#xff0c;为数据要素市场的建设举旗定向。 图片 2023年是“数据二十条…

抖店开通后的这些基础搭建,你了解吗?今天一文详解!

大家好&#xff0c;我是电商小布。 很多小伙伴在我们店铺开通后&#xff0c;接下来就会进行选品上架等工作。 但其实&#xff0c;在店铺刚开通时&#xff0c;小店的基础设置是并不完善的。 比如说&#xff1a;平台默认店铺是全地区包邮的。 想要让小店顺利运转&#xff0c;…

徐晓艺被波兰前总统布罗尼斯瓦夫·科莫罗夫斯基接见

2024年1月19日,科莫罗夫斯基阁下总统俱乐部全球主席总统有话说共同主席波兰第五任总统布罗尼斯瓦夫科莫罗夫斯基 Former President of Poland莅临北京丰台宴 科莫罗夫斯基总统阁下一生充满传奇,他的外交成就也颇为杰出,其中一项就是中波关系。他说:“我作为总统在2011年对华访…

vue3 toRefs之后的变量修改方法

上效果 修改值需要带上解构之前的对象名obj&#xff0c; changeName:()>{ // toRefs 解决后变量修改值方法&#xff1a; 解构前变量.字段新值 obj.name FEIFEI; } } 案例源码 <!DOCTYPE html> <html> <head><me…

【Azure 架构师学习笔记】- Azure Databricks (10) -- UC 使用

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (9) – UC权限 在前面的文章&#xff1a;【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog中演示了如何配置一个UC。 本文…

【Vuforia+Unity】AR04-地面、桌面平面识别功能

不论你是否曾有过相关经验&#xff0c;只要跟随本文的步骤&#xff0c;你就可以成功地创建你自己的AR应用。 官方教程Ground Plane in Unity | Vuforia Library 这个功能很棒&#xff0c;但是要求也很不友好&#xff0c;只能支持部分移动设备&#xff0c;具体清单如下&#xf…

书生·浦语大模型实战营第六节课作业

基础作业 python run.py --datasets ceval_gen --hf-path /root/model/Shanghai_AI_Laboratory/internlm2-chat-7b/ --tokenizer-path /root/model/Shanghai_AI_Laboratory/internlm2-chat-7b/ --tokenizer-kwargs padding_sideleft truncationleft trust_remote_codeTrue --m…

栽花-第15届蓝桥第4次STEMA测评Scratch真题精选

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第169讲。 第15届蓝桥杯第4次STEMA测评已于2024年1月28日落下帷幕&#xff0c;编程题一共有6题&#xff0c;分别如下&a…

HarmonyOS—添加/删除Module

Module是应用/服务的基本功能单元&#xff0c;包含了源代码、资源文件、第三方库及应用/服务配置文件&#xff0c;每一个Module都可以独立进行编译和运行。一个HarmonyOS应用/服务通常会包含一个或多个Module&#xff0c;因此&#xff0c;可以在工程中创建多个Module&#xff0…

什么是web组态?

一、web组态的定义和背景 在深入探讨之前&#xff0c;我们先回顾一下“组态”的定义。在工业自动化领域&#xff0c;组态软件是用于创建监控和数据采集&#xff08;SCADA&#xff09;系统的工具&#xff0c;它允许工程师构建图形界面&#xff0c;实现与各种设备和机器的数据交互…

性能全面提升!探索ONLYOFFICE最新8.0版:更快速、更强大,PDF表单编辑轻松搞定!

文章目录 PDF表单功能表单模板 屏幕朗读器功能EXCEL新增功能单变量求解图表向导数字排序 PPT 新增功能新增语言区域设置和优化插件界面 ONLYOFFICE 是由 Ascensio System SIA 推出的一款功能强大的办公套件&#xff0c;其中提供了适用于文本文档、表格以及演示文稿的在线编辑软…

通过盲注脚本复习sqllabs第46关order by 注入

在MySQL支持使用ORDER BY语句对查询结果集进行排序处理&#xff0c;使用ORDER BY语句不仅支持对单列数据的排序&#xff0c;还支持对数据表中多列数据的排序。语法格式如下 select * from 表名 order by 列名(或者数字) asc&#xff1b;升序(默认升序) select * from 表名 or…

win10系统secoclient连接服务器时,报错与对方建立连接超时,配置错误或网络故障

故障原因 secoclient连接时出现超时的故障&#xff0c;之前还是正常的&#xff0c;可能与最近的系统更新有关 解决方案 找到设备管理 找到网络适配器下的SVN adapter V1.0 禁用该适配器 进入C:\Windows\System32\drivers 找到SVNDrv.sys 把这个文件删除或者重命名一下…

解决docker中运行的jar包连不上前端程序

目录 检查端口映射 查看容器的 IP 地址 检查容器网络设置 防火墙和网络策略 前端程序配置 跨域资源共享 (CORS) 日志查看 连接问题通常涉及到网络配置和端口映射。确保你在 Docker 中运行的 JAR 包可以被前端程序访问&#xff0c;可以采取以下步骤来解决问题&#xff1a…

信钰证券|A股IPO失意后转道南下,内地企业成港股上市“主力军”

内地企业已经成为赴港上市的主力。 Wind数据闪现&#xff0c;本年以来到2月21日&#xff0c;在港股初度聆讯的19家公司中&#xff0c;作业地址在内地的有18家&#xff0c;只要一家作业地址在我国香港。此外&#xff0c;本年在港股上市的5家企业&#xff0c;首要作业地址也均在…