[DataWhale大模型应用开发]学习笔记1-尝试搭建向量数据库

1.词向量

1.定义

词向量(Word Vector)是将单词表示为向量形式的技术,是自然语言处理(NLP)中的一种常用方法。通过将单词转化为向量,计算机能够更好地理解和处理语言。简单来说,词向量就是将单词表示为一组数字,通常是高维空间中的点,每个单词都有一个独特的向量表示。

2.目的

为什么需要将单词转化为词向量呢,因为他能够捕捉单词之间的语义相似性。如果数据库中存放的是文字,那么我们可能需要去一个个比对,比对关键字相同的数量或两个单词是否完全一致。但是如果使用向量的方式进行表达,可以通过计算来获取数据在语义层面上的相似度,且计算效率更高。

2.向量数据库

1.定义及特点

检索和管理高维向量数据的数据库。随着机器学习、自然语言处理(NLP)和计算机视觉等领域的发展,向量数据库在处理复杂数据类型(如图像、文本和音频)的相似性搜索和推荐系统中变得越来越重要。
向量数据库能够有效存储高维向量数据,且支持快速地相似性搜索,可以在大量向量中找到与查询向量最相似的向量。最重要的一点就是向量数据库使用特定的索引结构,加快检索效率。

2.常见的向量数据库

1.Pinecone
2.Faiss
3.Chroma

3.对RAG的意义

向量数据库在RAG算法中通过高效存储和检索大规模文档的向量表示,显著提升了检索相关文档的效率和质量,支持大规模数据处理,加速生成过程,从而使生成的答案更加准确和相关,满足实时性要求高的应用需求。

3.调用Embedding API

我使用的环境是Python3.11
需要安装langchain_community库
今天我尝试了调用星火大模型的Embedding API,使用demo调用成功。
后续我尝试使用SparkLLMTextEmbeddings对后面的向量化数据库存储的数据进行向量化操作。官方文档如下图所示:
在这里插入图片描述

编写代码如下:
在这里插入图片描述

4.数据读取与处理

为了构建我的本地知识库,需要对多种类型存储的本地文档进行处理,读取本地文档并通过前文描述的 Embedding 方法将本地文档的内容转化为词向量来构建向量数据库。后续我使用的是一个随意的pdf文档进行处理。

1.读取pdf文档

我们可以使用 LangChain 的 PyMuPDFLoader 来读取知识库的 PDF 文件。PyMuPDFLoader 是 PDF 解析器中速度最快的一种,结果会包含 PDF 及其页面的详细元数据,并且每页返回一个文档。
以下是我的一个代码过程:
在这里插入图片描述

读取之后需要调用load()方法,是因为读取的内容还是字符串类型的,为了后续的操作,我们需要调用load方法将类型转换为document类型,才能进行后续操作。

2.数据清洗

我提供的pdf文档中,只存在着少量的空行,因此这里的处理,我模仿文档中的处理方式,将一些无关空行\n进行删除。

在这里插入图片描述

3.文档分割

为什么需要文档分割呢,假如我们将文档作为大模型的一个输入,并且希望大模型能利用输入作为背景知识,解决一些专业领域内的知识,但是我们都知道对于token一般都会有限制,如果发送的token超过了大模型api输入的最大token就会报错。此时我们的文档是十分庞大的,因此需要对文档进行分割,将文档按照固定的长度分为若干个chunk。
以下是文档分割的代码:
在这里插入图片描述

其中的参数:

chunk_size:表示分割后每一块chunk的大小。
chunk_overlap表示块与块之间的重叠大小。指的是分割后的每个chunk里包含多少上一个chunk结尾的内容,主要是为了保持每个chunk之间的上下文关联性。比如chunk_overlap设置为2,此时上一块chunk的结尾为aaaaa,那么下一块chunk的开头就是aabbbbbb。
Langchain 还提供了多种文档分割方式,区别在怎么确定块与块之间的边界、块由哪些字符/token组成、以及如何测量块大小。但是这些方法我还未来得及尝试:
RecursiveCharacterTextSplitter(): 按字符串分割文本,递归地尝试按不同的分隔符进行分割文本。
CharacterTextSplitter(): 按字符来分割文本。
MarkdownHeaderTextSplitter(): 基于指定的标题来分割markdown 文件。
TokenTextSplitter(): 按token来分割文本。
SentenceTransformersTokenTextSplitter(): 按token来分割文本
Language(): 用于 CPP、Python、Ruby、Markdown 等。
NLTKTextSplitter(): 使用 NLTK(自然语言工具包)按句子分割文本。
SpacyTextSplitter(): 使用 Spacy按句子的切割文本。

4.搭建向量数据库

对于分割后的文档,我们就可以将每一块文档转换为向量,存储到向量数据库中了。这里我尝试了Chroma数据库。一开始我还不太了解Chroma数据库,认为他是和MySQL那样的数据库类似,通过调研发现,他类似于sqlite,是一个可以存储在本地的文件。以下是我搭建Chroma向量数据库的代码,首先需要pip install chroma:
在这里插入图片描述

对于这一块内容,我尝试了一天,一直在报错,还未搭建起来,通过搜索与调研。我尝试更换Python环境,当我将Python环境更换到12时,又会出现数据库无法安装的报错,尝试安装后,又会提示不存在Chroma库。当我把环境换回11时,还是出现了key error报错我认为主要的问题可能出现在Embedding那一块。后序的话我打算尝试改变Embedding API调用后,再继续更新该笔记。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/765202.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Cocos制作抖音小游戏接入侧边栏复访接口实例

本篇文章主要讲解,使用cocos接入抖音小游戏侧边栏接口的实例教程。 日期:2024年7月1日 作者:任聪聪 教程实例:https://download.csdn.net/download/hj960511/89509196 下载后可直接导入运行 上传游戏后抖音预审不通过 注意&#x…

win10下安装PLSQL14连接Oracle数据库

问题背景 在使用Oracle开发过程中,经常会使用工具来连接数据库,方便查询、处理数据。其中有很多工具可以使用,比如dbeaver、plsql等。本文主要介绍在win10环境下,plsql14的安装步骤以及安装过程中遇到的一些问题。 安装步骤及问题…

TensorRT学习(二)TensorRT使用教程(Python版)

本文适合快速了解TensorRT使用的整体流程,具体细节还是建议参考TensorRT的官方文档。 加速原理: 加速原理比较复杂,它将会根据显卡来优化算子,以起到加速作用(如下图所示)。简单的来说,就是类似于你出一个公式1+1+1,而你的显卡支持乘法,直接给你把这个公式优化成了1*…

scikit-learn教程

scikit-learn(通常简称为sklearn)是Python中最受欢迎的机器学习库之一,它提供了各种监督和非监督学习算法的实现。下面是一个基本的教程,涵盖如何使用sklearn进行数据预处理、模型训练和评估。 1. 安装和导入包 首先确保安装了…

controller不同的后端路径对应vue前端传递数据发送请求的方式,vue请求参数 param 与data 如何对应后端参数

目录 案例一: 为什么使用post发送请求,参数依旧会被拼接带url上呢?这应该就是param 与data传参的区别。即param传参数参数会被拼接到url后,data会以请求体传递 补充:后端controller 参数上如果没写任何注解&#xff0c…

【附精彩文章合辑】为何选择TypeScript?转变的驱动力:Rust的魅力何在?

在探讨一个开发者团队耗时18个月从TypeScript转向Rust,并随后对TypeScript进行严厉批评的情境时,我们首先需要认识到,任何技术栈的选择与转换都是基于一系列复杂的考量,包括但不限于项目需求、性能瓶颈、团队技能、长期可维护性以…

VGPU的使用

(作者:陈玓玏) 开源项目,欢迎star哦,https://github.com/data-infra/cube-studio 训练AI模型以及部署模型推理服务时,GPU往往是必不可少的,但当我们机器上没有足够的GPU卡可使用时&#xf…

探索未来远程调试新纪元——《串口网口远程调试软件》:无缝连接,高效调试

文章目录 前言一、无缝连接,突破距离限制二、高效调试,提升工作效率三、安全可靠,保护数据安全四、用户友好,简化操作流程五、软件地址六、远程调试软件 七、基本操作1、订阅主题2、连接3、串口调试4、网口调试 八、软件地址结束语…

【问题记录】如何在xftp上查看隐藏文件。

显示隐藏的文件夹 用xftp连接到服务器后,发现有些隐藏的文件夹并未显示出来,通过以下配置,即可使隐藏的文件夹给显示出来。 1.点击菜单栏的"小齿轮"按钮: 2.勾选显示隐藏的文件夹: 3.点击确定即可。

MES系统如何帮助企业提高生产效率

万界星空科技推出的制造执行MES系统,通过一系列先进的技术手段和管理理念,显著提高了制造业工厂的生产效率。以下是MES系统帮助提高生产效率的详细分析: 一、实时监控与快速响应 实时监控生产状态:MES系统能够实时采集生产线上的…

java 代码块

Java中的代码块主要有三种类型:普通代码块、静态代码块、构造代码块。它们的用途和执行时机各不相同。 普通代码块:在方法内部定义,使用一对大括号{}包围的代码片段。它的作用域限定在大括号内,每当程序执行到该代码块时就会执行其…

SpringMVC的基本使用

SpringMVC简介 SpringMVC是Spring提供的一套建立在Servlet基础上,基于MVC模式的web解决方案 SpringMVC核心组件 DispatcherServlet:前置控制器,来自客户端的所有请求都经由DispatcherServlet进行处理和分发Handler:处理器&…

linux中如何启动python虚拟环境

找到python虚拟环境所在目录 执行下面的命令即可 source auth_python/bin/activate

linux 下neo4j的安装

一、neo4j简介 Neo4j 是一个高性能的 NoSQL 图形数据库,它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j 也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。 neo4j与jdk版本对应 neo4j的版本需要与jdk版本相适配,否则容易出现安装失…

数据库原理之数据库基本概念

目录 前言 基本概念 数据库完整性 前言 今天我们来看看数据库的基本概念,帮助大家对数据库有一点点最基本的了解 基本概念 4个基本概念 数据data:描述事物的符号,数据库中存储的基本对象。 数据库Database:长期存储在计算机…

CentOS 7 搭建rsyslog日志服务器

CentOS 7 搭建rsyslog日志服务器 前言一、IP地址及主机名称规划1.修改主机名 二、配置rsyslog日志服务器1.安装rsyslog服务2.编辑/etc/rsyslog.conf 文件3.启动并启用rsyslog服务4.验证端口是否侦听 三、在rsyslog日志服务器上配置firewalld防火墙四、配置rsyslog日志客户端1.编…

25考研:今年初试时间比去年更早了?

过去5年考研初试时间安排如下: 24考研:2023年12月23-24日(倒数第二个周末) 23考研:2022年12月24-25日(倒数第二个周末) 22考研:2021年12月25-26日(最后一个周末&#xf…

opencascade AIS_InteractiveContext源码学习7 debug visualization

AIS_InteractiveContext 前言 交互上下文(Interactive Context)允许您在一个或多个视图器中管理交互对象的图形行为和选择。类方法使这一操作非常透明。需要记住的是,对于已经被交互上下文识别的交互对象,必须使用上下文方法进行…

数据加密解密和哈希的解析

[S1301]数据的加解密 对提供的原始数据(字符串或者二进制数组)进行加密是数据保护框架体提供的基本功能,接下来我们利用一个简单的控制台程序来演示一下加解密如何实现。数据的加解密均由IDataProtector对象来完成,而该对象由IDa…

FormLayout布局和FormItem对比

FormLayout布局和FormItem对比 FormLayout布局 package mainimport ("fyne.io/fyne/v2""fyne.io/fyne/v2/app""fyne.io/fyne/v2/container""fyne.io/fyne/v2/layout""fyne.io/fyne/v2/widget" )func main() {myApp : app.…