向量数据库Chroma学习记录

一 简介

Chroma是一款AI开源向量数据库,用于快速构建基于LLM的应用,支持Python和Javascript语言。具备轻量化、快速安装等特点,可与Langchain、LlamaIndex等知名LLM框架组合使用。
在这里插入图片描述

二 基本用法

1 安装

安装方式非常简单,只需要一行命令

pip instakk chromadb

2 创建一个客户端

import chromadb
chroma_client = chromadb.Client()

3 创建一个集合

这里面的集合用于存放向量以及元数据的信息,可以理解为传统数据库的一张表

collection = chroma_client.create_collection(name="my_collection")

4 添加数据

集合中可以添加文本,元信息,以及序号等数据。添加文本之后会调用默认的嵌入模型对文本进行向量化表示。
documents和ids为必需项,其他为可选项。(metadatas、embeddings、urls、data)

collection.add(
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
)

如果已经有文本的向量化表示,可以直接添加进embedding字段。需要注意手动添加的向量的维度需要与初始化集合时用到的嵌入模型维度一致,否则会报错。

collection.add(
    embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
)

5 从集合中检索

results = collection.query(
    query_texts=["This is a query document"],
    n_results=2
)

三 进阶用法

创建本地数据存放路径

前面代码中创建的集合不会落到数据盘中,只用于快速搭建项目原型,程序退出即消失。如果想使集合可以重复利用,只需要稍微修改一下代码即可:

# Client改为PersistentClient
client = chromadb.PersistentClient(path="/path/to/save/to")

客户端/服务端部署

实际项目一般不会只有客户端代码,因此chroma也被设计成可以客户端-服务端方式进行部署

服务端启动命令:

# --path参数可以指定数据持久化路径
# 默认开启8000端口
chroma run --path /db_path

客户端连接命令:

import chromadb
client = chromadb.HttpClient(host='localhost', port=8000)

如果你负责的项目只需要维护客户端的数据,则可以安装更加轻量化的客户端chroma

pip install chromadb-client

在客户端,连接方式同前面一样。chromadb-client相比完整版减少很多依赖项,特别是不支持默认的embedding模型了,因此必须自定义embedding function对文本进行向量化表示。

创建或选择已有的集合:

# 创建名称为my_collection的集合,如果已经存在,则会报错
collection = client.create_collection(name="my_collection", embedding_function=emb_fn)
# 获取名称为my_collection的集合,如果不存在,则会报错
collection = client.get_collection(name="my_collection", embedding_function=emb_fn)
# 获取名称为my_collection的集合,如果不存在,则创建
collection = client.get_or_create_collection(name="my_collection", embedding_function=emb_fn)

探索集合

# 返回集合中的前10条记录
collection.peek() 
# 返回集合的数量
collection.count() 
# 重命名集合
collection.modify(name="new_name") 

操作集合

集合的增用add来实现,前面已有,这里不赘述

集合的查找包含queryget两个接口

# 可以用文本进行查找,会调用模型对文本进行向量化表示,然后再查找出相似的向量
collection.query(
    query_texts=["doc10", "thus spake zarathustra", ...],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

# 也可以用向量进行查找
collection.query(
    query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],
    n_results=10,
    where={"metadata_field": "is_equal_to_this"},
    where_document={"$contains":"search_string"}
)

where和where_document分别对元信息和文本进行过滤。这部分的过滤条件比较复杂,可以参考官方的说明文档。个人感觉有点多余了,对于这种轻量化数据库以及AI应用来说必要性不强。

collection.get(
    ids=["id1", "id2", "id3", ...],
    where={"style": "style1"},
    where_document={"$contains":"search_string"}
)

get更像是传统意义上的select操作,同样也支持where和where_document两个过滤条件。

集合的删除操作通过指定ids实现,如果没有指定ids,则会删除满足where的所有数据

collection.delete(
    ids=["id1", "id2", "id3",...],
    where={"chapter": "20"}
)

集合的修改也是通过指定id实现,如果id不存在,则会报错。如果更新的内容是documents,则连同对应的embeddings都一并更新

collection.update(
    ids=["id1", "id2", "id3", ...],
    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],
    metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],
    documents=["doc1", "doc2", "doc3", ...],
)

自定义embedding函数

在这里插入图片描述
chroma支持多种向量化模型,除此之外还能自定义模型。下面是一个用text2vec模型来定义embedding function的例子:

from chromadb import Documents, EmbeddingFunction, Embeddings
from text2vec import SentenceModel

# 加载text2vec库的向量化模型
model = SentenceModel('text2vec-chinese')

# Documents是字符串数组类型,Embeddings是浮点数组类型
class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        # embed the documents somehow
        return model.encode(input).tolist()

多模态

chroma的集合支持多模态的数据存储和查询,只需要embedding function能对多模型数据进行向量化表示即可。官方给出了以下例子:

import chromadb
from chromadb.utils.embedding_functions import OpenCLIPEmbeddingFunction
from chromadb.utils.data_loaders import ImageLoader

# 用到了Openai的CLIP文字-图片模型
embedding_function = OpenCLIPEmbeddingFunction()
# 还需要调用一个内置的图片加载器
data_loader = ImageLoader()
client = chromadb.Client()

collection = client.create_collection(
    name='multimodal_collection', 
    embedding_function=embedding_function, 
    data_loader=data_loader)


往集合中添加numpy类型的图片

collection.add(
    ids=['id1', 'id2', 'id3'],
    images=[...] # A list of numpy arrays representing images
)

与文本检索类似,只是变成了query_images而已

results = collection.query(
    query_images=[...] # A list of numpy arrays representing images
)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/540524.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

公司能监控员工电脑屏幕吗

公司能监控员工电脑屏幕吗? 当然可以! 公司需要在工作时间去监控员工电脑的。 电脑属于公司财产,公司对于员工在工作期间的上网行为有监控的权利和职责,可以监控员工在工作期间的信息交流,并且对他们的上网行为进行…

为什么负载电流增加时电源电压会下降?

原文来自微信公众号:工程师看海,与我联系:chunhou0820 看海原创视频教程:《运放秘籍》 大家好,我是工程师看海。 在以前的文章中我总是提到当负载电流增加时,电源的输出电压会下降,很多同学在实…

【Java】第十五届蓝桥杯JavaB组第一道填空题

#【Java】第十五届蓝桥杯JavaB组第一道填空题 大家好 我是寸铁👊 总结了一篇【Java】第十五届蓝桥杯JavaB组第一道填空题文章 喜欢的小伙伴可以点点关注 💝 Java B组 第一道填空题题解如下:

云服务器租用一年、1个月优惠价格表,阿里/腾讯/京东/华为云

现在租一个服务器多少一个月?优惠价格低至3.8元1个月,租用一个月云服务器收费价格表:阿里云和腾讯云2核2G3M服务器优惠价格61元一年,折合一个月5元,京东云轻量云主机5.8元一个月,华为云服务器优惠价格3.8元…

vue中的treeselect下拉框显示不全的解决办法

:appendToBody“true” z-index“9000” 如图:页面中显示的下拉框信息展示不全,就看不见了,也没有滚动条 解决办法:在代码中添加属性【:appendToBody“true” z-index“9000”】 z-index 属性设置元素的堆叠顺序。拥有更高堆叠顺…

安全风险攻击面管理如何提升企业网络弹性?

从研究人员近些年的调查结果来看,威胁攻击者目前非常善于识别和利用最具有成本效益的网络入侵方法,这就凸显出了企业实施资产识别并了解其资产与整个资产相关的安全态势的迫切需要。 目前来看,为了在如此复杂的网络环境中受到最小程度上的网络…

12V降5V5A同步降压芯片WT6023A

12V降5V5A同步降压芯片WT6023A 在今日的产品介绍中,我们将重点讨论一款性能卓越的DC/DC转换器——WT6023A。此款转换器采用抖动频率模式控制架构,以高效、单片同步的方式执行降压操作。其设计能够持续承载达6安培的负载,并且展示出优异的线路…

1.8.5 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v4 和 Inception-ResNet

1.8.5 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v4 和 Inception-ResNet 前情回顾: 1.8.1 卷积神经网络近年来在结构设计上的主要发展和变迁——AlexNet 1.8.2 卷积神经网络近年来在结构设计上的主要发展和变迁——VGGNet 1.8.3 卷积神经网络近…

configmap里一堆\n怎么解决

1. 问题 在编辑configmap的时候偶尔后遇到configmap里的内容变为一坨,出现一堆\n的情况,如下图: 2. 原因 这个问题是configmap里有一些制表符(Tab)而不是四个空格(K8S的yaml文件只允许有空格)导致的。 Tips&#xf…

UVC摄像头在虚拟机Ubuntu16.04使用的正确姿势

前言:在Windows使用UVC摄像头是正常的,但在虚拟机Ubuntu中使用可以识别到, 但是一直没有数据出来,一度怀疑是摄像头不行,后来经过仔细研究,才发现是虚拟机usb设置有点问题。一、虚拟机USB设置USB 3.0,不然没…

Modern C++:提升开发效率的语法糖详解与实例

引言 Modern C,特指自C11以来的一系列标准更新,引入了大量旨在增强语言表达力、提高代码清晰度与开发效率的新特性。其中,被称为“语法糖”的便捷语法构造尤为引人注目。这些语法糖不仅简化了程序员的日常编码工作,减少了出错几率…

树的定义、基本术语及性质

在计算机科学中,树(Tree)是一种非线性的数据结构,用以模拟具有层级关系的数据集合。它由节点(Node)组成,其中每个节点可以有零个或多个子节点,但只有一个父节点(除了根节…

vscode常用插件

1. chinese(汉化编译器) chinese插件适用于 VS Code 的中文(简体)语言包,此中文(简体)语言包为 VS Code 提供本地化界面。 2、vetur(vue 2开发必备)volar(vu…

【数据结构】遍历二叉树(递归和非递归遍历的先序、中序和后序遍历、层次遍历法)

目录 【数据结构】遍历二叉树(递归和非递归遍历的先序、中序和后序遍历、层次遍历法)一、递归算法先(根)序的遍历算法中(根)序的遍历算法后(根)序的遍历算法 二、非递归算法层次遍历…

LabVIEW电信号傅里叶分解合成实验

LabVIEW电信号傅里叶分解合成实验 电信号的分析与处理在科研和工业领域中起着越来越重要的作用。系统以LabVIEW软件为基础,开发了一个集电信号的傅里叶分解、合成、频率响应及频谱分析功能于一体的虚拟仿真实验系统。系统不仅能够模拟实际电路实验箱的全部功能&…

查找树莓派ip地址的几种方法

1.环境说明 从上面的图中可以看到树莓派是通过网线和win10电脑相连的,以此来共享win10电脑网络,但是需要在电脑端设置后才能将网络共享出来, 设置方法参考以下链接: 通过一根网线共享网络给另一个电脑或者群辉上网 注意&#xff0…

GitHub repository - Watch - Star - Fork - Follow

GitHub repository - Watch - Star - Fork - Follow References 眼睛图标旁边写着 Watch 字样。点击这个按钮就可以 Watch 该仓库,今后该仓库的更新信息会显示在用户的公开活动中。Star 旁边的数字表示给这个仓库添加 Star 的人数。这个数越高,代表该仓库…

今日arXiv最热大模型论文:清华大学发布,ChatGML又添新功能,集成“自我批评”,提升数学能力

引言:数学问题解决在大语言模型中的挑战 在当今的人工智能领域,大语言模型(Large Language Models,LLMs)已经在理解和生成人类语言方面取得了显著的进展。这些模型在文本摘要、问答、角色扮演对话等多种语言任务上展现…

组合模式:构建树形对象结构的设计艺术

在软件开发中,组合模式是一种结构型设计模式,用于表示对象的部分-整体层次结构。通过使单个对象和组合对象具有相同的接口,这种模式允许客户端以统一的方式处理单个对象和组合对象。本文将详细介绍组合模式的定义、实现、应用场景以及优缺点。…

一些知识点小细节

当遇到的问题有关逆序输出,可以转换一下思想,就是使用for循环的时候,i的初始化是从数组或者是字符串的最后一个,然后注意设置循环结束的条件,最重要的是不要忘记i--;而不是I; 注意:当要逆序输出…