使用 Elasticsearch 进行语义搜索

Elasticsearch 是一款功能强大的开源搜索引擎,可用于全文搜索、分析和数据可视化。传统上,Elasticsearch 以其执行基于关键字/词汇的搜索的能力而闻名,其中文档基于精确或部分关键字匹配进行匹配。然而,Elasticsearch 已经发展到支持语义搜索 —— 一种专注于理解单词和短语背后的含义,而不仅仅是匹配关键字的方法。

Elasticsearch 中的语义搜索可实现更直观和上下文感知的搜索体验,即使查询中没有精确的关键字,也可以找到相关信息。本文将探讨如何在 Elasticsearch 中实现语义搜索、其优势和实际用例。

语义搜索

语义搜索是一种超越传统基于关键字的搜索的技术,它考虑了搜索查询的上下文、意图和含义。与专注于文字匹配的关键字搜索不同,语义搜索了解单词和概念之间的关系,从而实现更准确、更相关的搜索结果。

例如,在基于关键字的搜索中,查询 “laptop battery life” 可能会返回包含这些确切单词的文档。但是,语义搜索可能会返回讨论相关概念的文档,例如 “long-lasting laptops”、“energy-efficient devices”,甚至 “portable computers with extended battery life.”。

Elasticsearch 如何支持语义搜索

Elasticsearch 通过多种技术组合支持语义搜索,包括:

  • 向量表示:使用预训练模型(如 BERT(来自 Transformers 的双向编码器表示))将文本转换为可捕获语义含义的密集向量嵌入。
  • 相似度评分:测量查询向量和文档向量之间的相似度,以根据语义相关性对搜索结果进行排名。
  • 自定义分析器:创建自定义标记器、过滤器和分析器,以增强语义理解的方式预处理文本数据。
  • 与机器学习模型集成:利用与 Elasticsearch 集成的机器学习模型执行实体识别、情感分析等任务

架构 —— 使用 Elasticsearch 进行语义搜索

Elasticsearch 中两个非常重要的概念是文档和索引。

文档

文档是字段及其相关值的集合。每个文档都是一个 JSON 对象,其中包含结构化格式的数据。例如,代表一本书的文档可能包含标题、作者和出版日期等字段。

索引

索引是文档的集合,以高度优化的格式存储,旨在执行高效搜索。索引类似于关系数据库中的表,但它们更灵活,可以存储复杂的数据结构。

要使用 Elasticsearch,你需要将数据组织成文档,然后将所有文档添加到索引中。这使 Elasticsearch 能够根据搜索查询高效地搜索和检索相关文档。

在 Elasticsearch 中实现语义搜索

1. 设置 Elasticsearch

首先,确保你已启动并运行 Elasticsearch。你可以通过启动 Elasticsearch 的 Docker 容器来远程连接到 elasticsearch:

docker run -it \
    --rm \
    --name elasticsearch \
    -p 9200:9200 \
    -p 9300:9300 \
    -e "discovery.type=single-node" \
    -e "xpack.security.enabled=false" \
    docker.elastic.co/elasticsearch/elasticsearch:8.4.3

2. 数据加载和预处理

在此步骤中,我们将加载 documents.json 文件并对其进行预处理,以使层次结构扁平化,使其适合Elasticsearch。documents.json文件包含课程列表,每个课程都有一个文档列表。我们将提取每个文档并向其中添加一个课程字段,指示它属于哪个课程。

import json

with open('documents.json', 'rt') as f_in:
    docs_raw = json.load(f_in)

Elasticsearch 要求所有内容都处于同一层次结构中,在本例中,我们有两个层次,course 和 documents:

documents = []

for course_dict in docs_raw:
    for doc in course_dict['documents']:
        doc['course'] = course_dict['course']
        documents.append(doc)

documents[1]
#Output
{'text': 'GitHub - DataTalksClub data-engineering-zoomcamp#prerequisites',
 'section': 'General course-related questions',
 'question': 'Course - What are the prerequisites for this course?',
 'course': 'data-engineering-zoomcamp'}

3. 使用预训练模型创建嵌入

要执行语义搜索,我们需要将文档转换为密集向量(嵌入),以捕获文本的语义含义。我们将使用来自 Sentence Transformers 库的预训练模型来生成这些嵌入。然后将这些嵌入编入 Elasticsearch 索引。这些嵌入使我们能够执行语义搜索,其目标是找到与给定查询上下文相似的文本。

文本和问题字段是包含主要信息的实际数据字段,而其他字段(如 section 和 course)则更具分类性,信息量较少,无法创建有意义的嵌入。

  • 安装 sentence_transformers 库。
  • 加载预训练模型并使用它来为我们的文档生成嵌入。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("all-mpnet-base-v2")


#created the dense vector using the pre-trained model
operations = []
for doc in documents:
    # Transforming the title into an embedding using the model
    doc["text_vector"] = model.encode(doc["text"]).tolist()
    operations.append(doc)

4. 连接到 Elasticsearch

在此步骤中,我们将建立与 Elasticsearch 实例的连接。确保 Elasticsearch 正在运行。

from elasticsearch import Elasticsearch


# Connect to the Elasticsearch instance
es_client = Elasticsearch('http://localhost:9200')
# Check the connection
print(es_client.info())

5. 创建映射和索引

我们将定义映射并在 Elasticsearch 中创建索引,生成的嵌入也将存储在其中。

映射是指定如何在 Elasticsearch 中构建和索引文档及其字段的过程。每个文档由各种字段组成,每个字段都分配有特定的数据类型。

与数据库模式类似,映射概述了文档的结构,详细说明了字段、它们的数据类型(例如字符串、整数或日期)以及如何索引和存储这些字段。

通过定义文档和索引,我们确保索引就像书中的目录一样,有助于高效搜索。

index_settings = {
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
    "mappings": {
        "properties": {
            "text": {"type": "text"},
            "section": {"type": "text"},
            "question": {"type": "text"},
            "course": {"type": "keyword"},
            "text_vector": {"type": "dense_vector", "dims": 768, "index": True, "similarity": "cosine"},
        }
    }
}

index_name = "course-questions"
# Delete the index if it exists
es_client.indices.delete(index=index_name, ignore_unavailable=True)
# Create the index
es_client.indices.create(index=index_name, body=index_settings)

6. 将文档添加到索引

然后,我们将预处理后的文档及其嵌入添加到 Elasticsearch 索引中。这使得 Elasticsearch 能够有效地存储和管理文档,从而实现快速准确的搜索查询。

for doc in operations:
    try:
        es_client.index(index=index_name, document=doc)
    except Exception as e:
        print(e)

7. 查询搜索引擎

当用户输入搜索查询时,它会被转换为嵌入并在 Elasticsearch 索引中进行搜索。结果会根据其与查询的相关性进行评分。

search_term = "windows or mac?"
vector_search_term = model.encode(search_term)

query = {
    "field": "text_vector",
    "query_vector": vector_search_term,
    "k": 5,
    "num_candidates": 10000, 
}
res = es_client.search(index=index_name, knn=query, source=["text", "section", "question", "course"])
res["hits"]["hits"]

执行关键字搜索和高级搜索(过滤结果)

只要你直接使用用户输入并将该信息传递到你的搜索功能中,这就变成了关键字搜索。

response = es_client.search(
    index=index_name,
    query={
        "bool": {
            "must": {
             "multi_match": 
                        {"query": "windows or python?", 
                         "fields": ["text", "question","course","title"],
                         "type": "best_fields"
                        }
                    },
            "filter": {
                "term": {
                        "course": "data-engineering-zoomcamp"
            }
        }
        }
    }
)

执行语义搜索和高级搜索

为了让 Elasticsearch 执行语义搜索,我们应该传递从最终用户那里收到的信息并将其转换为向量嵌入,并且该向量嵌入是传递到搜索函数中的向量嵌入。

knn_query= {
    "field": "text_vector",
    "query_vector":vector_search_term,
    "k": 5,
    "num_candidates" : 10000
}
response=es_client.search(index=index_name,
                          query={
                              "match": {
                                  "course": "data-engineering-zoomcamp"
                              },
                          },
                           knn=knn_query,
                          size=5,
                          explain=True
                         )

以下是主要步骤的简要介绍:

将从最终用户收到的搜索词转换为向量嵌入。

  • 将此向量嵌入传递到高级语义搜索函数中。
  • 将结果限制在特定部分,在本例中为 “General course-related questions”。同样,它可以限制为特定课程,例如 “Data Engineering Zoom Camp.”。基本语义搜索和高级语义搜索之间的一个显着区别在于结果的评分。基本语义搜索分数范围在 0 到 1 之间,其中 0 表示匹配度低,1 表示匹配度高。

使用 Explain 关键字解释分数为了进一步了解分数计算,Elasticsearch 提供了 explain=true 关键字。此工具描述了如何计算分数,提供了有价值的见解。有了这些信息,人们可以开发出更符合特定用户或业务需求的自定义评分函数。

更多阅读,请参阅:Elasticsearch:使用 Open AI 和 Langchain 的 RAG - Retrieval Augmented Generation (二)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906383.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络:网络层 —— 虚拟专用网 VPN

文章目录 虚拟专用网 VPN 概述内联网 VPN外联网 VPN 虚拟专用网 VPN 概述 虚拟专用网(Virtual Private Network,VPN):利用公用的因特网作为本机构各专用网之间的通信载体,这样形成的网络又称为虚拟专用网。 出于安全…

C语言函数嵌套调用

函数嵌套调用就是在一个函数中调用另一个函数; 看一个例子; max2函数返回2个整数中大的一个;max4中调用max2,实现返回4个整数中最大的一个; int max2(int, int); int max4(int, int, int, int);......void CCjjyyV…

C++:继承及其相关问题

继承的定义 继承机制是⾯向对象程序设计实现代码复⽤的重要⼿段,它允许我们在保持原有类特性的基础上进⾏扩展,增加⽅法 (成员函数) 和属性 (成员变量),从而产⽣的类,这样的类称为派⽣类,也称为子类。而这样的类就成为…

Centos7.9 x86架构部署

一、部署环境 表 1‑1 环境服务版本号系统centos7.9_2009运行环境1JDK1.8_321前端WEBNginx1.14数据库postgresqlpostgresql13postgis3.1pgrouting3.1消息队列rabbitmq3.8.16运行环境2erlang23.3.3.1 二、部署JDK 2.1下载JDK安装包 官网下载JDK8 官网地址: https…

【uniapp3】分享一个自己写的h5日历组件

简言 分享一下自己基于uniapp写的日历组件。如果不太满足你的需求,可以自己改造。 日历 实现分析: 页面显示 - 分为顶部显示和日历显示,我这里做了多行和单行显示两种情况,主要是当时看着手机的日历做的,手机上的…

Nginx安装配置详解

Nginx Nginx官网 Tengine翻译的Nginx中文文档 轻量级的Web服务器,主要有反向代理、负载均衡的功能。 能够支撑5万的并发量,运行时内存和CPU占用低,配置简单,运行稳定。 写在前 uWSGI与Nginx的关系 1. 安装 Windows 官网 Stabl…

Java版企电子招标采购系统源业码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis

功能描述 1、门户管理:所有用户可在门户页面查看所有的公告信息及相关的通知信息。主要板块包含:招标公告、非招标公告、系统通知、政策法规。 2、立项管理:企业用户可对需要采购的项目进行立项申请,并提交审批,查看所…

MS01SF1 精准测距UWB模组助力露天采矿中的人车定位安全和作业效率提升

在当今矿业行业,随着全球对资源需求的不断增加和开采难度的逐步提升,传统的作业方式面临着越来越多的挑战。露天矿山开采,因其大规模的作业环境和复杂的地形特点,面临着作业人员的安全风险、设备调度的高难度以及资源利用率低下等…

【Web.路由】——路由模板

路由模板负责根据规则生成URL,从而使得请求可以正常访问到资源。 总之就是——》》》 规范如何写一个url,并且命名以方便进行管理。 在Asp.net core中的Http管道机制,UseRouting()和 UseEndpoints()这两个中间件来实现整个路由系统。关于asp…

c加加11第二弹~

1lambda 1.1.lambda表达式书写格式 [capture-list] (parameters) mutable -> return-type { statement} 1.2lambda表达式各部分说明 [capture-list] : 捕捉列表,该列表总是出现在lambda函数的开始位置,编译器根据[]来判断接下来的代码是否为lamb…

记录|多线程和异步简单理解

目录 前言一、单线程二、多线程-Thread多线程是都多少个的时候会导致性能变差 三、多线程-Task类Task的优势 四、异步- awaitawait注意:多个Task Run()天剑await后,变成了同步执行解决方法 更新时间 前言 参考视频:C#基础教程 多线程编程入门…

凸极式发电机的相量图分析和计算,内功率因数角和外功率因数角和功角的定义。

图1:同步发电机稳态相量图 若发电机为凸极式,由于凸极机正、交轴同步电抗不等,即xd≠xq,因此必须先借助虚构电动势 E ˙ Q E ˙ q − ( x d − x q ) I ˙ d \dot{E}_Q\dot{E}_q-(x_d-x_q)\dot{I}_d E˙Q​E˙q​−(xd​−xq​)…

C语言原码、反码和补码的详解

C语言原码、反码和补码的详解 放在最前面的1、前言正数的原码、反码和补码负数的原码、反码和补码 2、整数的原码(2.1)原码的定义(2.2)计算原码 3、整数的反码(3.1)反码的定义(3.2)计…

idea 导入Spring源码遇到的坑并解决

1.下载相关文件 通过百度网盘分享的文件:Spring 链接:https://pan.baidu.com/s/1r9rkGOCaY9SFn9ecng5cIg?pwd8888 提取码:8888 2.配置gradle环境 gradle下载地址 需要翻墙下 https://services.gradle.org/distributions/ 我选择的是 grad…

Redis-“自动分片、一定程度的高可用性”(sharding水平拆分、failover故障转移)特性(Sentinel、Cluster)

文章目录 零、写在前面一、水平拆分(sharding/分片)、故障转移(failover)机制介绍水平拆分(Sharding)故障转移机制 二、Redis的水平拆分的机制有关的配置1. 环境准备2. 配置文件配置3. 启动所有Redis实例4. 创建集群5. 测试集群读/写6. 集群管理 三、Red…

C++STL详解(九)map和set的使用

一.关联式容器的介绍 CSTL包含了序列式容器和关联式容器&#xff1a; 序列式容器里面存储的是元素本身&#xff0c;其底层是线性的数据结构&#xff0c;就譬如我们之前学习的vector&#xff0c;list&#xff0c;deque等等。关联式容器里面存储的是<key,value>的键值对&…

goframe开发一个企业网站 模版界面4

###goframe已有了模板的功能 {{"string"}} // 一般 string {{raw string}} // 原始 string {{c}} // byte {{print nil}} // nil 也被支持 {{. | FuncA | FuncB | FuncC}}{{if .condition}}... {{else}}{{if .condition2}}...{{end}} {{end}}{{rang…

一、k8s快速入门之学习Kubernetes组件基础

一、三个容器管理器平台 Apache MESOS 开源的分布式资源管理框架&#xff0c;被推特选为基础平台&#xff0c;2019年推特换位k8s&#xff0c;MESOS最新版可以在MESOS上管理k8sDOCKER SWARM docker总部发行的&#xff0c;实现docker的集群方案&#xff0c;和docker捆版一起&…

初始JavaEE篇——多线程(7):定时器、CAS

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;JavaEE 目录 定时器的使用 定时器的原理 模拟实现定时器 CAS 介绍 CAS的应用场景 解析 AtomicInteger 类 实现自旋锁 CAS的缺陷…

【UGUI】为射击游戏添加动态显示的分数和血量到UI界面

项目背景 在这个项目中&#xff0c;我们希望实现一个简单的游戏系统&#xff0c;其中玩家可以通过击中目标来获得分数&#xff0c;同时通过与怪物碰撞来减少血量。分数和血量需要在游戏界面上实时显示&#xff0c;以便玩家能够随时了解自己的状态。 技术实现 1. 静态变量的使…