Elasticsearch:无需搜索 “Christmas” 即可找到有关圣诞节的书籍

随着假期的临近,我期待着变得舒适,拿起一本新书,享受轻松的时光。

但是使用搜索栏在线发现图书并不像看起来那么容易......大多数零售搜索引擎仅依赖于关键字搜索,当我们确切地知道我们正在寻找什么书名时,这很好,但当我们确切地知道我们正在寻找什么标题时,它就变得更具挑战性。 我们对主题只有一个模糊的概念。

因此,在这篇简短的文章中,我决定探索如何利用 Elasticsearch 对语义搜索的支持来帮助那些想要查找有关圣诞节的书籍的人……而无需使用 “圣诞节 (Christmas)”一词。

对于我们的示例,我们将使用包含书籍摘要的数据集。 接下来,您需要启动一个 Elasticsearch 集群并运行已下载的 ELSER 模型 2、

首先,我们配置一个摄取管道来为每本书概要生成稀疏向量。在本次展示中,我将采用最新的 Elastic Stack 8.11 来进行展示。

安装

 安装 Elasticsearch 及 Kibana

如果你还没有安装好自己的 Elasticsearch 及 Kibana,那么请参考一下的文章来进行安装:

  • 如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch

  • Kibana:如何在 Linux,MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候,请选择 Elastic Stack 8.x 进行安装。在安装的时候,我们可以看到如下的安装信息:

为了能够上传向量模型,我们必须订阅白金版或试用。

安装 ELSER 模型

如果你还没有安装好 ELSER 模型,请参考文章 “Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR” 来进行安装。在这里就不再累述了。请注意安装好的 ELSER 模型的 ID 为 .elser_model_2 而不是之前那篇文章中的 .elser_model_1。

下载数据集

我们在地址 https://raw.githubusercontent.com/elastic/elasticsearch-labs/main/datasets/book_summaries_1000_chunked.json 下载好数据集并保存于当前的项目目录下。

拷贝 Elasticsearch 证书

我们把 Elasticsearch 的证书拷贝到当前的目录下:

$ pwd
/Users/liuxg/python/elser
$ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
$ ls
Chatbot with LangChain conversational chain and OpenAI.ipynb
ElasticKnnSearch.ipynb
ElasticVectorSearch.ipynb
ElasticsearchStore.ipynb
Mental Health FAQ.ipynb
Multilingual semantic search.ipynb
NLP text search using hugging face transformer model.ipynb
Question Answering with Langchain and OpenAI.ipynb
RAG-langchain-elasticsearch.ipynb
Semantic search - ELSER.ipynb
Semantic search quick start.ipynb
a.ipynb
book_summaries_1000_chunked.json
books.json
data.json
http_ca.crt
lib
sample_data.json
vector_search_implementation_guide_api.ipynb
workplace-docs.json

如上所示,我们的 Elasticsearch 的证书是 http_ca.crt。我们的数据集是 book_summaries_1000_chunked.json。

创建环境变量

在运行之前,我们必须使用如下的命令来安装相应的 elasticsearch 包:


pip3 install elasticsearch==8.11

在启动 jupyter notebook 之前,我们必须运行如下的命令来创建所需要的环境变量:

export ES_USER="elastic"
export ES_PASSWORD="o6G_pvRL=8P*7on+o6XH"
export ES_ENDPOINT="localhost"

我们创建一个新的 find_books_about_christmas_without_searching_for_christmas.ipynb。

运行应用

创建客户端连接

elastic_user=os.getenv('ES_USER')
elastic_password=os.getenv('ES_PASSWORD')
elastic_endpoint=os.getenv("ES_ENDPOINT")
 
url = f"https://{elastic_user}:{elastic_password}@{elastic_endpoint}:9200"
es = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True)
 
print(es.info())

如上所示,我们的 Elasticsearch 客户端连接是成功的。

创建 ingest pipeline

PIPELINE_ID="vectorize_books_elser"

es.ingest.put_pipeline(id=PIPELINE_ID, processors=[{
     "foreach": {
         "field": "synopsis_passages",
         "processor": {
           "inference": {
             "field_map": {
               "_ingest._value.text": "text_field"
             },
             "model_id": ".elser_model_2",
             "target_field": "_ingest._value.vector",
             "on_failure": [
               {
                 "append": {
                   "field": "_source._ingest.inference_errors",
                   "value": [
                     {
                       "message": "Processor 'inference' in pipeline 'ml-inference-title-vector' failed with message '{{ _ingest.on_failure_message }}'",
                       "pipeline": "ml-inference-title-vector",
                       "timestamp": "{{{ _ingest.timestamp }}}"
                     }
                   ]
                 }
               }
             ]
           }
         }
       }
}])

如果大家对上面的 processor 的设计不是很清楚的话,可以详细阅读文章 “ELSER 模型 2”。

创建 mappings 及索引

mappings = {
   "properties": {
       "title": {"type": "text"},
       "published_date": {"type": "text"},
       "synopsis": {"type": "text"},
       "synopsis_passages": {
         "type": "nested",
         "properties": {
             "vector": {
               "properties": {
                 "is_truncated": {
                   "type": "boolean"
                 },
                 "model_id": {
                   "type": "text",
                   "fields": {
                     "keyword": {
                       "type": "keyword",
                       "ignore_above": 256
                     }
                   }
                 },
                 "predicted_value": {
                   "type": "sparse_vector"
                 }
            }
         }
     }
   }
}
}
# Create the index (deleting any previously existing index)
es.indices.delete(index="books", ignore_unavailable=True)
es.indices.create(index="books", mappings=mappings)

我们可以在 Kibana 中查看到最新的 books 索引:

加载文档到 Elasticsearch

现在我们可以使用 bulk API 来提取我们的文档。 请注意,我们传递了之前创建的管道名称,以使用我们的 ELSER ML 模型来丰富文档。

import json

with open('book_summaries_1000_chunked.json') as f:
   books = json.load(f)

print("length of books: %d" %(len(books)))

from elasticsearch.helpers import streaming_bulk
count = 0
def generate_actions(books):
 for book in books:
   doc = {}
   doc["_index"] = "books"
   doc["pipeline"] = "vectorize_books_elser"
   doc["_source"] = book
   yield doc


for ok, info in streaming_bulk(
    client=es, 
    index="books", 
    actions=generate_actions(books),
    max_retries=3, 
    request_timeout=60*3, 
    chunk_size=10):
 if not ok:
   print(f"Unable to index {info['index']['_id']}: {info['index']['error']}")

运行完上面的命令后,我们可以在 Kibana 中进行查看:

 我们共有 999 个文档。我们可以在 Kibana 中进行查看直到 999 个文档完全被写入:

查询文档

我们现在已经准备好进行有趣的部分:测试一些查询以查看我们得到的结果。 这里的一件很棒的事情是,Elasticsearch 支持使用相同索引的关键字搜索和语义搜索,只要数据已正确索引即可,这里就是这种情况。 我们已将概要索引为文本以及稀疏向量数组。

在这里,我们将尝试使用以下查询来查找有关圣诞节的书籍:

“Story with Santa Claus”
“Xmas stories”
“Gift receiving and festive season”

使用关键字搜索(BM25)进行搜索的查询如下:

POST books/_search
{
  "_source": ["title"], 
  "query": {
    "match": {
      "synopsis": "Xmas stories"
    }
  }
}

使用语义搜索进行搜索的查询是这样的:

POST books/_search
{
  "_source": [
    "title"
  ],
  "query": {
    "nested": {
      "path": "synopsis_passages",
      "query": {
        "text_expansion": {
          "synopsis_passages.vector.predicted_value": {
            "model_id": ".elser_model_2",
            "model_text": "Xmas stories"
          }
        }
      }
    }
  }
}

我不是英文的专家,也不是圣诞节书的爱好者。但是在搜索的有些词里,我们还是可以看到和圣诞或者 christian 有关的文字:

因为我们没有使用关键字 Christmas,所以在这种情况下语义搜索优于词汇搜索。

查看第一个查询的结果:“Story with Santa Claus”。 语义搜索看起来更相关。

我们可以做如下 keyword 查询:

我们做语义搜索:

对于其他两个测试查询,我们得到以下结果:

  • Xmas stories

    • Lexical search:

      1. Naked Lunch
      2. Lost Girls
      3. Gilgamesh the King
    • Semantic search:

      1. A Visit from St. Nicholas
      2. Light in August
      3. A Christmas Carol
  • Gift receiving and festive season

    • Lexical search:

      1. Smith of Wootton Major
      2. A Canticle for Leibowitz
      3. A Gift Upon the Shore
    • Semantic search:

      1. Smith of Wootton Major
      2. A Visit from St. Nicholas

我让你看看哪些书与圣诞节庆祝活动最相关。

最后我们完整的代码在地址:https://github.com/liu-xiao-guo/semantic_search_es/blob/main/%20find_books_about_christmas_without_searching_for_christmas.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/272232.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

渗透测试 | php的webshell绕过方法总结

目录 1.php的异或运算 2.通过获取注释去绕过 3.利用字符的运算符​​​​​​​ 4.通过end函数代替[] 5.通过常量去绕过 6.字符串拼接双美元符 7.通过函数定义绕过 8.通过类定义,然后传参分割 9.多传参方式绕过​​​​​​​ 10.通过get_defined_function…

教你一分钟弄清屏幕SPI接口名称

相关文章 快速入门ESP32——开发环境配置Arduino IDE 快速入门ESP32——开发环境配置PlatformIO IDE 快速入门ESP32—— platformIO添加开源库和自己的开发库 一分钟弄清屏幕SPI接口名称 前言一、屏幕SPI接口名称二、与单片机连接总结 前言 最近,我在捣鼓CD屏幕的SP…

四川云汇优想教育咨询有限公司抖音电商服务的领航者

四川云汇优想教育咨询有限公司,作为一家在电商服务领域有着深厚底蕴的企业,一直以来都以其卓越的服务质量在业界树立了良好的口碑。尤其是在抖音电商服务方面,云汇优想更是凭借其出色的实力和精准的策略,成为了行业的佼佼者。 在抖…

从企业级负载均衡到云原生,深入解读F5

上世纪九十年代,Internet快速发展催生了大量在线网站,Web访问量迅速提升。在互联网泡沫破灭前,这个领域基本是围绕如何对Web网站进行负载均衡与优化。从1997年F5发布了BIG-IP,到快速地形成完整ADC产品线,企业级负载均衡…

使用Dependency Walker和Process Explorer排查瑞芯微工具软件RKPQTool.exe启动报错问题

目录 1、问题说明 2、使用Dependency Walker查看工具程序的库依赖关系 3、在可以运行的电脑上使用Process Explorer查看依赖的msvcr120.dll和msvcp120.dll库的路径 4、C/C运行时库介绍 5、可以下载安装VC_redist.x86.exe或VC_redist.x64.exe解决系统库缺失问题 C软件异常排…

Apache RocketMQ,构建云原生统一消息引擎

本文整理于 2023 年云栖大会林清山带来的主题演讲《Apache RocketMQ 云原生统一消息引擎》 演讲嘉宾: 林清山(花名:隆基),Apache RocketMQ 联合创始人,阿里云资深技术专家,阿里云消息产品线负…

华为鸿蒙的发展史:从初创到全球领先的历程

自2019年以来,华为的鸿蒙操作系统在全球范围内引发了广泛关注。鸿蒙的发展史见证了中国科技企业的崛起与坚韧,展现了华为对于技术创新的执着追求和坚定信念。本文将带你回顾华为鸿蒙的发展历程,了解这一操作系统如何从初创阶段走向全球领先地…

【Kafka】Kafka客户端认证失败:Cluster authorization failed.

背景 kafka客户端是公司内部基于spring-kafka封装的spring-boot版本:3.xspring-kafka版本:2.1.11.RELEASE集群认证方式:SASL_PLAINTEXT/SCRAM-SHA-512经过多年的经验,以及实际验证,配置是没问题的,但是业务…

三甲基碘硅烷,预计未来几年市场将以稳定的速度增长

三甲基碘硅烷是一种无色透明液体,广泛用作有机化学中的试剂。它用于制备多种有机化合物,包括药物、农用化学品和特种化学品。由于最终用途行业的需求不断增加,预计未来几年全球碘三甲基硅烷市场将以稳定的速度增长。 全球碘三甲基硅烷市场分为…

OpenGL :LearnOpenGL笔记

glfw https://github.com/JoeyDeVries/LearnOpenGL/blob/master/src/1.getting_started/1.1.hello_window/hello_window.cpp #include <glad/glad.h>// 注: GLAD的include文件包含所需的OpenGL头文件(如GL/GL.h) &#xff0c;因此确保在其他需要OpenGL的头文件 (如GLFW…

php 不加后缀访问

实现不带后缀访问php文件的方法&#xff1a;首先在htaccess文件中加入内容“RewriteRule ^(api/token) token.php [L]”&#xff1b;然后通过根目录下的“token.php”来接受“api/token”&#xff1b;最后修改配置文件。 考虑的做法有&#xff1a; HTTP重写技术&#xff0c;让…

仿Yasa算法-睡眠分期,目前五分期86.5%

参考链接 具体内容可见&#xff1a;个人文章 参考代码 The code that was used to train the classifiers can be found on GitHub at: Link 验证数据集 PhysiNet-Haaglanden 选取了其中150例数据&#xff08;剔除了No.98&#xff0c;标签数据长度不匹配&#xff09; 特征…

Shell 脚本应用(四)

正则表达式概述 正则表达式又称正规表达式&#xff0c;常规表达式。在代码中常简写为regex&#xff0c;regexp 或RE.正则表达式 是使用单个字符串来描述&#xff0c;匹配一系列符合某个句法规则的字符串&#xff0c;简单来说&#xff0c;是一种匹配字符串 的方法&#xff0c;通…

Nacos2.1.2改造适配达梦数据库7.0

出于业务需求&#xff0c;现将Nacos改造适配达梦数据库7.0&#xff0c;记录本次改造过程。 文章目录 一、前期准备二、适配流程1、项目初始化2、引入驱动3、源码修改 三、启动测试四、打包测试 一、前期准备 Nacos源码&#xff0c;版本&#xff1a;2.1.2&#xff1a;源码下载…

【Linux驱动】驱动框架的进化 | 总线设备驱动模型

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《Linux驱动》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 &#x1f969;驱动框架的进化&#x1f960;分层&#x1f960;面向对象&#x1f960;编程&am…

爬虫工作量由小到大的思维转变---<第二十八章 Scrapy中间件说明书>

爬虫工作量由小到大的思维转变---&#xff1c;第二十六章 Scrapy通一通中间件的问题&#xff1e;-CSDN博客 前言: (书接上面链接)自定义中间件玩不明白? 好吧,写个翻译的文档点笔记,让中间件更通俗一点!!! 正文: 全局图: 爬虫中间件--->翻译笔记: from scrapy import s…

蓝桥小课堂-平方和【算法赛】

问题描述 蓝桥小课堂开课啦&#xff01; 平方和公式是一种用于计算连续整数的平方和的数学公式。它可以帮助我们快速求解从 1 到 n 的整数的平方和&#xff0c;其中 n 是一个正整数。 平方和公式的表达式如下&#xff1a; 这个公式可以简化计算过程&#xff0c;避免逐个计算…

JRT支持人大金仓

之前对接了PostGreSql和iris和Cache库&#xff0c;表的主键列都是RowID&#xff0c;列同时区分大小写带引号。这次试试连人大金仓库&#xff0c;主键列不叫RowID了&#xff0c;改id&#xff0c;然后不使用大小写。 代码生成器生成的代码效果 测试表 生成实体 生成后台 生…

vue 脚手架文件结构及加载过程浅谈

1. 初始化脚手架 1.1 全局安装 vue/cli npm install -g vue/cli 1.2 切换到创建项目的目录&#xff0c;执行 vue create projectname 1.3 选择符合自己要求的项进行Y/N&#xff0c;最终生成项目文件 2. 脚手架文件结构 |-- node_modules: 存放下载依赖的文件夹 |-- public: …

【HTML5】第2章 HTML5标签和属性

学习目标 掌握文本控制标签的用法&#xff0c;能够使用文本控制标签设置文本样式。 掌握图像标签的用法&#xff0c;能够使用图像标签在网页中嵌入图片。 掌握超链接标签的用法&#xff0c;能够使用超链接实现页面的跳转。 掌握列表标签的用法&#xff0c;能够使用列表标签设…