Redis Search系列 - 第一讲 创建索引

目录

    • 一、引言
    • 二、全文检索基本概念
    • 三、创建索引

一、引言

Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性:

  1. 全文搜索:支持对文本字段进行全文搜索,包括分词、词干提取和高亮显示等功能。
  2. 多字段索引:可以对多个字段进行索引,包括文本、数值、地理位置等。
  3. 排序和分页:支持对搜索结果进行排序和分页,方便处理大数据量的查询结果。
  4. 聚合查询:支持对数据进行聚合操作,如分组、计数、求和等。
  5. 高性能:利用 Redis 的内存存储特性,提供高性能的搜索和索引功能。

二、全文检索基本概念

在全文检索(full-text search)中,以下术语是关键概念:

  • Index:索引是一个数据结构,用于快速查找包含特定词的文档。它通常是一个倒排索引(inverted index),其中存储了每个词及其在文档中的位置。

  • Document:文档是索引中的基本单位。它可以是任何形式的文本数据,如网页、文章、电子邮件等。在索引中,每个文档都有一个唯一的标识符。

  • Field:字段是文档中的一个部分或属性。例如,一个文档可能有标题字段、正文字段、作者字段等。字段可以单独索引和搜索。

  • Token:词元是从文本中提取的最小单位,通常是单词或词组。词元化(tokenization)是将文本分割成词元的过程。

  • Term:术语是索引中的一个条目,表示一个唯一的词元。术语是词元的规范化形式,通常经过词干提取(stemming,比如复数变单数、动词过去式变回原形)和小写转换。

  • Stop Word:停用词是指在索引和搜索过程中被忽略的常见词,如 “the”、“is”、“and” 等。停用词通常对搜索结果的相关性没有显著影响,因此被过滤掉以减少索引大小和提高搜索效率。
    在这里插入图片描述

三、创建索引

创建索引后,Redis Stack会自动索引存储在数据库中的任何现有的、修改的或新创建的JSON文档。

  • 对于现有文档,索引在后台异步运行,因此文档可用可能需要一段时间。
  • 修改已有的文档和新创建的文档是同步索引的,因此在添加或修改命令完成时,文档将可用。

创建索引FT.CREATE命令语法:

FT.CREATE index 
  [ON HASH | JSON] 
  [PREFIX count prefix [prefix ...]] 
  [FILTER {filter}]
  [LANGUAGE default_lang] 
  [LANGUAGE_FIELD lang_attribute] 
  [SCORE default_score] 
  [SCORE_FIELD score_attribute] 
  [PAYLOAD_FIELD payload_attribute] 
  [MAXTEXTFIELDS] 
  [TEMPORARY seconds] 
  [NOOFFSETS] 
  [NOHL] 
  [NOFIELDS] 
  [NOFREQS] 
  [STOPWORDS count [stopword ...]] 
  [SKIPINITIALSCAN]
  SCHEMA field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] 
  [NOINDEX] [ field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] ...]

FT.CREATE命令参数说明:

索引参数说明
index要创建的索引名称。如果该索引已存在,则返回错误回复(错误)“Index already exists”。
SCHEMA在 SCHEMA关键字之后,声明要索引的字段: field_name [AS alias]
field_name:对于HASH则哈希中的字段名称,对于 JSON则为JSON Path表达式
alias:定义field的别名,可使用此功能将复杂的 JSONPath 表达式与更易记住(且更易输入)的名称关联
ON {data_type}HASH (默认) 或JSON,即支持索引的Redis数据类型,
若值为JSON则需要安装 RedisJSON模块
PREFIX {count} {prefix}需要被索引的key前缀,支持设置多个前缀,支持通配符*,默认*(表示全部)
FILTER {filter}filter过滤表达式,如使用@__key表示新增或修改(just added/changed)的key,
TODO A field can be used to set field name by passing ‘FILTER @indexName==“myindexname”’.
LANGUAGE {default_lang}文档索引的默认语言,默认值为:english,
可选值:[arabic, armenian, danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, romanian, russian, serbian, spanish, swedish, tamil, turkish, yiddish, chinese]
LANGUAGE_FIELD {lang_attribute}设置文档中的某个field表示具体的LANGUAGE
SCORE {default_score}文档的默认分值score,默认值:1.0
SCORE_FIELD {score_attribute}设置文档中的某个field表示具体的SCORE,此field的值范围为:[0.0, 1.0],如不设置默认为1
PAYLOAD_FIELD {payload_attribute}设置文档的某个属性用于存储文档的二进制安全负载字符串,可在查询时由自定义评分函数或重新返回给客户端。TODO is document attribute that you use as a binary safe payload string to the document that can be evaluated at query time by a custom scoring function or retrieved to the client.
MAXTEXTFIELDS强制Redis Search索引编码超过32个文本属性,这允许您使用FT.ALTER添加其他属性(超过32个)。为了提高效率,如果索引的文本属性少于32个,Redi Search会对索引进行不同的编码
NOOFFSETS不存储文档的term偏移量,可以节省内存,但不允许精确搜索或高亮显示,
使用此选项则意味着NOHL
TEMPORARY {seconds}临时索引,设置超过n秒 - 未被搜索或新增 - 即删除该索引及其关联的数据
注: 普通索引删除(FT.DROPINDEX)时并不删除数据,需使用DD标志才可级联删除
NOHL不支持高亮highlighting,可以节约存储和内存,
使用此选项则意味着NOOFFSETS
NOFIELDS不存储每个term的属性位,可以节省内存,但不允许按特定属性进行过滤
NOFREQS避免在索引中保存term频率,可以节省内存,但不允许基于文档中给定term的频率进行排序
STOPWORDS {count}使用自定义停词(stop word)列表设置索引,在索引和搜索时忽略这些词。
{count} 是停用词的数量,后面是长度正好为 {count} 的停词参数列表。
如果未设置,FT.CREATE 将使用默认的停词列表。
如果 {count} 设置为 0,则索引没有停用词。
SKIPINITIALSCAN创建索引时忽略扫描及索引已有数据

注意事项

  • 属性数量限制:RediSearch 支持每个模式最多 1024 个属性,其中最多 128 个可以是 TEXT 属性。在 32 位构建中,最多 64 个属性可以是 TEXT 属性。属性越多,索引越大,因为每增加 8 个属性,每个索引记录需要额外一个字节进行编码。如果不需要按文本属性进行过滤,可以始终使用 NOFIELDS 选项,不将属性信息编码到索引中,以节省空间。这仍然允许按数值和地理属性进行过滤。
  • 在集群数据库中运行:在集群数据库中有多个索引时,需要确保要索引的文档与索引位于同一分片上。可以通过按索引名称标记文档来实现这一点,例如:
    • HSET doc:1{idx}
    • FT.CREATE idx … PREFIX 1 doc: …
  • 当在集群数据库中运行Redi搜索时,您可以使用RSCoordinator跨分片跨索引。在这种情况下,上述规定不适用。

在SCHEMA中field支持的类型:

Field类型说明
TEXT允许全文(full-text)检索(会被分词、倒排索引)
TAG由逗号分隔的多标签文本,允许精准匹配(exact-match),如分类、主键、标签等的精确匹配
NUMERIC数字范围检索
GEO地址位置(Point),格式:经度,纬度,允许圆周范围检索
VECTOR向量(多值数组)相似度检索,需要dialect 2及以上(introduced in RediSearch v2.4) ,
关于VECTOR的详细说明可参见:Vectors
GEOSHAPE允许多边形(polygon)检索,需使用WKT格式:POLYGON((x1 y1, x2 y2, …)
支持的坐标系:
  • 球面(默认) - SPHERICAL for Geographic longitude and latitude coordinates
  • 平面 - FLAT for Cartesian X Y coordinates

在SCHEMA中field支持的参数说明:

参数说明
SORTABLENUMERIC、TAG、TEXT 或 GEO 属性可以有一个可选的 SORTABLE 参数。
当用户按此属性的值排序结果时,结果可用的延迟非常低。
请注意,这会增加内存开销,因此请考虑不要在大型文本属性上声明它。
可以在没有 SORTABLE 选项的情况下对属性进行排序,但延迟不如使用 SORTABLE 时好。
UNF默认情况下,对于哈希(不适用于 JSON),SORTABLE 会对索引值进行规范化(字符设置为小写,去除变音符号)
使用未规范化形式(UNF)时,可以禁用规范化并保留值的原始形式。
对于 JSON,UNF 在 SORTABLE 时是隐式的(禁用规范化)。
NOSTEM索引值时禁用词干提取(stemming)
这对于诸如专有名称之类的内容可能是理想的。
NOINDEX设置属性不被索引,
修改NOINDEX属性不会导致文档的完全重新索引。
有NOINDEX 且 没有 SORTABLE,则属性将被索引忽略。
PHONETIC {matcher}将文本属性声明为 PHONETIC 将在搜索中默认执行语音匹配。强制性的 {matcher} 参数指定使用的语音算法和语言。支持以下匹配器:
dm:en - 英语的双重音码
dm:fr - 法语的双重音码
dm:pt - 葡萄牙语的双重音码
dm:es - 西班牙语的双重音码
有关更多信息,请参见:Phonetic matching
WEIGHT {weight}适用于 TEXT 属性,声明在计算结果准确性时此属性的重要性。这是一个乘数因子,如果未指定,则默认为 1。
SEPARATOR {sep}适用于 TAG 属性,指示属性中包含的文本如何拆分为单个标签。默认值为,且参数值必须是单个字符。
CASESENSITIVE适用于TAG 属性,保留标签的原始字母大小写。如果未指定,则字符将转换为小写。
WITHSUFFIXTRIE对于 TEXT 和 TAG 属性,保留一个包含所有匹配后缀的术语的后缀字典树。
它用于优化包含(foo)和后缀(*foo)查询。否则,将对字典树进行暴力搜索。
如果某些字段存在后缀字典树,则检索时会忽略其他字段
INDEXEMPTY对于 TEXT 和 TAG 属性,在 v2.10 中引入,
允许您索引和搜索空字符串
默认情况下,空字符串不会被索引,
更多使用说明参见:Index missing or empty values
INDEXMISSING对于所有字段类型,在 v2.10 中引入,
允许您搜索缺失值,即不包含特定字段的文档。
注意: 字段为空值与文档缺少值之间的区别。
默认情况下,缺失值不会被索,
更多使用说明参见:Index missing or empty values

FT.CREATE命令示例:

# 创建JSON索引
FT.CREATE itemIdx 
    ON JSON 
    PREFIX 1 item: 
SCHEMA 
    $.name AS name TEXT 
    $.description as description TEXT 
    $.price AS price NUMERIC 
    $.colors.* AS colors TAG 
    $.location AS loc GEO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/900354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学习threejs,使用canvas样式化粒子

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.PointCloud简介1.11 …

Vue3+ts+vite自动导入vue的依赖

Vue3tsvite自动导入vue的依赖 unplugin-auto-import 主要依赖 npm i -D unplugin-auto-import// vite.config.ts import AutoImport from unplugin-auto-import/viteexport default defineConfig({plugins: [AutoImport({ imports: ["vue", "vue-router"…

团体标准审查结果一般会有哪几种情况?

1. 通过: • 标准质量高:标准的内容符合国家法律法规和相关标准的要求,技术指标科学、合理、先进,具有较强的适用性和可操作性 • 材料完整规范:送审材料齐全,标准的格式、文本编写等符合规定,为…

深入拆解TomcatJetty——Tomcat生命周期与多层容器

深入拆解Tomcat&Jetty(三) 专栏地址:https://time.geekbang.org/column/intro/100027701 1 Tomcat组件生命周期 Tomcat如何如何实现一键式启停 Tomcat 架构图和请求处理流程如图所示: 对组件之间的关系进行分析,…

deploylinux的ubuntu系统无法成功安装使用MySQL❓

🏆本文收录于《全栈Bug调优(实战版)》专栏,主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&am…

如何编辑加密的PDF文件?

PDF文件打开之后,发现编辑功能都是灰色的,无法使用,无法编辑PDF文件,遇到这种情况,是因为PDF文件设置了限制编辑导致的。一般情况下,我们只需要输入PDF密码,将限制编辑取消就可以正常编辑文件了…

由于导出的数据名字中带有/,导致Matlab打不开,怎么办?

🏆本文收录于《全栈Bug调优(实战版)》专栏,主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&am…

Spring Boot集成PageHelper分页插件详解---补充

这里写目录标题 内容补充 内容 ⭐最新版!SpringBoot正确集成PageHelper姿势,不再被误导! Spring Boot集成PageHelper分页插件详解 原本看了这两篇文章,觉得写的其实挺好的。但是发现两篇文章里面,对于方法的使用,都…

昆虫种类识别数据集昆虫物种分类数据集YOLO格式VOC格式 目标检测 机器视觉数据集

一、数据集概述 数据集名称:10类昆虫图像数据集 数据集包含了多种农作物中常见的昆虫种类,包括军虫、豆蓟象、红蜘蛛、水稻瘿蚊、水稻卷叶蛾、水稻叶蝉、水稻水蚤、小麦薄翅薄翅蔗蝇、白背飞虱和黄稻螟。 1.1可能应用的领域 农业害虫监测与防控&#x…

C++,STL 044(24.10.24)

内容 1.set容器的构造函数。 2.set容器的赋值操作。 运行代码 #include <iostream> #include <set>using namespace std;void printSet(set<int> &s) {for (set<int>::iterator it s.begin(); it ! s.end(); it){cout << *it << &…

好书推荐|《Python最优化算法实战》

简介 本书以理论结合编程开发为原则&#xff0c;使用Python作为开发语言&#xff0c;讲解优化算法的原理和应用&#xff0c;详细介绍了Python基础、Gurobi 优化器、线性规划、整数规划、多目标优化、动态规划、图与网络分析、智能优化算法。对于算法部分的每一种算法都包含原理…

算法设计与分析——动态规划

1.动态规划基础 1.1动态规划的基本思想 动态规划建立在最优原则的基础上&#xff0c;在每一步决策上列出可能的局部解&#xff0c;按某些条件舍弃不能得到最优解的局部解&#xff0c;通过逐层筛选减少计算量。每一步都经过筛选&#xff0c;以每一步的最优性来保证全局的最优性…

NavMesh只制作可移动的导航网,清除多余不可走区域

只制作可移动的导航网。它使存储文件大小减小并提高性能。它消除了迁移到随机区域的问题。添加链接描述 1.如何使用 2.创建一个包含“NavMeshCleaner”组件的对象。Andadd指向可定制区域。 按住控制键并单击添加点。如果要移动它&#xff0c;请按 输入上的control键并单击。您…

flashback database 闪回数据库

1.修改闪回区大小&#xff0c;路径&#xff0c;保留时间 SQL> show parameter db_recovery_file_dest SQL> show parameter db_flashback_retention_targetSQL> alter system set db_recovery_file_dest_size20G scopeboth;System altered.SQL> alter system set …

ffmpeg视频滤镜: 裁剪-crop

滤镜简述 crop官网链接 > FFmpeg Filters Documentation crop滤镜可以对视频进行裁剪&#xff0c;并且这个滤镜可以接受一些变量比如时间和帧数&#xff0c;这样我们实现动态裁剪&#xff0c;从而实现一些特效。 滤镜使用 参数 out_w <string> ..…

云电脑使用教程标准版

云电脑&#xff0c;也称为云桌面&#xff0c;是一种通过互联网连接远程服务器&#xff0c;使用虚拟桌面环境来执行计算任务的技术。川翔云电脑通过创建软件镜像&#xff0c;让用户能够快速启动并使用预配置的软件和资料&#xff0c;提供高效且经济的云服务。相较于公有云服务&a…

83.【C语言】数据结构之顺序表的尾部插入和删除

目录 3.操作顺序表 2."伪"插入顺序表的元素 分析尾部插入函数SLPushBack 代码示例 SeqList.h main.c free(指针)出错的几种可能的原因 3."伪"删除顺序表元素 2.分析尾部删除函数SLPopBack 代码示例 错误检查 两种解决办法 1.判断size是否为负…

【Linux系统】页表的存在位 与 OS的按需加载策略

一、引入 加载程序会将程序代码全部从磁盘中加载进内存吗&#xff1f; 为什么你的电脑的运存只有16GB&#xff0c;但你可以运行上百GB的游戏&#xff0c;如黑神话马喽&#xff1f; 这就涉及到 操作系统的按需加载策略 二、页表的存在位 页表的一个标志位&#xff1a;存在位 …

webpack 老项目升级记录:从 node-sass 限制的的 node v8 提升至支持 ^node v22

老项目简介 技术框架 vue 2.5.17webpack 4.16.5"webpack-cli": "3.1.0""node-sass": "^4.7.2" 几个阶段 第一步&#xff1a;vue2 升级到最新 第一步&#xff1a;升级 vue2 至最新版本&#xff0c;截止到目前&#xff08;2024-10-…

【vim】手动安装 Leader-F

LeaderF 是一个功能强大的 Vim 插件&#xff0c;主要用于快速导航和搜索。它可以帮助用户在 Vim 中高效地查找文件、缓冲区、标签、函数等各种元素&#xff0c;极大地提高了编辑效率。 LeaderF 的安装如果按照仓库中的教程来的话可以很方便的实现安装&#xff0c;这里介绍一下…