Lucene 倒排索引

倒排索引是什么?

【定义】倒排索引(Inverted Index)是一种用于信息检索的数据结构,尤其适用于文本搜索。它与传统索引的主要区别在于,传统索引是根据文档来查找词语的位置,而倒排索引则是根据词语来查找文档。倒排索引在搜索引擎、数据库系统以及自然语言处理等领域有着广泛的应用。

倒排索引的结构包含:

  • 词项索引(term index):存放在 .tip 文件中。存放 FST 的公共前缀和公共后缀。
  • 词项字典:存储的关键词,使用 FST(Finite State Transducer) 数据结构压缩。存放在 .tim 文件中。后缀词块,倒排表的指针。
  • 倒排表:存储的是:包含当前词项的文档 ID 有序列表,是 int 型。int 的最大值是 2^32 ,所以分片存储的文档是有上限的。存放在 .doc 文件中。

由于词典的 size 会很大,全部装载到 heap 里不现实,因此Lucene为词典做了一层前缀索引(Term Index),这个索引在Lucene4.0以后采用的数据结构是FST (Finite State Transducer)。 这种数据结构占用空间很小,Lucene 打开索引的时候将其全量装载到内存中,加快磁盘上词典查询速度的同时减少随机磁盘访问次数

FST 可以理解为前缀树的变种,FST 不但利用公共前缀,还是利用了公共后缀。FST 的对空间的空间的压缩还大。

Lucene4+ 开始大量使用数据结构:FST(Finite State Transducer)

FST 优点:

  1. 空间占用小,通过对字典中单词前缀和后缀的重复利用,压缩存储空间。
  2. 查询速度快。时间复杂度: O(len(str))
term indexterm dictionary(词项字段)Posting list(倒排表)标记匹配
小米1,2,4
手机1,2,3
NFC4,5

索引结构

倒排索引核心算法

倒排表的压缩算法

Posting list 使用的压缩算法:(高效压缩、快速的编码解码)

  • FOR(Frame Of Reference):针对稠密数组压缩。稠密的定义:数组中数据差值比较小

    • 核心思想:用减法来削减数值大小,从而达到降低空间存储。
  • RBM(Roaring Bit Map):针对稀疏数组压缩。稀疏的定义:数组中数据差值比较大

    • 解决 FOR 算法缺陷:如果减法的结果差值,依然很大。
    • 核心思想:通过除法来缩减数值大小,但是并不是直接的相除。将一个数拆成高 16 位和低 16 位。

FOR

如下图:Posting list 中是升序排列的 6 个 int 数据。

压缩前数据所占空间为:4 byte * 6 = 24 byte

接下来看 FOR 的压缩过程

  1. 第一位数保留原始数据,从第二数起,保留与前一位数的差值,如下图 Deltas list
  2. 根据 Deltas list 中数据稠密程度划分出小数组(自动划分)
    1. 【目的】小数组内每个数据占用的空间,都是有小数组内最大的数据所决定。划分小数组的目的,也是为了进一步压缩空间。避免一个大数据,导致所有数据都必须占用这么大的空间。
  3. 根据每个小数组中的最大值,确定每个数据的占用空间
    1. 左边数组的最大值为 277,至少占用 8 个 bit: 2 8 = 512 2^8= 512 28=512。那么左边数组需要占用:2 * 8bit = 16 bit
    2. 右边数组的最大值为 30,至少占用 5 个bit: 2 5 = 32 2^5= 32 25=32。那么右边数组需要占用:4 * 5bit = 20 bit
  4. 每个小数组中每个数占用的空间也需要记录一下,解码时需要使用。下图 8 bit 和 5bit 也各需要一个 1 byte 的空间存储
  5. 程序中的数据都是使用字节存储的。因此需要将 bit 转换为字节。16 bit = 2 byte;20 bit = 3 byte。20 bit 必须用 3 byte 存储。
  6. 因此最终压缩后数据占用空间为:1 byte + 2 byte + 3 byte + 1 byte = 7 byte。空间压缩了 2/3

RBM

RBM(Roaring Bit Map):针对稀疏数组压缩。稀疏的定义:数组中数据差值比较大。

核心思想:通过除法来缩减数值大小,但是并不是直接的相除。将一个数拆成高 16 位和低 16 位。

如下图:posting list 的差值也非常大。可以使用 RBM 算法进行压缩。

Posting list 中是升序排列的 6 个 int32 数据。

  1. 通过除以 2 16 = 65536 2^{16}=65536 216=65536 ,获取到高 16 和低 16 两个 short 数
  2. 以高 16 数给key,以低 16 数为 value,构建倒排列表

Short[] 数组存放高位,相同高位存放 value。

支撑的 container 的类型:

  1. ArrayContainer:container 中的数据以 short 数组形式存储。

    1. container 中的数据是升序且不重复的。并且最多有 65536 个数。因此最大占用空间为:(65536*16/2)/1024=128KB。

    2. 当 value 小于2096 个数或者 8KB时,使用 ArrayContainer。否则使用 BitMapContainer。

  2. BitMapContainer:container 中的数据用 bitMap 存储。

    1. bitMap:要支持 65536 位的数据存储,占用空间为:(65536/8)/1024 = 8KB

    2. bitMap 占用的空间是固定,无论多少数据都是 8KB。

      1. 因此但数据量小于 2096 个时,使用 ArrayContainer 比较合适。

      2. 因此但数据量大于 2096 个时,使用 BitMapContainer 比较合适。

  3. RunContainer:此 container 适合存储连续数据。如下图:有 100w 个连续数据,那么直接存储一个范围即可。

词项索引的压缩算法

【定义】FST 是 Finite State Transducer 的缩写,是一种计算模型,它是有限状态自动机(Finite State Automaton, FSA)的一种扩展。FST 可以看作是一个双向的自动机,它在读取输入的同时产生输出。

【用途】FST 常用于自然语言处理、编译器设计、模式识别等领域,用于处理和转换数据,例如文本的自动翻译、语音识别与合成等。

与前缀树相比,FST 不但能够共享前缀,还能共享后缀。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/890873.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vmware虚拟机 报错:客户机操作系统已禁用 CPU,请关闭或重置虚拟机 的解决方法

打开cpu虚拟化全部进行勾选 ctrl e 进行关机 勾选上打开就好了 如果没有那个选项 关机>打开虚拟机>管理>更改硬件兼容性> 往小处改改> >更改此虚拟机

MySQL连接查询:联合查询

先看我的表结构 emp表 联合查询的关键字(union all, union) 联合查询 基本语法 select 字段列表 表A union all select 字段列表 表B 例子:将薪资低于5000的员工, 和 年龄大于50 岁的员工全部查询出来 第一种 select * fr…

x-file-storage:一款强大的文件聚合存储解决方案

嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法 dromara/x-file-storage 是一个由 Dromara 社区开发和维护的开源项目,旨在提供一个高效、可靠的文件存储解决方案。该项目以其强大的功能和…

正则表达式-“三剑客”(grep、sed、awk)

1.3正则表达式 正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串,将匹配的子串替换或者从某个串中取出符号某个条件的子串等,在linux中代表自定义的模式模版,linux工具可以用正则表达式过滤文本。Linux…

新版 Notepad++ 下载与安装教程

一、软件准备:麻烦点我 二、双击下载好的 notepad 软件进行安装,选择 “简体中文”。 三、默认 “下一步” 安装。 四、单击 “我接受” 按钮。 五、自定义安装位置,个人建议安装在 D 盘。 六、选择组件,默认 “下一步”。 七、勾…

通过OpenCV实现 Lucas-Kanade 算法

目录 简介 Lucas-Kanade 光流算法 实现步骤 1. 导入所需库 2. 视频捕捉与初始化 3. 设置特征点参数 4. 创建掩模 5. 光流估计循环 6. 释放资源 结论 简介 在计算机视觉领域,光流估计是一种追踪物体运动的技术。它通过比较连续帧之间的像素强度变化来估计图…

C++:list(用法篇+模拟实现)

文章目录 前言一、list 的用法1. list 简介2. 用法代码演示1)头/尾 插/删和迭代器遍历2)insert与erase3)排序sort相关4)其他相关 二、list模拟实现1. 结点类模板list_node2. 定义迭代器1)为什么要专门封装一个迭代器&a…

使用可白嫖的高配置服务器——DAMODEL进行AI开发教程

DAMODEL:DAMODEL 目前DAmodel注册并实名赠送50大洋的免费额度,搭载4090的服务器费用不到2r/h 教程: 完成注册并实名后 在此点击创建实例 选择实例配置 选择镜像,看你使用哪种dl框架 。 实例自带的磁盘会随实例释放。需要自己…

FineReport 图表切换维度

1、导入数据 可以参考导入Excel数据,直接导入数据也可以在数据库建表,Navicat直接导入数据 以下是数据库建表操作 -- 创建表 create table test11 ( orderTime date NULL, -- 下单时间 quantity int NULL -- 数量 ); 导入数据 2、SQL判断统计维度…

Docker 的数据管理

前置资源 Docker的数据管理资源.zip资源-CSDN文库 一、容器中数据管理 管理 Docker 容器中数据主要有两种方式:数据卷(Data Volumes)和数据卷容器(DataVolumes Containers)。 1.数据卷 数据卷是一个供容…

2024 年 Mac 下这些生产力工具,好用到哭

每段关系最终都会结束 即使不是因为别的原因 也会因为死亡 我只知道 你不对她说出来 她就永远不知道 你的心意 她那天离开的时候 才知道一个道理 有时候 保护一样重要的东西的方式 不是守在她旁边 而是离开她 离得远远的远到看起来谁也 不在乎谁一样 今天呢&#x…

Go-知识泛型

Go-知识泛型 1. 认识泛型1.1 不使用泛型1.2 使用泛型 2. 泛型的特点2.1 函数泛化2.2 类型泛化 3. 类型约束3.1 类型集合3.2 interface 类型集合3.2.1 内置interface类型集合3.2.2 自定义interface类型集合3.2.2.1 任意类型元素3.2.2.2 近似类型元素3.2.2.3 联合类型元素 3.2.3 …

Linux网络命令:用于配置防火墙规则的一个用户友好的工具ufw详解

目录 一、概述 二、安装 UFW 三、启动、重启和关闭 UFW 1、启动 2、关闭UFW 3、 重启 UFW 四、查看 UFW 状态 五、UFW 基本命令 1. 允许端口 (1)单个 TCP 端口 (2)允许单个 UDP 端口 (3&#xff0…

音频响度归一化 - python 实现

在处理音频样本时,往往我们的音频样本由于录制设备,环境,人发音的音量大小的不同影响,会造成音频响度不统一,分布在一个不同的响度值域上。为了让语音模型更好的学习音频特征,就有必要对音频的响度进行归一…

【AIGC】ChatGPT是如何思考的:探索CoT思维链技术的奥秘

博客主页: [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 💯前言💯什么是CoT思维链CoT思维链的背景与技术发展需求 💯CoT思维链的工作原理💯CoT思维链的应用领域💯CoT思维链的优势💯CoT思维…

ppt压缩文件怎么压缩?压缩PPT文件的多种压缩方法

ppt压缩文件怎么压缩?当文件体积过大时,分享和传输就会变得困难。许多电子邮件服务对附件的大小有限制,而在网络环境不佳时,上传和下载大文件可能耗时较长。此外,在不同设备上播放时,较大的PPT文件还可能导…

基于Java+SpringBoot+Uniapp的博客系统设计与实现

项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念,提供了一套默认的配置,让开发者可以更专注于业务逻辑而不是配置文件。Spring Boot 通过自动化配置和约…

<OS 有关> Windows 11 对不习惯菜单所做修改 自用

新安装 Windows 11 23H2 不习惯菜单,做的修改: 1. 禁用 Show More Options 鼠标右键 想使用旧版的 鼠标右键菜单, 不需要点 show more options , 如下图的方式: 创建一个 注册表文件: disable_content.reg Windows …

Maven 高级之分模块设计与继承、聚合

在软件开发中,随着项目规模的扩大,代码量和复杂度不断增加,传统的一体化开发模式逐渐暴露出诸多问题。为了解决这些问题,模块化开发应运而生,而 Maven 正是模块化开发的利器,它提供的继承和聚合机制为构建和…

STL源码剖析:STL算法

STL 算法总览 质变算法 mutating algorithms—会改变操作对象之值 所有的 STL算法都作用在由迭代器(first,last)所标示出来的区间上。所谓“质变算法”,是指运算过程中会更改区间内(迭代器所指)的元素内容。诸如拷贝(copy)、互换(swap)、替换(replace)、填写(fill)、删除(remov…