elasticSearch快速了解

elasticSearch:经常用于搜索引擎,我们用的百度搜索和github上的搜索都是用的搜索引擎,它是对输入内容进行分析,然后查询,不像数据库模糊搜索的like一样必须含用你输入的全部内容。

elasticSearch优势:支持分布式,可水平扩展;提供了restful接口,可被任何语言调用。

elasticsearch结合kibana、Logstash、Beats,是一套完整的技术栈,被称为ELK,被广泛应用于日志数据分析、实时监控等领域。我们经常用kibana提供的可视化控制台来操作elasticsearch。

elasticsearch搜索数据采用的倒排索引。我先说一下什么是正排索引。

正排索引就是:以Mysql为例,就是我们用索引根据id去查找数据。但elasticsearch是根据标题进行模糊查询。无法建立索引。如果正排索引就需要去访问每一个数据。

倒排索引:其中有俩个概念。 文档:对应的mysql表中的每一行的数据。  词条:对应一行数据的内容按词义分成的若干个词(比如:文档是:“小米手机”,那词条就是:小米、手机)。

elasticSearch进行倒排索引时会把原数据库中的信息存储一份到elasticsearch中,并根据id建立索引与mysql数据库中一样(但数据结构上不一样)。然后去分词,把分好的词与对应的文档id存储起来。

 然后在对词条建立唯一索引。

所以elasticsearch的工作流程是:先对搜索内容进行分词,然后根据分词去查文档id,最后就是根据文档id正常查mysql等的数据库了。

那我们应该怎么对搜索内容进行分词呢? 我们经常用ik分词器,把搜索内容分成多个词条

ik分词器有俩种模式:1、 ik_smart 智能切分,粗粒度 ;2、 ik_max_word 最细切分,细粒度(对一个词进行多种不同的切分,比如: 程序员 切分为:程序员、程序、员;)

下面让我们来通过kibana控制操作一下elasticsearch:

我是用的docker部署的,elasticsearch 8x以后的版本的api接口变化很大,目前还是用7x版本的多,所以我部署的7.12.1版本的。同样我们还需要部署kibana,kibana的版本要与elasticsearch的版本对应,同样也要用7.12.1版本。

elasticsearch容器启动命令:

docker run -d --name es -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" -e "discovery.type=single-node" -v 你的挂载目录/es-data:/usr/share/elasticsearch/data -v 你的挂载目录/es-plugins:/usr/share/elasticsearch/plugins --privileged --network hm-net -p 9200:9200 -p 9300:9300 elasticsearch:7.12.1

挂载目录,只要你觉得你能的方便找到,写哪都可以。

kibana容器启动命令:

docker run -d --name kibana -e ELASTICSEARCH_HOSTS=http://es:9200 --network=hm-net -p 5601:5601 kibana:7.12.1

注意:要把这俩个容器部署在同一个网桥下,我创建的network的名字是 hm-net 。

等都启动好后访问:https://localhost:5601    就可以进行kibana的控制台了。

登陆进去,然后点右上的 dev tools 就进入操作elasticsearch的控制台了

 我们想对搜索内容进行分词的话,需要用到ik分词器,但这个分词器插件需要自己去下载。下载好直接拖进我们挂载的elasticsearch的plugins目录中就可以了。

 解压后,ik分词器的文件名叫 elasticsearch-analysis-ik-7.12.1 ,直接把它拖进es-plugins目录,然后容器elasticsearch容器就行。

POST _analyze
{
  "analyzer": "ik_smart",
  "text": ""  
}

analyzer 是ik分词器的模式 模式有 ik_smart   和 ik_max_word 俩种;text 就是要分词的内容

post这行右边的三角符号,就会发送请求的命令。

 随着社会网络的发展,网络上经常新出现很大新的网络用词,这些新的网络用词ik分词器就不能识别的。就比如 “传智播客,泰酷辣啊”,分词器只会把它一个字一个字的分开。

但是! ik分词器提供给我们了扩展词汇的功能:我们只需要把新词汇加进去,分词器就能识别了。

让我们进入刚刚下载的ik分词器插件的目录中:

 以文本编辑的形式打开图中我选中的文件,你可以根据我的填上:

其中  stopword.dir是目录中自带的,你可以直接写在这,你也可以在该目录中的stopword.dir文件中添加你想停止扩展的文字。比如“啊,呀,哦,喔等等”。

而扩展字典 ext.dir是我们自己创建的文件。在这个新创的文件中写上你要添加的文字:

 然后保存退出就可以了。回到我们的kibana控制台,对“传智播客,泰酷辣啊” 进行分词,分词器就会把它们按一个词对待了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/782698.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ideaSSM校医院管理系统-计算机毕业设计源码82325

基于ideaSSM校医院管理系统设计 摘 要 随着信息技术的快速发展和广泛应用,传统的校医院管理模式已经难以满足日益增长的管理需求和服务质量要求。为了提升校医院管理效率和服务水平,本文提出了一种基于IDEASSM的校医院管理系统设计方案。该系统以先进的…

SQL 创建一个actor表,包含如下列信息

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 创建一个acto…

CentOS 安装 annie/lux,以及 annie/lux 的使用

annie 介绍 如果第一次听到 annie 想必都会觉得陌生,annie 被大家称为视频下载神器,annie 作者介绍说可以下载抖音、哔哩哔哩、优酷、爱奇艺、芒果TV、YouTube、Tumblr、Vimeo 等平台的视频。 githup:https://github.com/pingf/annie 支持…

『C++成长记』string模拟实现

🔥博客主页:小王又困了 📚系列专栏:C 🌟人之为学,不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ ​ 目录 一、存储结构 二、默认成员函数 📒2.1构造函数 📒2.…

认证资讯|Bluetooth SIG认证

在当今高度互联的世界中,无线技术的普及已经成为我们生活和工作中不可或缺的一部分。作为领先的无线通信技术之一,Bluetooth技术以其稳定性、便捷性和广泛的应用场景而备受青睐。然而,要想在激烈的市场竞争中脱颖而出,获得Bluetoo…

景联文科技打造高质量图文推理问答数据集,赋能大语言模型提升推理能力

大语言模型在处理推理任务时,不同于人类能够反思错误并修正思维路径,当它遇到自身知识盲区时,缺乏自我校正机制,往往导致输出结果不仅无法改善,反而可能变得更不准确。 需要依赖外部的知识库和推理能力来克服其在理解和…

Java锁升级:无锁 → 偏向锁 → 轻量级锁 → 重量级锁

说明 JDK1.6为了减少获得锁和释放锁所带来的性能消耗,引入了“偏向锁”和“轻量级锁”,所以在JDK1.6里锁一共有四种状态,无锁状态,偏向锁状态,轻量级锁状态和重量级锁状态,它会随着竞争情况逐渐升级。锁可以…

Postgresql - 用户权限数据库

1、综述 在实际的软件项目开发过程中,用户权限控制可以说是所有运营系统中必不可少的一个重点功能,根据业务的复杂度,设计的时候可深可浅,但无论怎么变化,设计的思路基本都是围绕着用户、部门、角色、菜单这几个部分展…

通过SimU-Net进行同时深度学习体素分类的纵向CECT扫描肝病灶变化分析| 文献速递-深度学习自动化疾病检查

Title 题目 Liver lesion changes analysis in longitudinal CECT scans by simultaneous deep learning voxel classification with SimU-Net 通过SimU-Net进行同时深度学习体素分类的纵向CECT扫描肝病灶变化分析 01 文献速递介绍 影像学随访是对影像学研究的解读&#x…

【c++】C++ IO流

本专栏内容为:C学习专栏,分为初阶和进阶两部分。 通过本专栏的深入学习,你可以了解并掌握C。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:C 🚚代码仓库:小小unicorn的代码仓库&…

深圳唯创知音革新健康监测!语音播报,蓝牙传输,电量检测—全能型智能血压计三大方案,让关爱更“声”动人心

01:背景概述 在快节奏的现代生活中,高血压已成为一种常见的健康问题,高血压不仅仅存在于老年人群中,这种慢性健康问题也慢慢往青中年人群蔓延,它被称为“沉默的杀手”,因为很多时候患者并没有明显的症状。…

Mysql系列-Binlog主从同步

原文链接:https://zhuanlan.zhihu.com/p/669450627 一、主从同步概述 mysql主从同步,即MySQL Replication,可以实现将数据从一台数据库服务器同步到多台数据库服务器。MySQL数据库自带主 从同步功能,经过配置,可以实现基于库、表…

SpringBoot开发实用篇(二)

目录 一:Redis 1:SpringBoot整合Redis 2:SpringBoot读写Redis的客户端 3:SpringBoot操作Redis实现技术切换(jedis) 二:Mongodb 1:Mongodb基础操作 2:SpringBoot整合…

ELFK 8.12.2 部署 -- docker部署方式⚽

👨‍🎓博主简介 🏅CSDN博客专家   🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入&#xff01…

frp内网映射初体验

frp内网映射工具配置 1、配置穿透映射工具服务器信息2、服务器配置3、客户端配置4、配置完毕后 1、配置穿透映射工具服务器信息 1.1、frp版本是 frp_0.57.0 配置文件中文说明文档:https://gofrp.org/zh-cn/docs/ 参考优秀文章:https://blog.hoshiroko.c…

数据库之DML

1,创建表 mysql> create table student(-> id int primary key,-> name varchar(20) not null,-> grade float-> );插入记录 mysql> insert into student values(1,monkey,98.5); Query OK, 1 row affected (0.01 sec)一次性插入多条记录 mysql…

车灯出现破损破损破裂断角掉角断边等等车灯问题如何修复?用泰达克TADHE车灯无痕修复液来解决。车灯合面合壳密封用泰达克TADHE车灯密封UV胶。

小车车灯无痕修复用的胶是什么? 可以使用在小车车灯无痕修复中的胶水,通常使用的车灯无痕修复专用UV胶。 车灯无痕修复专用胶主要成份是改性丙烯酸UV树脂,主要应用在车灯的专业无痕修复领域。它可以用于修复车灯壳的裂缝或破损,使…

十大护眼落地灯品牌排行榜:2024十大王炸护眼大路灯分享

十大护眼落地灯品牌排行榜有哪些?护眼落地灯作为一款有效的照明神器,广受消费者们的喜爱。然而,市场上护眼落地灯品牌众多,品质参差不齐,一些护眼落地灯在光线舒适度方面的表现并不理想,甚至可能光线不稳定…

SpringBoot后端验证码-防止密码爆破功能

一、简介 为了防止网站的用户被通过密码典爆破。引入验证码的功能是十分有必要的。而前端的验证码又仅仅是只防君子不防小人。通过burpsuit等工具很容易就会被绕过。所以后端实现的验证码才是对用户信息安全的一大重要保障。 实现思路: 1.引入图形生成的依赖 2.生成…

VPN 的入门介绍

VPN(虚拟专用网络) 简介 虚拟专用网络,简称虚拟专网(VPN),其主要功能是在公用网络上建立专用网络,进行加密通讯。在企业网络中有广泛应用。VPN网关通过对数据包的加密和数据包目标地址的转换实…