4 IK分词器

article2024/11/24 20:07:52/文章来源:https://blog.csdn.net/qq_29216579/article/details/130592641

4 IK分词器

4.1测试分词器

在添加文档时会进行分词，索引中存放的就是一个一个的词（term），当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。

测试当前索引库使用的分词器：

post 发送：localhost:9200/_analyze

{“text”:“测试分词器，后边是测试内容：spring cloud实战”}

结果如下：

会发现分词的效果将 “测试” 这个词拆分成两个单字“测”和“试”，这是因为当前索引库使用的分词器对中文就是单字

分词。所以搜索测试两字是搜不到的

4.2 安装IK分词器

使用IK分词器可以实现对中文分词的效果。

下载IK分词器：（Github地址：https://github.com/medcl/elasticsearch-analysis-ik）

下载zip：

解压，并将解压的文件拷贝到ES安装目录的plugins下的ik目录下

测试分词效果：

发送：post localhost:9200/_analyze

{“text”:“测试分词器，后边是测试内容：spring cloud实战”,“analyzer”:“ik_max_word” }

4.3 两种分词模式

ik分词器有两种分词模式：ik_max_word和ik_smart模式。

1、细颗粒分词器：ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、

华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。

2、粗颗粒分词器：ik_smart

会做最粗粒度的拆分，比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

测试两种分词模式：

发送：post localhost:9200/_analyze

{“text”:“中华人民共和国人民大会堂”,“analyzer”:“ik_smart” }

4.4 自定义词库

如果要让分词器支持一些专有词语（比如：测试分词器），可以自定义词库。

没有自定义词汇前搜索在词汇表中没有的专有词语（如测试分词器），会搜索不到：搜索结果：

iK分词器自带一个main.dic的文件，此文件为词库文件。

自定义词库步骤：

1、在上边的目录中新建一个my.dic文件（注意文件格式为utf-8（不要选择utf-8 BOM）），可以在其中自定义词汇：如测试分词器

在IKAnalyzer.cfg.xml配置文件中配置my.dic，

重启ES，测试分词效果：

发送：post localhost:9200/_analyze

{“text”:“测试分词器，后边是测试内容：spring cloud实战”,“analyzer”:“ik_max_word” }

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/18710.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【分布式理论】聊一下 ACID、BASE、CAP、FLP

【分布式理论】聊一下 ACID、BASE、CAP、FLP

分布式理论基础今天我们来聊一下分布式相关基础理论基础，上一篇文章中，我描述了一下分布式系统的纲，但是想要入手学习分布式系统设计，其实需要先从基本理论开始。而知名的ACID、BASE、CAP、FLP都是相关的理论基础。 ACID ACID…

阅读更多...

六、FM1288调试方案-调试过程及细节

六、FM1288调试方案-调试过程及细节

本篇文章，主要讲述实际调试操作：具体到需要调节哪些寄存器，调节完后，会有什么样的变化。但是整体效果不能达到我们期望的绝对感觉，所以我先把我们调试的结果放在前面，如果觉得不理想，也可以不看后面的内容了。文章目录 1. 调试准备1.1 建立与FM1288芯片通信1.2 Uart结…

阅读更多...

什么是多相流？在熟悉工业中常见的两相及多相流的分类及特点

什么是多相流？在熟悉工业中常见的两相及多相流的分类及特点

文章目录一、多相流的概览1.相的概念二、多相流的引入单相流与多相流： 三、多相流及特性介绍四、常见的多相流的分类及特点1、常见的两相及多相流3、两相流动力学的发展简史4、两相流的研究方法和理论模型一、多相流的概览 1.相的概念物理学: 自然界中物质的态…

阅读更多...

基于simulink使用麦克风阵列的声波束成形

基于simulink使用麦克风阵列的声波束成形

一、前言此示例演示如何对麦克风阵列接收到的信号进行波束化，以在嘈杂环境中提取所需的语音信号。二、模型的结构该模型模拟在 10 元件均匀线性麦克风阵列 （ULA） 上接收来自不同方向的三个音频信号。在接收器处添加热噪声后，应…

阅读更多...

智慧厕所引导系统的应用

智慧厕所引导系统的应用

智慧公厕引导系统是一种基于智能化技术的公厕管理系统，可以为如厕者提供更加便捷、舒适、安全的如厕环境和服务，同时也可以引导如厕者文明如厕，营造文明公厕的氛围。智慧公厕引导系统可以通过智能引导屏、手机小程序等方式，为如厕…

阅读更多...

【存储数据恢复】NetApp存储WAFL文件系统数据恢复案例

【存储数据恢复】NetApp存储WAFL文件系统数据恢复案例

存储数据恢复环境： NetApp存储设备，WAFL文件系统，底层是由多块硬盘组建的raid磁盘阵列。存储故障： 工作人员误操作导致NetApp存储内部分重要数据被删除。存储数据恢复过程： 1、将存储设备的所有磁盘编号后取出&…

阅读更多...

Linux上Nacos基本使用：连接MySQL并修改密码、启动、停止命令等

Linux上Nacos基本使用：连接MySQL并修改密码、启动、停止命令等

Nacos如何连接MySQL并修改密码说明如何将内嵌数据库Derby切换为MySQL数据库直接新建MySQL数据库: 必须是MySQL5.7及以上如何修改密码启动、停止命令说明 nacos默认： 使用内嵌的数据库（Derby）默认登录地址 ip:8848/nacos; 账号&#xff1…

阅读更多...

React 组件

React 组件

文章目录 React 组件复合组件 React 组件本节将讨论如何使用组件使得我们的应用更容易来管理。接下来我们封装一个输出 “Hello World！” 的组件，组件名为 HelloMessage： React 实例 <!DOCTYPE html> <html> <head> &…

阅读更多...

JVM系列-第7章-对象的实例化内存布局与访问定位

JVM系列-第7章-对象的实例化内存布局与访问定位

对象的实例化内存布局与访问定位对象的实例化大厂面试题美团： 对象在JVM中是怎么存储的？对象头信息里面有哪些东西？ 蚂蚁金服： 二面：java对象头里有什么对象创建的方式 new：最常见的方式、单例…

阅读更多...

系统分析师之系统设计（十五）

系统分析师之系统设计（十五）

目录一、软件流程设计 1.1 业务流程分析方法 1.2 业务流程建模 1.2.1 标杆瞄准 1.2.2 IDEF 1.2.3 DEMO 1.2.4 流程建模语言 1.2.5 基于服务的BPM 1.2.6 业务流程重组BPR 1.2.7 业务流程管理BPM 二、软件架构设计 2.1 概念 2.2 软件架构风格三、结构化设计四…

阅读更多...

为什么停更ROS2机器人课程-2023-

为什么停更ROS2机器人课程-2023-

机器人工匠阿杰肺腑之言： 我放弃了ROS2课程真正的危机不是同行竞争，比如教育从业者相互竞争不会催生ChatGPT…… 技术变革的突破式发展通常是新势力带来的而非传统行业的升级改革。 2013年也就是10年前在当时主流视频网站开启分享： 比如 …

阅读更多...

Vulfocus-struts2初了解

Vulfocus-struts2初了解

CVE-2013-2135 漏洞原理： 配置了通配符*，访问name.action时使用name.jsp来渲染页面，但是在提取name解析时，对其执行了OGNL表达式解析，所以导致了命令执行。如果一个请求与任何其他定义的操作不匹配，它将匹…

阅读更多...

AMB300系列母线槽红外测温解决方案某锂电厂房项目案例分享

AMB300系列母线槽红外测温解决方案某锂电厂房项目案例分享

安科瑞耿敏花一、行业背景近年来，在国家政策引导与技术革新驱动的双重作用下，锂电产业保持快速增长态势，产业规模持续扩大，同时新能源产业工厂锂电池生产线对于电的依赖性很高，因而对供电设备的可靠性提出…

阅读更多...

stable diffusion模型讲解

stable diffusion模型讲解

AI模型最新展现出的图像生成能力远远超出人们的预期，直接根据文字描述就能创造出具有惊人视觉效果的图像，其背后的运行机制显得十分神秘与神奇，但确实影响了人类创造艺术的方式。 AI模型最新展现出的图像生成能力远远超出人们的预期&#xf…

阅读更多...

JAVA代码规范审查

JAVA代码规范审查

JAVA代码规范审查 1. 添加必要的注释所有的类都必须添加创建者和创建日期，以及简单的注释描述方法内部的复杂业务逻辑或者算法，需要添加清楚的注释一般情况下，注释描述类、方法、变量的作用任何需要提醒的警告或TODO，也要注…

阅读更多...

从 0~1 创建 Vue2 项目

从 0~1 创建 Vue2 项目

前言从0开始搭建Vue2项目；介绍项目目录结构；为了项目方便需要添加的配置。创建 Vue2 项目共有两种方式： 手动选择；选择默认模式。给孩子点点关注吧！😭 一、环境准备 1.1 安装包管理工具 1.1.1 安装 …

阅读更多...

CentOS7安装MySQL

CentOS7安装MySQL

CentOS默认安装有MariaDB，这是MySQL的分支。但还是要在系统中安装MySQL，且安装完成后可直接覆盖MariaDB。 1、下载并安装MySQL官方 Yum Repository wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 使用上面命令就…

阅读更多...

VS Code 常用插件推荐

VS Code 常用插件推荐

VS Code 常用插件推荐 1. Chinese (Simplified) (简体中文) Language Pack for Visual Studio Code 适用于 VS Code 的中文（简体）语言包 2. Auto Rename Tag 自动关闭标签，写 html 标签的时候可以重命名标签名。现在 vscode 已经内置了&…

阅读更多...

分享2个教学视频录制的方法！

案例：如何录制教学视频？ 【我是一名老师，我想录制一些教学视频发布在网络平台上，但是我不知道如何操作。有没有人知道录制教学视频需要什么工具？如何录制？】随着在线教育的普及，越来越多的教…

阅读更多...

三位一体，铸就无敌铁军！海陆空协同，开启集群新篇章！

三位一体，铸就无敌铁军！海陆空协同，开启集群新篇章！

在机器人领域，多机器人系统的研究一直是一大热点，众多高校与研究所逐步投入到机器人集群系统的研究当中，其中无人机编队表演、无人车群园区运输、无人船集群水域监测等集群应用更是进入了大众的视野。但对多机器人集群系统的需求却远不止于此…

阅读更多...

最新文章