ES-分词器安装与使用详解

安装分词器

windows环境,分词器有2种安装方式,1.直接命令安装;2.压缩包安装

IK分词器

查看ik分词器文档,找到安装方式介绍

文档链接:

方式1

elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/7.10.0

方式2

下载压缩包,然后解压放入到 es的plugins目录

找到es对应的版本,然后下载

验证是否安装成功

elasticsearch-plugin list

测试分词器

需要先重启ES

POST /_analyze   
{
  "analyzer": "ik_max_word",
  "text": "中华人民"   
}   

 结果

{
  "tokens" : [
    {
      "token" : "中华人民",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "中华",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "华人",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 3
    }
  ]
}

分词器的组成

分词器(Analyzer)是用于将文本拆分为词项(Token)的工具。分词器由以下三个部分组成:

  • 字符过滤器(Character Filters):对原始文本进行预处理(如去除 HTML 标签、替换字符等)。
  • 分词器(Tokenizer):将文本拆分为词项。
  • 词项过滤器(Token Filters):对分词后的词项进行处理(如小写转换、去除停用词等)

分词器种类

分词器特点适用场景优点缺点示例
Standard Analyzer默认分词器,基于 Unicode 文本分割算法,按空格和标点符号分词,转换为小写英文或其他基于空格分隔的语言简单易用,无需额外配置。不支持中文分词,对特殊字符敏感。"Hello, world!" → ["hello", "world"]
english Analyzer转换成小写,词干提取、停用词过滤"Barking a games"->["bark","game"]
Simple Analyzer按非字母字符分词,转换为小写。简单的英文分词轻量级,适合简单场景。无法处理复杂文本,不支持中文。"Hello, world!" → ["hello", "world"]
Whitespace Analyzer按空格分词,不转换大小写。需要保留大小写的场景保留原始大小写,适合特定需求。无法处理标点符号,不支持中文。"Hello, world!" → ["Hello,", "world!"]
Keyword Analyzer将整个文本作为一个词项,不进行分词。需要精确匹配的场景(如 ID、标签)保留完整文本,适合精确匹配。不适合全文搜索。"Hello, world!" → ["Hello, world!"]
Pattern Analyzer基于正则表达式分词,默认按非字母字符分词,转换为小写。需要自定义分词规则的场景灵活,支持自定义正则表达式。配置复杂,性能较低。"Hello, world!" → ["hello", "world"]
Language Analyzer针对特定语言(如英语、法语、德语)优化分词。多语言支持针对特定语言优化,分词效果较好。需要指定语言,不支持中文。"Hello, world!" → ["hello", "world"]
IK Analyzer支持中文分词,提供 ik_smart(智能分词)和 ik_max_word(最大分词)两种模式。中文文本处理中文分词效果好,支持自定义词典。需要额外安装插件,重启 Elasticsearch。"你好世界" → ["你好", "世界"]ik_smart)或 ["你好", "世界", "你好世界"]ik_max_word
Jieba Analyzer支持中文分词,提供 search(搜索模式)和 index(索引模式)两种模式。中文文本处理中文分词效果好,支持自定义词典。需要额外安装插件,重启 Elasticsearch。"你好世界" → ["你好", "世界"]search)或 ["你好", "世界", "你好世界"]index
Nori Analyzer针对韩语优化的分词器。韩语文本处理韩语分词效果好,支持自定义词典。需要额外安装插件,重启 Elasticsearch。"안녕하세요" → ["안녕", "하세요"]
Kuromoji Analyzer针对日语优化的分词器。日语文本处理日语分词效果好,支持自定义词典。需要额外安装插件,重启 Elasticsearch。"こんにちは" → ["こんにちは"]
Stempel Analyzer针对波兰语优化的分词器。波兰语文本处理波兰语分词效果好,支持自定义词典。需要额外安装插件,重启 Elasticsearch。"Witaj świecie" → ["witaj", "świecie"]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/984112.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FY-3D MWRI亮温绘制

1、FY-3D MWRI介绍 风云三号气象卫星(FY-3)是我国自行研制的第二代极轨气象卫星,其有效载荷覆 盖了紫外、可见光、红外、微波等频段,其目标是实现全球全天候、多光谱、三维定量 探测,为中期数值天气预报提供卫星观测数…

P8686 [蓝桥杯 2019 省 A] 修改数组--并查集 or Set--lower_bound()的解法!!!

P8686 [蓝桥杯 2019 省 A] 修改数组--并查集 题目 并查集解析代码【并查集解】 Set 解法解析lower_bound代码 题目 并查集解析 首先先让所有的f(i)i,即每个人最开始的祖先都是自己,然后就每一次都让轮到那个数的父亲1&#xff08…

docker启动jenkins,jenkins中调用docker

在jenkins中执行docker 思路 jenkins中安装docker客户端,使用第三方的docker(需要付费)。jenkins中安装docker客户端,另一个容器中安装docker服务, docker-in-docker,需要特权模式,或者第三方的工具。jenkins中什么都…

【GPT入门】第9课 思维树概念与原理

【GPT入门】第9课 思维树概念与原理 1.思维树概念与原理2. 算24游戏的方法 1.思维树概念与原理 思维树(Tree of Thought,ToT )是一种大模型推理框架,旨在解决更加复杂的多步骤推理任务,让大模型能够探索多种可能的解决…

时态--02--⼀般将来时

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 ⼀般将来时1.肯定句结构:主am/is/aregoing to do(v.原型) 2.否定句结构:主am/is/arenotgoing to do(v.原型) 3.一般疑问句结构:Am/Is/Are(提句⾸)主going to do (v.…

模型压缩技术(二),模型量化让模型“轻装上阵”

一、技术应用背景 在人工智能蓬勃发展的浪潮下,大模型在自然语言处理、计算机视觉等诸多领域大放异彩,像知名的GPT以及各类开源大语言模型,其规模与复杂度持续攀升。然而,这一发展也带来了挑战,模型越大,对…

swift-5-汇编分析闭包本质

一、枚举、结构体、类都定义方法 方法占用对象的内存么? 不占用 方法的本质就是函数 方法、函数都存放在代码段,因为方法都是公共的,不管 对象一还是对对象二调用都是一样的,所以放在代码段,但是每个对象的成员不一样所…

通义千问本地配置并实现微调

通义千问本地配置并实现微调 最小Qwen模型大小942mb from modelscope import snapshot_download model_dir = snapshot_download(“qwen/Qwen2.5-0.5B”, cache_dir=“./models2.5”) Qwen2.5-0.5B:942MB from modelscope import snapshot_download model_dir = snapshot_d…

< 自用文儿 > CertBot 申请 SSL 证书 使用 challenge 模式 避开防火墙的阻挡

环境: 腾讯 VPS 腾讯会向你销售 SSL , 这个本是免费的。CertBot 默认申请证书要用到 80 端口,会蹭边什么什么条款,备案法律来阻止80端口的通讯,没有网站也一样被阻拦。 通过腾讯买的域名: bestherbs.cn …

<建模软件安装教程1>Blender4.2系列

Blender4.2安装教程 0注意:Windows环境下安装 第一步,百度网盘提取安装包。百度网盘链接:通过网盘分享的文件:blender.zip 链接: https://pan.baidu.com/s/1OG0jMMtN0qWDSQ6z_rE-9w 提取码: 0309 --来自百度网盘超级会员v3的分…

SpringBoot统一响应类型3.1.1版本

前言: 通过实践而发现真理,又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识,又从理性认识而能动地指导革命实践,改造主观世界和客观世界。实践、认识、再实践、再认识,这种形式,循环往…

如是APP:AI精准匹配需求,信用体系重构信任,双轮驱动打造无套路电商

如是APP:AI精准匹配需求,信用体系重构信任,双轮驱动打造无套路电商 2024年3月,一款结合AI导购与信用体系的电商平台——如是APP即将上线。如是APP通过AI对话帮助用户精准快速购物,并通过全维度信用体系实现产品信息透明化,旨在打造一个“信息对称”的电商平台,实现“无套路”的…

[SAP MM] 查看物料主数据的物料类型

创建物料主数据时,必须为物料分配物料类型,如原材料或半成品 在标准系统中,物料类型ROH(原材料)的所有物料都要从外部采购,而类型为NLAG(非库存物料)的物料则可从外部采购也可在内部生产 ① 特殊物料类型:NLAG 该物料…

Linux中部署DeepSeek,WSL(ubunt)中使用ollama部署deepseek-R1-7b

想在自己的Win11电脑上部署Linux的DeepSeek模型,但在网上一直没有找到合适的相应教程,自己查询各种网上资源,以及询问一些AI大模型后成功安装,并整理了以下步骤。仅作为个人学习笔记使用,由于本人对各方面知识掌握不足…

NoteGen是一款开源跨平台的 AI 笔记应用,专注于 recording 和 writing ,基于 Tauri 开发

一、软件介绍 文末提供程序和源码下载 NoteGen 是一款专注于记录和写作的跨平台 AI 笔记应用,基于 Tauri 开发。NoteGen 的核心理念是将记录、写作和 AI 结合使用,三者相辅相成。记录功能可以帮助用户快速捕捉和整理碎片化知识。整理功能是连接记录和写…

C++性能分析工具

C性能分析工具常用的三种。perf、gprof、pprof perf工具需要root权限,设置perf的suid位并不行,需要设置perf对应的内核参数。 perf使用: g -o example example.cpp -O2 # 运行程序并采样 sudo perf record -g ./example # 查看采样结果 sud…

【编译器】VSCODE搭建ESP32-C3

【编译器】VSCODE搭建ESP32-C3 文章目录 [TOC](文章目录) 前言一、下载配置二、编译三、烧录四、参考资料总结 前言 使用工具: 1. 提示:以下是本篇文章正文内容,下面案例可供参考 一、下载配置 安装IDF,打开例程 二、编译 三…

《云原生监控体系构建实录:从Prometheus到Grafana的观测革命》

PrometheusGrafana部署配置 Prometheus安装 下载Prometheus服务端 Download | PrometheusAn open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.https://prometheus.io/…

LLM大模型-李宏毅

本博客是对b站上,李宏毅大模型课程的简单记录。 大模型入门到进阶,一套全解决! 第1讲:生成式AI是什么? ChatGPT【Chat Generative Pre-trained Transformer】每一步都是文字接龙,其实就是分类问题 文字接…

Codeforces Round 976 (Div. 2) (部分题解)

先做一个提前的小结,感觉这场每题有很特别的结论或者很难去guess的点,但就是能对,可能在证明上有点复杂吧。 A. Find Minimum Operations 思路:题意的话就是用来代替的最小操作步骤, 这里其实可以转换成求将改写成进…