前言
IK分词器插件是为Elasticsearch设计的中文分词插件,由Elasticsearch的官方团队之外的开发者medcl开发。它主要针对中文文本的分词需求,提供了较为准确的中文分词能力。以下是IK分词器插件的一些特点:
-
智能分词:IK分词器采用基于词典加双向最大匹配算法的分词策略,能够较为智能地处理中文文本。
-
支持自定义词典:用户可以根据自己的需求,向IK分词器中添加自定义词典,以此来提高分词的准确性。
-
多种分词模式:
- ik_max_word:会将文本做最细粒度的拆分,例如“中华人民共和国国歌”会被拆分为“中华人民共和国, 国歌”。
- ik_smart:会进行智能分词,自动优化文本,例如“杭州市长江大桥”会被拆分为“杭州市, 长江大桥”。
-
繁体分词:IK分词器支持对繁体中文的分词。
-
英文识别:在分词时,IK分词器能够识别并保留英文单词。
-
数字识别:能够识别数字,并将它们作为整体进行分词。
-
POJIE支持:IK分词器插件还支持POJIE(破解)模式,可以用于处理未授权的Elasticsearch实例。
-
易于集成:作为一个插件,IK分词器可以很容易地集成到现有的Elasticsearch项目中。
-
社区活跃:IK分词器由活跃的开源社区维护,不断更新和改进,以适应不断变化的中文分词需求。
安装IK分词器插件后,用户可以在Elasticsearch的索引设置中指定使用IK分词器,从而在索引和搜索中文文本时获得更好的效果。这对于中文搜索引擎、日志分析、数据处理等场景非常有用。
请注意,IK分词器插件的使用需要遵守相应的开源许可协议,且在使用前应确保其与你的Elasticsearch版本兼容。
IK分词插件的安装
1、下载资源包
##下载
https://github.com/infinilabs/analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip
2、上传到node01
节点,并解压到es
的插件目录中
##linux的目录地址
/opt/module/ElasticSearch/elasticsearch-7.6.2/plugins/ik
3、重启es
使分词器生效
4、登录kibana
,执行下面命令验证
# 智能分词
GET /_analyze
{
"text": "中华人民共和国国歌",
"analyzer": "ik_smart"
}
# 最细粒度分词
GET /_analyze
{
"text": "中华人民共和国国歌",
"analyzer": "ik_max_word"
}
智能分词
最细粒度的分词