【Elasticsearch】标准化器（Normalizers）

Elasticsearch 的标准化器（Normalizers）是一种特殊的分析器，用于对`keyword`类型字段的文本进行统一的格式化处理。与普通分析器不同，标准化器只能产生单个标记（token），因此它不包含分词器（tokenizer），并且只能使用基于单个字符的过滤器。

标准化器的主要特点

1. 单标记输出：标准化器只能输出一个标记，因此它适用于对整个字段进行统一处理，而不是将字段拆分为多个标记。

2. 字符过滤器和标记过滤器：标准化器可以使用字符过滤器（`char_filter`）和标记过滤器（`filter`），但只能使用基于单个字符的过滤器，例如`lowercase`（小写化）、`asciifolding`（将非 ASCII 字符转换为 ASCII 字符）。

3. 应用场景：标准化器通常用于需要在索引和查询时对字段进行统一格式化的场景，例如去除特殊字符、统一大小写等。

内置标准化器

Elasticsearch 自带了一个名为`lowercase`的内置标准化器，它会将所有字符转换为小写。

自定义标准化器

可以通过在索引的分析设置中定义自定义标准化器。以下是一个自定义标准化器的示例配置：

```json

PUT index

{

"settings": {

"analysis": {

"normalizer": {

"my_normalizer": {

"type": "custom",

"char_filter": [],

"filter": ["lowercase", "asciifolding"]

}

"mappings": {

"properties": {

"foo": {

"type": "keyword",

"normalizer": "my_normalizer"

}

```

在这个例子中：

• 定义了一个名为`my_normalizer`的自定义标准化器，它使用了`lowercase`和`asciifolding`过滤器。

• 将字段`foo`的类型设置为`keyword`，并指定使用`my_normalizer`进行标准化。

标准化器的应用场景

1. 统一大小写：在搜索时，用户可能输入大写或小写的文本，使用`lowercase`过滤器可以确保索引和查询时的文本大小写一致。

2. 去除特殊字符：通过`asciifolding`过滤器，可以将非 ASCII 字符转换为 ASCII 字符，例如将`é`转换为`e`。

3. 文本格式化：在某些场景下，需要对字段进行统一的格式化处理，例如去除多余的空格或特殊符号。

示例

假设我们有一个字段`foo`，需要在索引和查询时将其内容统一转换为小写并去除特殊字符。我们可以定义一个自定义标准化器`my_normalizer`，并将其应用于`foo`字段。

```json

PUT index

{

"settings": {

"analysis": {

"normalizer": {

"my_normalizer": {

"type": "custom",

"char_filter": [],

"filter": ["lowercase", "asciifolding"]

}

"mappings": {

"properties": {

"foo": {

"type": "keyword",

"normalizer": "my_normalizer"

}

```

在索引文档时：

```json

PUT index/_doc/1

{

"foo": "BÀR"

}

```

在查询时：

```json

GET index/_search

{

"query": {

"term": {

"foo": "BAR"

}

```

由于`foo`字段使用了`my_normalizer`，在索引和查询时都会将文本转换为小写并去除特殊字符，因此查询`"BAR"`时可以匹配到索引的`"BÀR"`。

通过合理使用标准化器，可以有效提高搜索的准确性和灵活性，同时减少因文本格式差异导致的搜索问题。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/969360.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

【Elasticsearch】标准化器（Normalizers）

相关文章

建筑兔零基础自学python记录18|实战人脸识别项目——视频检测07

5g基站测试要求和关键点

【Git版本控制器】：第一弹——Git初识，Git安装,创建本地仓库，初始化本地仓库，配置config用户名，邮箱信息

20250213 隨筆雪花算法

22.4、Web应用漏洞分析与防护

【Vue3 入门到实战】15. 组件间通信

云原生AI Agent应用安全防护方案最佳实践（上）

本地部署DeepSeek摆脱服务器繁忙

【EXCEL】【VBA】处理GI Log获得Surf格式的CONTOUR DATA

Postman如何流畅使用DeepSeek

部署 DeepSeek R1各个版本所需硬件配置清单

[免费]Springboot+Vue医疗(医院)挂号管理系统【论文+源码+SQL脚本】

Linux初始化配置yum源

ds-download-link 插件：以独特图标选择，打造文章下载链接

好好说话：深度学习扫盲

node.js+兰空图床实现随机图

【个人开发】deepseed+Llama-factory 本地数据多卡Lora微调

灵活运用yaml格式配置你的python项目

DeepSeek 指导手册（入门到精通）

Tcp_socket