详解SpringCloud微服务技术栈:深入ElasticSearch(2)——自动补全、拼音搜索

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习
🌌上期文章:详解SpringCloud微服务技术栈:深入ElasticSearch(1)——数据聚合
📚订阅专栏:微服务技术全家桶
希望文章对你们有所帮助

自动补全的功能其实在很多平台都有,包括了对拼音内容进行补全,例如输入“sj”可能会弹出“手机”。
实现这种功能需要安装拼音分词器,同时我们需要对其进行自定义,然后开始在之前的旅游类项目中增加搜索框自动补全的功能。
同样的,先把DSL语句掌握,再根据DSL语句去写java代码,去做实战,就会很容易。

深入ElasticSearch(2)——自动补全

  • 安装拼音分词器
  • 自定义分词器
  • DSL实现自动补全查询
  • 修改酒店索引库数据结构
  • restAPI实现自动补全查询
  • 实现搜索框自动补全

安装拼音分词器

安装方式和之前安装IK分词器是一样的,解压完上传到虚拟机中elasticsearch的plugin目录,再重启elasticsearch。
拼音分词器的压缩包可以从百度网盘中下载:

链接:https://pan.baidu.com/s/1qEwp3StkW7IJuhow-yAunA?pwd=fc9r
提取码:fc9r

在这里插入图片描述
终端输入docker restart es即可。

在dev tools中测试一下:

POST /_analyze
{
  "text": ["如家酒店还不错"],
  "analyzer": "pinyin"
}

在这里插入图片描述

自定义分词器

现在的拼音分词器还没有办法应用到生产环境中,上图中拼音分词器中分出了“rjjdhbc”这样的结果,同时它们还对全部单独的字进行了拼音,说明它根本不会分词。
还有一个问题,这里的分词器分出了拼音,这在真实应用场景下是锦上添花,但是偏偏没有了汉字,这显然是不行的。

elasticsearch中分词器的组成包含三部分:

character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符
tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword、ik_smart
tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

在这里插入图片描述
所以,既然拼音分词器本身不会分词,那就先把文本交给ik分词器,分词后再转换为拼音。
要想自定义分词器,可以在创建索引库时,通过setting来配置自定义的analyzer(分词器):

PUT /test
{
	"settings": {
		"analysis": {
			"analyzer": { # 自定义分词器
				"tokenizer": "ik_max_word",
				"filter": "pinyin"
			}
		}
	}
}

虽然分好词了,但是拼音分词器对每个词,还是分成一个字一个字的来设置拼音,因此需要做进一步处理,即对拼音分词器进行自定义,不再使用默认的"pinyin":

PUT /test
{
	"settings": {
		"analysis": {
			"analyzer": {
			  "my_analyzer": {
			    "tokenizer": "ik_max_word",
				"filter": "py"
			  }
			},
			"filter": { # 自定义tokenizer filter
				"py": { # 过滤器名称
					"type": "pinyin", # 类型是拼音分词器
					"keep_full_pinyin": false, # 不再分为单个字
					"keep_joined_full_pinyin": true, # 开启全拼
					"keep_original": true # 保留中文
					"limit_first_letter_length": 16,
					"remove_duplicated_term": true,
					"none_chinese_pinyin_tokenize": false
				}
			}
		}
	}
}

最终语句如下:
在这里插入图片描述
现在就可以进行测试,用自定义的分词器my_analyzer来做分词,注意需要指定索引库为/test,因为这个自定义分词器是在/test索引库下创建的,也只能在这里使用:

POST /test/_analyze
{
  "text": ["如家酒店还不错"],
  "analyzer": "my_analyzer"
}

但还是有一定的问题的,比如搜索狮子,结果中会包含虱子,也就是说把同音字都给搜进去了。
实际上,创建倒排索引时:
在这里插入图片描述
这时候再搜索的时候,就会因为拼音分词器的存在,shizi的词条对应了1和2的文档编号,就会产生混乱。

也就是说,拼音分词器适合在创建倒排索引的时候使用,但不能在搜索的时候使用。

因此,字段在创建倒排索引时应该用my_analyzer分词器,在搜索时应该用ik_smart分词器:

"mappings": {
	"properties": {
		"name": {
			"type": "text",
			"analyzer": "my_analyzer",
			"search_analyzer": "ik_smart"
		}
	}
}

在这里插入图片描述
总结:创建索引时用拼音分词器,搜索时用IK分词器。

DSL实现自动补全查询

elasticsearch提供了Completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。为了提高补全查询的效率,对于文档中字段的类型有一些约束:

参与补全查询的字段必须是completion类型。
字段的内容一般是用来补全的多个词条形成的数组。

在这里插入图片描述
这样做,输入S会弹出Sony,输入W会弹出WH…,把整个成语拆开显然更为人性化。

查询语法如下:

GET /test/_search
{
	"suggest": { # 自动补全
		"title_suggest": { # 自动补全这个操作的名称
			"text": "s", # 查询的前缀
			"completion": { # 自动补全的类型,使用完全补全
				"field": "title",
				"skip_duplicates": true, # 跳过重复的
				"size": 10
			}
		}
	}
}

修改酒店索引库数据结构

接下来要实现hotel索引库的自动补全、拼音搜索功能。需要先将酒店的索引库数据结构修改,实现步骤:
1、修改hotel索引库结构,设置自定义拼音分词器
2、修改索引库的name、all字段,使用自定义分词器
3、索引库添加一个新字段suggestion,类型为completion,使用自定义的分词器

记得先删掉之前的hotel索引库,再创建实现上面3步:

PUT /hotel
{
  "settings": {
    "analysis": {
      "analyzer": {
        "text_anlyzer": {
          "tokenizer": "ik_max_word",
          "filter": "py"
        },
        "completion_analyzer": {
          "tokenizer": "keyword",
          "filter": "py"
        }
      },
      "filter": {
        "py": {
          "type": "pinyin",
          "keep_full_pinyin": false,
          "keep_joined_full_pinyin": true,
          "keep_original": true,
          "limit_first_letter_length": 16,
          "remove_duplicated_term": true,
          "none_chinese_pinyin_tokenize": false
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "id":{
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "text_anlyzer",
        "search_analyzer": "ik_smart",
        "copy_to": "all"
      },
      "address":{
        "type": "keyword",
        "index": false
      },
      "price":{
        "type": "integer"
      },
      "score":{
        "type": "integer"
      },
      "brand":{
        "type": "keyword",
        "copy_to": "all"
      },
      "city":{
        "type": "keyword"
      },
      "starName":{
        "type": "keyword"
      },
      "business":{
        "type": "keyword",
        "copy_to": "all"
      },
      "location":{
        "type": "geo_point"
      },
      "pic":{
        "type": "keyword",
        "index": false
      },
      "all":{
        "type": "text",
        "analyzer": "text_anlyzer",
        "search_analyzer": "ik_smart"
      },
      "suggestion":{
          "type": "completion",
          "analyzer": "completion_analyzer"
      }
    }
  }
}

4、给HotelDoc类添加suggestion字段,内容包括brand、business
在这里插入图片描述

5、重新导入数据到hotel库,之前已经编写了这个测试类了:
在这里插入图片描述
在这里插入图片描述

restAPI实现自动补全查询

在这里插入图片描述
编写测试类获取response并逐层解析结果:

	@Test
    void testSuggest() throws IOException {
        SearchRequest request = new SearchRequest("hotel");
        request.source().suggest(new SuggestBuilder().addSuggestion(
                "suggestion",
                SuggestBuilders
                        .completionSuggestion("suggestion")
                        .prefix("h")
                        .skipDuplicates(true)
                        .size(10)
        ));
        SearchResponse response = client.search(request, RequestOptions.DEFAULT);
        Suggest suggest = response.getSuggest();
        CompletionSuggestion suggestion = suggest.getSuggestion("suggestion");
        for (CompletionSuggestion.Entry.Option option : suggestion.getOptions()) {
            String text = option.getText().toString();
            System.out.println("text = " + text);
        }
    }

在这里插入图片描述

实现搜索框自动补全

查看前端页面,可以发现在输入框输入的时候,前端就会发起Ajax请求:
在这里插入图片描述
在这里插入图片描述
既然已经携带了输入的参数,要实现自动补全,需要在服务端编写接口,接收该请求,返回补全结果的集合,类型为List<String>。

HotelController:

	@GetMapping("/suggestion")
    public List<String> getSuggestion(@RequestParam("key") String prefix) {
        return hotelService.getSuggestion(prefix);
    }

实现类HotelService:

	@Override
    public List<String> getSuggestion(String prefix) {
        try {
            SearchRequest request = new SearchRequest("hotel");
            request.source().suggest(new SuggestBuilder().addSuggestion(
                    "suggestions",
                    SuggestBuilders.completionSuggestion("suggestion")
                            .prefix(prefix)
                            .skipDuplicates(true)
                            .size(10)
            ));
            SearchResponse response = client.search(request, RequestOptions.DEFAULT);

            //解析结果
            Suggest suggest = response.getSuggest();
            CompletionSuggestion suggestion = suggest.getSuggestion("suggestions");
            List<CompletionSuggestion.Entry.Option> options = suggestion.getOptions();
            List<String> list = new ArrayList<>(options.size()); //准备要渲染回去的集合
            for (CompletionSuggestion.Entry.Option option : options) {
                String text = option.getText().toString();
                list.add(text);
            }
            return list;
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

在这里插入图片描述
在这里插入图片描述

至此,自动补全功能正式实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/360516.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全彩屏一体化负氧离子监测站在景区中的作用

【TH-FZ5】全彩屏一体化负氧离子监测站在公园景区中的作用主要体现在实时监测与预警、提升游客体验、辅助决策与科学管理、科普教育和促进生态旅游发展等方面。通过这些作用&#xff0c;可以更好地保护和利用景区的生态环境&#xff0c;为游客提供更加健康、愉悦的旅游体验。 …

C51 单片机学习(一):基础外设

参考 51单片机入门教程 1. 单片机简介 1.1 定义 单片机&#xff08;Micro Controller Unit&#xff0c;简称 MCU&#xff09; 内部集成了 CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能单片机的任务是信息采集&#xff08;依靠传感器&#xff09;、处…

嵌入式系统中VSCode配置C/C++环境方法

小伙伴们大家好&#xff0c;今天给大家介绍一款程序员常用的开发神器VSCode&#xff0c;想必大家肯定有所了解&#xff0c;也有很多小伙伴在日常工作中经常使用。当木荣君初次见到VSCode时&#xff0c;真正的被它惊艳到了&#xff0c;可以说是一见钟情。从此就爱不释手&#xf…

CUDA编程- - GPU线程的理解 thread,block,grid - 学习记录

GPU线程的理解 thread,block,grid 一、从 cpu 多线程角度理解 gpu 多线程1、cpu 多线程并行加速2、gpu多线程并行加速2.1、cpu 线程与 gpu 线程的理解&#xff08;核函数&#xff09;2.1.1 、第一步&#xff1a;编写核函数2.1.2、第二步&#xff1a;调用核函数&#xff08;使用…

Linux内核源码

记得看目录哦&#xff01; 1. 为什么要阅读Linux内核2. Linux0.01内核源码3. 阅读linux内核源码技巧4. linux升级内核5. linux的备份和恢复5.1 安装dump和restore5.2 使用dump完成备份5.3 使用restore完成恢复 1. 为什么要阅读Linux内核 2. Linux0.01内核源码 3. 阅读linux内核…

论文阅读-MapReduce

论文名称&#xff1a;MapReduce: Simplified Data Processing on Large Clusters 翻译的效果不是很好&#xff0c;有空再看一遍&#xff0c;参照一下别人翻译的。 MapReduce:Simplified Data Processing on Large Clusters 中文翻译版(转) - 阿洒 - 博客园 (cnblogs.com) 概…

智慧高校|为何要建设实验实训室综合管理平台?

一、平台背景 实训室综合信息管理平台是实训室管理系统能正常运转的框架与核心&#xff0c;它承载了实验室基础管理、实验室安全教育准入考试管理、实验室安全检查管理、试剂耗材管理、危险化学品管理、仪器设备管理、实验队伍管理、物联网终端管理、系统设置、权限管理等软件…

2024前端面试总结—JS篇(文档持续更新中。。。)

1、Event Loop&#xff08;事件循环&#xff09;机制 JS是单线程的非阻塞语言 为什么是单线程&#xff08;如果js是多线程&#xff0c;那么两个线程同时对同一个Dom进行操作&#xff0c;一个增一个删&#xff0c;浏览器该如何执行&#xff1f;&#xff09; 非阻塞&#xff08;…

企业计算机中了360后缀勒索病毒如何处理,360后缀勒索病毒处理建议

网络的不断发展与应用&#xff0c;不仅为企业的生产运营提供了极大便利&#xff0c;还极大地提高了企业生产效率&#xff0c;为企业的生产提供了有利条件。但网络的发展也为企业的数据安全带来严重威胁。近期&#xff0c;云天数据恢复中心接到很多企业的求助&#xff0c;企业的…

【Linux】命名管道

文章目录 命名管道一、命名管道的原理二、命名管道的创建命令行中创建程序中创建 - mkfifo函数&#xff1a; 三、命名管道的使用命名管道实现server&client通信 四、匿名管道与命名管道的区别和联系 命名管道 如果涉及到在文件系统中创建一个有名的管道&#xff0c;那么就…

从0开始搭建若依微服务项目 RuoYi-Cloud(保姆式教程完结)

文章接上一章&#xff1a; 从0开始搭建若依微服务项目 RuoYi-Cloud&#xff08;保姆式教程 一&#xff09;-CSDN博客 四. 项目配置与启动 当上面环境全部准备好之后&#xff0c;接下来就是项目配置。需要将项目相关配置修改成当前相关环境。 数据库配置 新建数据库&#xff…

布局技巧及CSS初始化

一&#xff0c;margin负值巧妙应用 二&#xff0c;文字围绕浮动元素 三&#xff0c;行内块 四&#xff0c;CSS三角强化 五&#xff0c;CSS初始化 一&#xff0c;margin负值巧妙应用 制作盒子的细线边框&#xff1a; 鼠标经过li后变色&#xff1a; 二&#xff0c;文字围绕…

【单片机】使用AD2S1210旋变芯片读取转子位置和速度

最近在做单片机的子项目&#xff0c;经过近半个月的安装调试&#xff0c;第一阶段顺利完成了。只能说第一次做这种小工程确实缺乏经验&#xff0c;跟书本上学的还是有些出入。做下记录&#xff0c;方便后面来查看。 0. 实验要求 基于STM32单片机&#xff0c;使用AD2S1210旋变芯…

布局管理和样式表

目录 手动操作 相关功能解释&#xff1a; Qt Designer或者QC中的Spacer控件及其属性 网格布局 代码操作 setFocusPolicy() 如果不进行布局&#xff0c;意味着界面上的东西都是写死的。 当我们进行布局操作之后&#xff0c;控件的位置、大小一般会根据窗口缩放来自动调整。…

视频怎么去掉人声保留背景声?这4个简单方法你一定要知道

视频怎么去掉人声保留背景声&#xff1f;在日常生活中&#xff0c;我们经常会遇到需要将视频中的声音去除&#xff0c;尤其是要去掉人声而保留背景声音。这不仅在处理个人视频时非常有用&#xff0c;对于许多专业的视频编辑工作来说也是必不可少的。本文将为你介绍4个简单的方法…

RabbitMQ入门概念

目录 一、RabbitMQ入门 1.1 rabbitmq是啥&#xff1f; 1.2 应用场景 1.3 AMQP协议与RabbitMQ工作流程 1.4 Docker安装部署RabbitMQ 二、SpringBoot连接MQ配置 2.1 示例1 2.1 示例2 —— 发送实体 一、RabbitMQ入门 1.1 rabbitmq是啥&#xff1f; MQ&#xff08;Message…

solidworks 焊接型材库

型材库中有大部分型材 H型钢有49种 八角钢有40种 扁钢有60种 不等边钢有84种 槽钢有41种 也可以按照自己需要的去添加 下载地址https://download.csdn.net/download/jintaihu/19347986

opencv——将2张图片合并

效果演示: 带有绿幕的图片的狮子提取出来,放到另一种风景图片里! 1. 首先我们要先口出绿色绿幕,比如: 这里将绿色绿色绿幕先转为HSV,通过修改颜色的明暗度,抠出狮子的轮廓。 代码 : import cv2 as cv import numpy as np import matplotlib.pyplot as plt def showI…

3671系列矢量网络分析仪

01 3671系列矢量网络分析仪 产品综述&#xff1a; 3671系列矢量网络分析仪产品包括3671C&#xff08;100kHz&#xff5e;14GHz&#xff09;、3671D&#xff08;100kHz&#xff5e;20GHz&#xff09;、3671E&#xff08;100kHz&#xff5e;26.5GHz&#xff09;、3671G&#x…

幻兽帕鲁服务器多少钱?幻兽帕鲁服务器价格,2月最新

2024年幻兽帕鲁服务器价格表更新&#xff0c;阿里云、腾讯云和华为云Palworld服务器报价大全&#xff0c;4核16G幻兽帕鲁专用服务器阿里云26元、腾讯云32元、华为云26元&#xff0c;阿腾云atengyun.com分享幻兽帕鲁服务器优惠价格表&#xff0c;多配置报价&#xff1a; 幻兽帕鲁…